88,8 %: проблеми «Оцінки чисельності наявного населення»

Демографія, Статистика

Дані статево-вікової структури в проведеній командою міністра Дубілета «Оцінці населення» отримано шляхом множення даних Держстату (про статево-вікову структуру) на 0,888 (або 88,8%), і це не «фальсифікація», а частина застосованої методології 🙁

Це оновлена версія матеріалу, зміни та доповнення внесені після роз’яснення міністра Кабінету міністрів України Дмитра Дубілета щодо методології результатів “Оцінки чисельності наявного населення”, що здійснювалася з використанням наявних електронних реєстрів, даних мобільних операторів, обстеження домогосподарств, даних Держстату.

Так, 23 січня 2020 р. міністр Кабінету міністрів України Дмитро Дубілет у своєму телеграм-каналі опублікував PDF-файл з презентацією «Оцінки чисельності наявного населення».

Було оприлюднено дані, що загальна кількість наявного населення України (без окупованих територій Донбасу та Криму) складає 37 289 000 осіб, станом на 1 грудня 2019 р.

Зауваження: сама загальна кількість населення, отримана в результаті “Оцінки” видається доволі реалістичною, і, в принципі, питань не викликає.

Питання виникли щодо презентованої статево-вікової структури. Так, одним із методів було заявлено «Комбінований метод оцінки чисельності наявного населення (дані статево-вікової структури населення + дані реєстрів)».

01

Що про цей метод оригінально (із першої презентації) було відомо:

  1. Вираховувалися частки населення за статево-віковою структурою за даними Держстата та державних реєстрів
  2. Із даних Державного реєстру загальнообов’язкового державного соціального страхування визначалася чисельність осіб віком 60+ з урахуванням пенсіонерів із ОРДЛО, які приїжджають по пенсії
  3. Дані щодо чисельності осіб віком 60+ екстраполювалися на дані статево-вікової структури

02

Власне, виходячи із цієї наявної інформації, і було зроблено нами припущення, що ЧЕРЕЗ певні отримані дані про статево-вікову структуру наявного населення, було також отримано дані про загальну кількість населення (адже це було представлено як один із методів оцінки кількості населення).

Так, вирішили ми подивитися, наскільки статево-вікова структура населення, представлена в «Оцінці…», корелює із даними, що опубліковані на сайті Державної служби статистики України.

Отримавши дані, що лежать у вільному доступі на сайт Держстату (Таблиця: 0204. Розподіл постійного населення за статтю, віковими групами та типом місцевості), ми їх згрупували за віковими групами, зазначеними у презентації п. Дубілета:

  • Діти: 0-14 років
  • Ранній працездатний вік: 15-24 роки
  • Основний працездатний вік: 25-54 роки
  • Зрілий працездатний вік: 55-64 роки
  • Літні люди: 65 років і старше

Результат можна побачити у таблиці:

https://docs.google.com/spreadsheets/d/1il-RCOHuy6kozVcR-V0de1vf50gQC6gieVp5Zgt7gvg/edit?usp=sharing

Потім узагальнені за віковими групами дані ми співставили із показниками з презентації Дубілета. Відразу якось дивно вразило практичне однакове співвідношення між статево-віковими групами — що становить близько 88,8% (дані Дубілета від даних Держстату).

03

І тут закралася підозра. А, що якщо ніякої «екстраполяції» насправді не було? А було тупо множення даних Держстату на коефіцієнт 0,888 (або 88,8%)? А незначні розбіжності у співвідношеннях — це лише результат округлень.

Маючи сподівання, що це все-ж таки плід нашої уяви, і не може ж все бути так тупо, ми спробували відтворити можливе застосування коефіцієнта 0,888 до даних Держстату. Після кількох ітерацій (що зайняло з півгодини часу), нам вдалося із практично 100% точністю згенерувати дані, що їх опублікував п. Дубілет, як буцімто результат «екстраполяції» даних пенсійного реєстру на дані Держстату.

04

Звертаємо увагу, що на другому кроці округлення до сотень було здійснено через ROUNDUP — до найближчого більшого значення (не питайте, чому, це загадка для нас). Також ці розрахунки може повторити кожен охочий, а для зручності ми також виклали табличку з нашими розрахунками у вільний доступ: https://docs.google.com/spreadsheets/d/1il-RCOHuy6kozVcR-V0de1vf50gQC6gieVp5Zgt7gvg/edit#gid=1131691965
05

Як видно із табличок, лише для однієї статево-вікової групи (жінки, 15-24 роки) результат наших примітивних розрахунків не збігся із супер-сучасними методами обробки і аналізу «big data» п. Дубілета. Так, замість 1740 тис осіб, у нас вийшло 1741 тис осіб.

Але, при цьому, варто відзначити, що у п. Дубілета також не сходяться суми за віковими групами. Так, якщо просумувати усіх чоловіків у його презентації, то виходить 17 млн 281 тис, а не 17 млн 280 тис осіб.

Так, внаслідок проведеного аналізу, у нас виникли підозри у грубій фальсифікації “Оцінки”.

На наступний день, 5 лютого 2020 р., Дмитро Дубілет опублікував свою реакцію, у якій назвав нашу публікацію фейком («Вчора Інтернетом поширився фейк про нібито фальсифікацію „Оцінки чисельності населення“»), але одночасно підтвердив, що наші висновки відповідають застосованій методології («Незрозуміло, навіщо підносити, як „сенсацію“ те, що було чорним по-білому написано нами ж в описі методології.»)

На сайті Державної служби статистики було також опубліковано повідомлення (http://www.ukrstat.gov.ua/Noviny/new2020/zmist/novini/pr_ochnu.htm), у якому спростовувалося те, що насправді ми не піддавали сумніву. Цитата:

«У засобах масової інформації було поширено повідомлення щодо невиконання робіт з оцінки чисельності наявного населення України станом на 1 грудня 2019 року (по регіонах України) та отримання оцінки чисельності наявного населення України 37 млн 289 тис. осіб шляхом звичайних математичних операцій (множенням на 0,888).»

Це не так, адже у нашому матеріалі йшлося про отримання даних щодо СТАТЕВО-ВІКОВОЇ СТРУКТУРИ наявного населення в презентованій «Оцінці». Можна припустити, що Держстат мав на увазі можливі недобросовісні передруки у ЗМІ, які випадково (або навмисне) спотворили сенс нашої публікації про виявлену аномалію.

У повідомленні Держстату жодним чином не розкривалося питання щодо обрахунку статево-вікової структури.

6 лютого 2020 р. відбувся брифінг Дмитра Дубілета стосовно методології розрахунку чисельності наявного населення України (https://www.youtube.com/watch?v=ATzfEJYhNOQ).

Стосовно контроверсійного питання ймовірного отримання даних щодо статево-вікового розподілу населення шляхом множення відповідних даних Держстату на 0,888, Дмитро Дубілет озвучив таке:

Ми не готові просто так використовувати «ялинку» [мається на увазі статево-вікова піраміда] Держстату, нам потрібно провести додаткові дослідження, щоб зрозуміти, наскільки ця «ялинка» є коректною.

І тут почалася робота з великими даними, з багатьма джерелами інформації. Що ми зробили? Ліворуч ви бачите ту саму демографічну ялинку […] Ми взяли інформацію із податкової системи і побудували там свою «ялинку». […] Ми взяли «піраміду» від ДПС і наклали її одна на одну. У нас є дві піраміди, і нам треба було впевнитися, наскільки вони співпадають, або не співпадають. Я пам’ятаю ту ніч, коли Павло, який сидить праворуч від мене [ймовірно, Павло Полікарчук — засновник проекту «РЕЙТИНГ. Бізнес в офіційних цифрах»], почав писати емоційні повідомлення, що “нічого собі, вони співпали повністю, до тисячної долі після коми”.

Якщо вдуматися, то в цьому є сенс, тому що якщо Держстат веде свою піраміду на основі тих даних, які отримують із реєстрів, якщо ДПС також веде свою піраміду на основі реєстрів, було б логічно, щоб вони співпали. Але те, що вони співпали після 20 років незалежного житя у різних системах, для нас все рівно це було чудом. Якщо висловлюватися обивательською мовою, то вони співпали по формі. Єдине, що ви бачите, що не співпало — це те, що ви бачите внизу.

Піраміда праворуч не враховує дітей, бо у податковій немає інформації про дітей. Тому на цю піраміду нам довелося додатково накласти інформацію про дітей по базі Мінюсту.

Потім, коли ми почистили базу ДПС, у нас було дві вибірки: одна — просто сирі дані від ДПС, і друга — коли ми їх почистили по тих критеріях, коли я розповідав про другий метод. Ми знову їх наклали одна на одну, і, знову ж таки, по структурі вони співпали до третього знаку після коми.

Коли ми зробили цю досить велику роботу, ми сказали собі, що тепер ми маємо наукову підставу, щоб використовувати піраміду, яку веде Державна служба статистики, для того, щоб не просто оцінити кількість населення, а зробити розподіл по віку та по статі.

Що ми зробили:

  • Впевнились, що статево-вікова структура, яку веде Держстат, є достовірною. Ми зробили дуже велику роботу, щоб впевнитися, що ця піраміда є коректною, і на щастя, вона повністю співпала.
  • Ми визначили кількість наявного населення, прийнявши середнє значення між методами
  • Здійснили розподіл визначеної кількості наявного населення за статево-віковою структурою.

Яким чином виглядала ця робота, дуже легко побачити на цьому слайді. Ліворуч табличка — у відсотках розподіл населення по різних групах. Далі ми накладаємо це на те загальне число наявного населення, яке в нас вийшло. І, врешті, перемноживши цю матрицю на це число, ми отримали матрицю по тому, скільки у нас людей у різних статево-вікових групах.

Таким чином, Дмитро Дубілет підтвердив, що пропорцію статево-вікового розподілу населення (за даними Держстату) було безпосередньо перенесено на загальну кількість населення, отриману в процесі здійснення “Оцінки наявного населення”. Відкинувши звинувачення в обмані чи мухляжі, він підтвердив, що ця процедура була частиною методології.

На запитання, звідки ж взявся коефіцієнт 0,888, Дмитро Дубілет відповів:

“Якщо ви розділите оцінку, яку ми зробили, на дані Держстату (за офіційним переписом), то ми отримаємо оці 0,88.”

Те, що Дмитро Дубілет визнав застосування такого підходу до оцінки статево-вікової структури, не означає, що такий метод є допустимий.

Чому не можна просто переносити пропорцію статево-вікових груп із наявних даних Держстату на оціночну кількість наявного населення?

Як коментує аналітик, консультант Українського центру суспільних даних, Андрій Процюк, для цього є багато причин:

Якщо ми ми перемістимося у реальність, де ця піраміда (утворена внаслідок множення даних Держстату на 0,888) відповідає реальності:

  • Через рік після народження дітей (а всі народження реєструються у системі Мінюсту, а відтак і в Держстаті), 11.2% (100%-88,8%) їх кудись зникає.
  • Заробітчанство поширене однаково в усіх вікових групах. Люди, які їдуть копати помідори у Польщу, забирають з собою пропорційну кількість дітей і пенсіонерів, 11.2%?
  • Смертність, яка теж повністю реєструється, припадає на меншу кількість людей. Відповідно, тривалість життя стає на ~12.6% менше офіційної.
  • За даними Держстату, в Україну з часу останнього перепису приїхало на 220 тис. людей більше ніж виїхало, з них навіть після 2014 року на 90 тис. людей більше. Цифри фантастичні і, тим не менше, вони закладені у статево-вікову піраміду Держстату, яка взята за основу для розрахунків.
  • На початку 2019 за даними пенсійного фонду було 8.7 млн пенсіонерів за віком (без ОРДЛО), фонди оплати розподіляються саме на це число. Якщо брати за реальність “розраховану” статево-вікову піраміду, то виходить, що пенсіонерів на 11.2% менше, і це означає, що або 11.2% фонду річної оплати пенсій крадуть, або реальна пенсія на 12.6% вище. І пенсійний фонд занижує статистику розміру пенсій, а пенсіонери прибідняються.

Насправді, при 88.8% населення, статево-вікова піраміда буде суттєво відрізнятися від держстатівської. І різниця — в залежності від вікових груп — буде мати параболічний вигляд. У наймолодших і найстарших вікових групах відхилення будуть мінімальні (менше 5%), а у середніх вікових групах — максимальні (в районі 20%).

Окрім статево-вікової структури “Оцінки чисельності наявного населення” та “0,888”, лишаються відкритими інші питання щодо методології оцінки. Так, зокрема, Кирил Захаров, керівник проекту “Суд на долоні”, у своїх дописах на фейсбуці піднімав такі питання:

На “волонтерських засадах” було проведено статистичне обстеження 26,7 тис. домогосподарств. При цьому “дані збиралися з урахуванням території проживання, статі, віку, соціального статусу респондентів”. Покажіть мені цю армію волонтерів.

Чи можна назвати волонтерською діяльністю роботу співробітників Держстату, які в рамках чергового обстеження повинні були поставити додаткове запитання про кількість мобільних телефонів? Чи були співробітники Держстату повідомлені про те, що це їх волонтерська робота? Припустимо, що на одне питання з відповіддю витрачається 1 хвилина. Було отримано 26.7 тисяч відповідей. Тобто витрачено 445 годин робочого часу. Якщо це не волонтерська діяльність, то з чого ми знецінили майже 56 робочих дня до 0 для бюджету?

Три оператора мобільного зв’язку проводили підрахунки окремо. Дані бралися за лютий-березень 2019 р., тобто майже річної давнини. Чому? Одна гіпотеза, що що їх збирали під завдання президентської кампанії, або це могло бути пов’язано з комерційною таємницею операторів. Чи робилося хоч якесь коригування даних, хоча б на рівні простих лінійних моделей або оцінка похибки, що її вносить неакутальність даних?

Частка мобільних операторів, які надали дані, становить 98% ринку. Крім цього є нюанси з формулюванням питання в опитуванні, теоретична похибка опитування і т. д. Чи дійсно похибка результату може становити всього 3%?

Чому було прийнято рішення, що похибку можна оцінити, порівнявши результати трьох методів?

За результатами репрезентативного опитування визначили, що охоплення населення мобільними телефонами склав 88.8% (одна із попередніх версій появи “таємничого коефіцієнта). А середня кількість SIM-карт — 1.21.

Що має сказати середня кількість сім-карт на одного абонента, якщо розподіл не є розподілом Гаусса, а, скоріше, підходить під розподіл Пуассона. Чому б не опублікувати гістограму?

Питань до методології, а відтак і надійності проведеної оцінки залишається багато.

Єдиним вірним рішенням, для отримання максмимально надійних даних про населення України — є проведення повноцінного перепису населення.

Причому, — із попередньою та якомога масштабнішою інформаційною, роз’яснювальною кампанією щодо важливості перепису, для більшої відкритості громадян, для підвищення якості даних. Маючи таку рекордний рівень довіри, влада могла б використати це якнайкраще. Чому ж влада робить так багато для дискредитації перепису?

06