8. Як поширювати дані

8. Як поширювати дані

У розділі увагу читача привертають до того факту, що він сам щойно побував у ролі кінцевого споживача чиїхось публікацій і тому з очевидністю відчуває, як саме треба ділитися результатами своєї роботи з даними, щоби не збільшувати кількість страждань і непорозумінь.

Поширення відкритих даних

Будь-яка діяльність має початок і кінець. Кінець чогось одного є початком чогось іншого. Робота з даними завершується публікацією. Ця публікація може стати одним із джерел або й відправною точкою іншого дослідження, тому варто подбати про її коректність і зручність її використання.

Звичайно, можна зосередитися на ідеї, що кожна публікація орієнтована на певну аудиторію, і відповідно до того подавати дані, обмежуючись, наприклад, для публікації, орієнтованої на масового читача, просто візуалізацією із посиланням на джерело даних, наприклад «візуалізація за даними Держстату». Але якщо комусь із читачів захочеться перевірити ці дані, таке посилання на джерело допоможе дуже незначною мірою.

В паперових публікаціях такий підхід виправданий обмеженістю обсягів видання і необхідністю дотримання орієнтованого на певну читацьку аудиторію стилю. Але оприлюднення інформації в інтернеті позбавлене таких обмежень, тому цілком резонно подбати не лише про зручність масового (і неприскіпливого) читача, але і про інтереси читача вдумливого, якому може бути цікаво отримати не лише висновки з даних, а й самі дані, бажано разом із інформацією, ким, коли і за якою методикою їх зібрано.

Хорошою практикою є публікувати не лише свої висновки і візуалізації, а й дані, з яких їх отримано, методики і засоби їх обробки, тощо. Ідеальна публікація мала б давати проникливому читачеві (чи вже, скоріше, користувачеві) змогу, за бажання, відтворити авторський аналіз, перевірити методику і переконатися у авторських висновках чи зробити свої. Відтворюваність експерименту є важливим критерієм його науковості, а журналістика даних є як не науковою, то принаймні наукуватою діяльністю. Але саме до цієї частини діяльності руки можуть не дійти, і не завжди можливо приділити їй достатню увагу.

Багато публікаторів даних, наприклад, державні структури на порталі data.gov.ua, системно нехтують не лише використанням для поширюваних даних машиночитаних форматів, перетворюючи портал на репозиторій сканів документів з мокрою печаткою (в чому є свій сенс, до речі), але й наданням про ці дані інформації, про те, як їх отримано і за якою процедурою.

Проте навіть такі — кошмарні для дослідника — публікації є важливим кроком у відкритті даних. Як не дивно, завдяки тому факту, що умови поширення, прописані Законом України «Про відкриті дані», можна розглядати як різновид відкритої ліцензії, скановані документи з data.gov.ua потрапляють під означення «однозіркових» відкритих даних за запропонованою винахідником Вебу, Тімом Бернерсом-Лі, п’ятизірковою схемою поширення відкритих даних (5stardata.info).

Варто звернути увагу на те, як саме ця система розставляє пріоритети.

★ — доступність у вебі й відкрита ліцензія

Дані в будь-якому форматі оприлюденено у Вебі на умовах відкритої ліцензії. Як приклади такої ліцензії наведено ODC-by — ліцензію, що зобов’язує вказувати походження даних як умову вільного ними користування і CC0 та PDDL — ліцензії передачі у суспільну власність (public domain).

Важливо, що ліцензійна відкритість є важливішою за формат даних. Справді. якщо опубліковані дані комусь потрібні, і вони перебувають під дією відкритої ліцензії, дослідник, якому вони знадобилися, може поділитися результатами свого витягання датасета зі сканованих документів, і дані таким чином досягнуть принаймні двозіркового стану.

★ ★ — структурований вигляд

Крім умов першої зірочки, має бути надане структуроване представлення даних — незалежно від формату, в якому це зроблено. Тобто, поза тим, чи це файл сучасних Excel чи Numbers, чи стародавнього 123 чи VisiCalc — ці дані вже структуровано, їх можна (за потреби конвертуючи) брати дo роботи, вони двозіркові.

Важливо, що всі неструктуровані і погано структуровані документи типу файлів офісних редакторів це не дві зірочки, а одна, в компанії зі сканами. Справді, відсутність структурованих даних, імовірніше за все, означає що з ними належним чином не працювали або файли, утворені в цьому процесі, недоступні публікаторові з тих чи інших причин. Якщо ж із даними працювали, досягнення другої зірочки просте як пересилання файла.

★ ★ ★ — відкритий формат

Крім умов перших двох зірочок, дані мають бути у відкритому форматі. Власницькі формати даних прив’язані до певних програмових рішень, крім того, вони міняються від версії до версії конкретної програми. Відкритий формат дає гарантію придатності даних до обробки різними програмовими засобами, в тому числі в майбутньому. Наприклад, CSV-файл, що легко імпортується в електронні таблиці і бази даних сьогодні, так само імпортуватиметься в ще не написані електронні таблиці, бази даних і щось ще невідоме, що неодмінно вигадають для роботи з даними за цей час, за сто чи двісті років.

Важливо, що структурованості даних надано перевагу над відкритістю формату. Справді, неструктуровані дані у дуже відкритому і готовому до майбутнього форматі лише забезпечать майбутнього дослідника роботою з очищення і структурування, що значно неприємніше ніж найти конвертер призабутого формату файла.

★ ★ ★ ★ — для позначення речей використано URL, так що користувачі можуть вказувати на них

Всі дані, відкриті в межах перших трьох зірочок, присутні у Вебі, але не є його органічною частиною. Зокрема, на них можна послатися лише як на ціле, а їхня семантика не досить прозора для прямого використання. За допомогою RDF дані може бути розмічено таким чином, що їхня семантика стає прозорою, а окремі записи отримують чіткі URL, на які можна послатися. Таким чином, сегменти даних можуть бути використані іншими ресурсами безпосередньо.

Структура RDF — граф — дещо складніша для розуміння, хоча і гнучкіша за табличні і деревуваті дані. Якщо не ставити на меті доступ до сегментів даних, про чотири зірочки можна не дбати.

★ ★ ★ ★ ★ — дані пов’язано з іншими даними для надання контексту

П’ятизіркові дані до того ж перелінковано з іншими даними, що додає контекст. Наприклад, про кожен об’єкт дослідження дано однозначну вказівку, що це за об’єкт, і де можна знайти інші дані про нього. Це дуже правильно, зручно і вебово, але досяжно лише ціною значних зусиль. Крім того, використання зовнішніх даних може викликати проблеми з їхньою доступністю, на що треба регулярно звертати увагу.

Якщо не ставити на меті саме подачу даних в контексті, досягненням п’ятої зірочки можна не надто перейматися.

В ідеальному світі дані типу тих, що оприлюднюються на data.gov.ua, мають бути виключно п’ятизірковими, що давало би дослідникам даних розкішне поле для визбирувань і порівнянь, пошуку закономірностей і аномалій, але в реальному житті зірочка там одна, і з певною натяжкою.

Найбільше, що ми можемо зробити для того, аби наблизитися до ідеалу — робити якісні дослідження і правильно публікувати дані — подавати приклад, аби з часом це ставало звичкою і нормою.

Отож, як варто викладати дані, щоби це було реально круто?

  1. Треба давати доступ до сирих даних. Якщо початковою точкою були скани документів, потрібні ці скани. Якщо заміри записувалися у бінарний файл, потрібен він. Якщо дані було розкидано по жахливо плутаних ексельних табличках і вордових документах, потрібен весь цей мотлох.

  2. Треба давати очищений набір даних, такий, що з ним можна працювати одразу.

  3. До нього має бути чіткий опис всіх змінних і значень.

  4. Має бути описано, яким чином із сирих даних отримано чистий датасет, якщо для цього застосовувалися скрипти, варто поширити і ці скрипти.

  5. Якщо є інформація про те, як, ким і за якою методикою зібрано дані, вона необхідна, якщо її немає, варто вказати, що її нема і з якої причини.

Проте, не всі етичні проблеми публікації результатів роботи з даними стосуються того, як зручно поширювати дані. Деякі дані поширювати неетично або заборонено.

Які дані не можна поширювати і як бути, коли вони потрібні?

З викладеного вище може скластися враження, що етика поширення даних полягає у відкритості, і чим відкритіше поширено дані, тим така дія етичніша. І з відкритими даними це саме так і є.

Але не будь-які дані є відкритими, і поширення не будь-яких даних етичне і взагалі припустиме. Крім даних, що становлять державну або службову таємницю, заборонено поширювати також особисті дані людей.

До наборів даних, за якими стоять конкретні люди, особисті дані яких не має бути поширено, застосовуються техніки деперсоналізації. Зокрема, з даних має бути усунуто не лише імена, адреси й інші ідентифікатори, що однозначно вказують на конкретних людей, а й дані, що можуть вказати на це опосередковано. Наприклад, в датасеті пересувань може бути необхідно прибрати кінцеві точки, що однозначно вказують персоналію того, хто так пересувався. Зрозуміло що робота з деякими наборами даних після такої обробки стає малоосмисленою, а то й позбавленою сенсу.

Слід пам’ятати, що згоди на обробку особистих даних не означають згоди на їх відкрите поширення.

Наостанок, варто згадати, що головне в даних — мета, з якою їх збирають, обробляють і поширюють і наш вибір — мати цю мету достойною і робити її досяжною.