29.12.2016

Практичні аспекти обробки даних Єдиного реєстру судових рішень

renattext
Напрямки: Культура даних.
Географія: Україна
Період: 12/2016

Ренат Насрідінов, Український центр суспільних даних

В рамках дослідження «Як судили Автомайдан» було використано дані Єдиного державного реєстру судових рішень (ЄДРСР) в частині рішень, винесених під час розгляду справ про адміністративні правопорушення, передбачені ст.‌ 122-2 КУпАП (вибірка проводилася за згадуванням у контексті рішення сполучення «122-2» та його варіанти) судами першої інстанції та апеляційними судами за період з 01.01.2013 по 01.01.2015.

Загальна кількість рішень за даними ЄДРСР за цей період становила 5670, але згодом під час обробки текстів рішень було встановлено, що в масиві даних містяться також рішення за іншими статтями (наприклад, ст. 212-2. «Порушення законодавства про державну таємницю»); такі рішення було видалено із масиву даних.

Усього остаточна кількість рішень за ст. 122-2, що була отримана з ЄДРСР,  становить 5655.

Проблемні питання

Відсутність API. Головним проблемним питанням на етапі формування масиву даних є те, що сайт ЄДРСР станом на грудень 2016 року не має інтерфейсу прикладного програмування (англ. Application Programming Interface, API), який дозволив би за допомогою програмних засобів швидко та зручно отримувати необхідну інформацію із Реєстру.

Без використання API отримання судових рішень займає велику кількість часу та призводить до значних втрат матеріальних та людських ресурсів.

Наявність значної кількості помилок у текстах рішень. Під час обробки масиву даних, що складається із текстів рішень,  серед інших завдань було виділення дати та адреси скоєння правопорушення.

Згідно із вимогами постанови пленуму Вищого господарського суду України від 23.03.2012 №6 «Про судове рішення» рішення має бути викладено грамотно, не містити граматичних і стилістичних помилок.

Незважаючи на це, значна кількість рішень має помилки (здебільшого стилістичні помилки та помилки при написанні топонімів). І хоча ці помилки можуть здаватися незначними, їх наявність значно ускладнює обробку текстів рішень, оскільки автоматизована обробка потребує чіткої формалізації поставлених завдань.

Приклади:

  • по пр.-ту (зайва крапка);
  • в с . Осоївка (крапка після скорочення «с.» не має відбиватися за допомогою пробілу);
  • в смт. Нова ОСОБА_2.-Волинського р-ну (помилкова заміна частини назви «Володимир-Волинського» на «ОСОБА_2.»);
  • по вул.Шевченка (скорочення «вул.» потрібно відбивати за допомогою пробілу);
  • с.м.т.Шевченкове (правильно — «смт. Шевченкове»);
  • в м.радомишлі по вул.9-гоСічня (правильно — в м. Радомишлі по вул. 9 Січня)

Різний стиль (структура) тексту рішення. Стосується як визначення дати, так і визначення адреси.

При визначенні дати масив рішень можна поділити на дві частини:

  • рішення, у тексті яких перша дата, що зустрічається у вступній частині, є датою скоєння правопорушення («17 липня 2014 року о 23 годині 30 хвилин по вул. Кільцева Дорога – вул. Леніна в м. Києві по ОСОБА_1, керував…»);
  • рішення, у тексті яких перша дата, що зустрічається у вступній частині, є датою надходження адміністративного матеріалу до суду («26 квітня 2013 року до Апостолівського районного суду надійшов адміністративний матеріал <…>. Згідно протоколу про адміністративне правопорушення серія АГ2 №746874, 13.04.2013 року водій…»

При визначені адреси місця скоєння правопорушення у текстах рішень існує велика кількість варіацій написання, наприклад:

  • по (на) вулиці (проспекту, проспекті) назва м. назва
  • в м. назва по (на) вулиці (проспекту, проспекті) назва на N км а/д (а\д, автодороги, автошляху, дороги) населений пункт 1 — населений пункт 2

Усього під час дослідження було виявлено більше 125 варіантів написання адрес місця скоєння адміністративного правопорушення (і це без урахування того, що окрім безпосередньо «вулиці» існують такі типи вулиць як «проспект», «бульвар», «площа», «набережна», «шосе» та багато інших, які до того ж можуть мати різні варіанти скорочень).

Бінарні дані у реєстрі. По деяким рішенням (реєстраційні №№ 50164031, 50070862, 50070923, 50070960, 50070954, 50063240, 50063242, 50063247, 50099787, 50132773, 50134980) в реєстрі замість змісту рішення містяться не текстові, а бінарні дані, що можуть бути залишками бінарних даних документів типу Microsoft Word.

Відсутність деяких рішень у реєстрі. Перед початком обробки масиву даних було виявлено, що інформація по рішенням із реєстраційними номерами №№ 31432692, 31433205, 32619339, 30711779, 36221219 міститься у ЄДРСР, але текст цих рішень відсутній.

Однак станом на 28.12.2016 текст чотирьох із п’яти перелічених рішень вже був  присутній у реєстрі, відсутній був лише текст рішення №36221219.

Без-имени-3

Рекомендації

Виходячи з викладеного вище, можна зробити висновок, що існуюча система обліку судових рішень в ЄДРСР хоч і реалізує відкритість судових рішень, проте має ряд недоліків, що ускладнюють їх обробку у випадку, коли потрібно проаналізувати значний масив цих рішень.

Оскільки єдиною вимогою до стилю судового рішення є його доступність, то питання складності автоматичної обробки через вищезазначені фактори можливо було б вирішити за допомогою внесення докорінних технологічних змін у систему ЄРДР, а саме: додати до процедури внесення рішення окремі позиції (поля), у яких користувач обирав би:

  • дату скоєння правопорушення із елементу вводу «календар»;
  • місце скоєння правопорушення, причому для більшості випадків це було б доцільно зробити не ручне введення, а обрання адреси за допомогою сукупності довідників населених пунктів, вулиць, їх типів та назв;
  • система вводу повинна також передбачати наявність примітки для найбільш екзотичних випадків (таких як «в районі електроопори №32»).

Такий підхід дозволить виключити невірне написання, стилістичні та інші помилки та зберігати дату скоєння правопорушення та його адресу в базі даних окремо, що збільшить швидкість та якість обробки судових рішень.