Магистрант факультета информационных технологий Новосибирского государственного университета Степан Гудков разработал программное обеспечение, которое позволяет автоматизировать процесс распознавания рукописных исторических документов. Речь идет о книгах решений волостных судов. Они существовали в России в начале XX века. Работа направлена на ввод в научный оборот судебных решений, в которых отражены многие аспекты жизни сибирских крестьян.

andcvet.narod.ru
Портрет крестьянской России - это не только редкие архивные фото, но и документы.
Это были не просто судебные документы, а описание крестьянской жизни. Читая их, можно узнать, какие у них были повседневные заботы, их характеры и привычки, пишет пресс-служба вуза. Как считает Алексей Кириллов, старший научный сотрудник Института истории Сибирского отделения РАН, это фотографический портрет крестьянской России.

Поэтому и решили сделать эти сведения доступными широкому кругу историков и интересующихся людей, причем не просто отобрать 100 решений, а оцифровать и распознать большое количество документов, представить их в понятном современному читателю виде.
Вручную оцифровывать документы очень тяжело. Поэтому помогли на факультете информационных технологий Новосибирского государственного университета. Как рассказал автор проекта Степан Гудков, система принимает на вход изображение страницы из книги решений волостных судов. Оно разбивается на несколько небольших фрагментов, каждый из которых делится на отдельные строки текста, для чего можно использовать нейросети. После этого изображение строки конвертируют в текст.
Распознанный текст, конечно, будет содержать ошибки, поэтому требуется провести его постобработку: хотя бы сверить по словарям. В результате должен быть получен текстовый файл, содержащий распознанный текст.
В вузе создали алгоритм машинного зрения, помогающий обучать нейросети распознавать слова как набор символов, без осмысления и корректировки. Дальнейшая доработка алгоритма предполагает, чтобы, исходя из смысла и контекста, система предлагала возможные варианты написания, правки, на основании которых человек мог принять решение, какой вариант корректный.
В перспективе планируют создать публичную информационную систему с контекстным поиском. Это позволит исследователям и всем интересующимся легко находить дела волостных судов по селам, личностям или категориям.
Подпишитесь на нас в Dzen
Новости о прошлом и репортажи о настоящем