В Новосибирске разработана уникальная программная платформа для распознавания, оцифровки и анализа классических тибетских текстов. Как сообщили в Новосибирском государственном университете (НГУ), это приложение создала их студентка Анна Мурашкина.

пресс-служба НГУ
Студентка поставила перед собой задачу создать модель, которая распознавала бы символы тибетского алфавита с изображений и переводила их в машиночитаемый вид с высокой точностью.
Девушка обучается на направлении "Фундаментальная и прикладная лингвистика", созданная ею платформа ориентирована на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми. В своей работе студентка использовала изображения страниц классических тибетских текстов начиная с XVIII века из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН.
Актуальность работы, по мнению юной исследовательницы, обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного множеством исторических рукописей. Старопечатные документы содержат уникальные сведения о философии, религии, медицине, истории и искусстве. Но бумажные носители подвержены физическому разрушению. Сегодня в Тибетском фонде Института монголоведения хранится до 70 тысяч единиц хроники, которые находятся под угрозой.
Студентка поставила перед собой задачу создать модель, которая распознавала бы символы тибетского алфавита с изображений и переводила их в машиночитаемый вид с более высокой точностью, чем уже существующие решения. Для этого она вручную сделала лингвистическую разметку строк тибетского текста и разработала систему оценки качества оптического распознавания символов (OCR), учитывающую специфику тибетской графики. В результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки.
Разработку будут использовать в Институте монголоведения. Обсуждается сотрудничество с Буддистским центром цифровых технологий для дальнейшей оцифровки рукописей.
Подпишитесь на нас в Dzen
Новости о прошлом и репортажи о настоящем