17.07.2025 17:07
"Родина"

Старинные тексты Тибета "взломала" российская студентка

Текст:  Татьяна Румянцева
В Новосибирске разработана уникальная программная платформа для распознавания, оцифровки и анализа классических тибетских текстов. Как сообщили в Новосибирском государственном университете (НГУ), это приложение создала их студентка Анна Мурашкина.
Студентка поставила перед собой задачу создать модель, которая распознавала бы символы тибетского алфавита с изображений и переводила их в машиночитаемый вид с высокой точностью. / пресс-служба НГУ
Читать на сайте RODINA-HISTORY.RU

Девушка обучается на направлении "Фундаментальная и прикладная лингвистика", созданная ею платформа ориентирована на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми. В своей работе студентка использовала изображения страниц классических тибетских текстов начиная с XVIII века из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН.

Актуальность работы, по мнению юной исследовательницы, обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного множеством исторических рукописей. Старопечатные документы содержат уникальные сведения о философии, религии, медицине, истории и искусстве. Но бумажные носители подвержены физическому разрушению. Сегодня в Тибетском фонде Института монголоведения хранится до 70 тысяч единиц хроники, которые находятся под угрозой.

Студентка поставила перед собой задачу создать модель, которая распознавала бы символы тибетского алфавита с изображений и переводила их в машиночитаемый вид с более высокой точностью, чем уже существующие решения. Для этого она вручную сделала лингвистическую разметку строк тибетского текста и разработала систему оценки качества оптического распознавания символов (OCR), учитывающую специфику тибетской графики. В результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки.

Оцифрована редкая исламская рукопись, выдержавшая три переиздания

Разработку будут использовать в Институте монголоведения. Обсуждается сотрудничество с Буддистским центром цифровых технологий для дальнейшей оцифровки рукописей.

Тибет
Новости История