В Новосибирске студентка создала приложение для анализа тибетских текстов

НОВОСИБИРСК, 17 июл – РИА Новости. Студентка Новосибирского государственного университета (НГУ) создала приложение для автоматического распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения, сообщает НГУ в четверг.

"Уникальная программная платформа, предназначенная для автоматизированной обработки документов на тибетском языке, будет востребована исследователями, архивными работниками и библиотекарями. Новый фреймворк должен способствовать сохранению тибетского текстового наследия, являющегося, в том числе, частью культурного достояния бурятского народа", - говорится в сообщении.

Систему, ориентированную на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми, создала работающая в Институте вычислительной математики и математической геофизики Сибирского отделения РАН студентка направления "Фундаментальная и прикладная лингвистика" гуманитарного института НГУ Анна Мурашкина. В исследовании она использовала изображения страниц классических тибетских текстов XVIII-XX веков из архивов.

"Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение.

Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тысяч единиц хроники, которые рискуют быть утерянными.

Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка", - рассказала исследовательница. Мурашкина решила с применением машинного обучения построить модель, которая распознавала бы символы тибетского алфавита с изображений, переводила в машиночитаемый вид и при этом показывала бы большую точность, чем уже существующие открытые решения.

"Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR).

Далее я провела сравнение существующих архитектур и выбрала модель сверхточной нейросети, которая потребовала дообучения", - рассказала она. В результате был создан полный модульный алгоритм оптического распознавания символов, включающий этапы предобработки, сегментации, распознавания и постобработки.

У ученых появились новые возможности оцифровки древних тибетских рукописей.

В Новосибирске студентка создала приложение для анализа тибетских текстов

Студентка НГУ создала приложение для анализа текстов на тибетском языке