В МГУ им. Н.П.Огарева разрабатывают онлайн-переводчики для мордовских языков

Репортер

По данным Федерального агентства по делам национальностей, по состоянию на 2023 год только 6 из 277 языков народов России имеют онлайн-переводчики - татарский, башкирский, чувашский, марийский, якутский и удмуртский. В Мордовском госуниверситете им. Н.П. Огарева сейчас разрабатывают онлайн-переводчики и чат-боты для мордовских языков. Они получат широкое применение в системе образования, органах госслужбы при делопроизводстве, национальных СМИ как в регионе, так и в местах компактного проживания мордовского населения за пределами республики.

Согласно последней переписи населения России, численность мордвы составляет более 484 тысяч человек. Из них 30% проживают в Мордовии, остальные — расселены по  Нижегородской, Ульяновской, Оренбургской, Самарской и Пензенской областям.

Отсутствие цифрового сервиса по мордовским языкам не позволяет в полной мере использовать  эрзянский и мокшанский в цифровом пространстве. Разработка онлайн-переводчика создаст условия для сохранения и развития мордовских языков в современных реалиях.

Основным инструментом для создания сервиса по переводу является параллельный корпус. Это двуязычные корпуса текстов, имеющие перевод с одного языка на другой. Все тексты в корпусах должны быть выравнены: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода. На основе корпуса будут созданы наборы обучающих данных вычислительных моделей мордовских языков. Процесс перевода будет моделироваться с помощью нейронной сети.  

«На данный момент в параллельном русско-эрзянском корпусе уже собраны выравненные тексты, содержащие около 50 тысяч предложений. В 2023-2024 гг. вуз получил грант в размере 8,5 млн рублей на создание параллельных корпусов мордовских языков - русско-эрзянского и русско-мокшанского. Работа ведется в рамках реализации стратегического проекта «Университет — центр социокультурного развития региона» федеральной программы «Приоритет 2030»», – отметил ректор МГУ им. Н.П. Огарева Дмитрий Глушко.

Состав и содержание предложений имеет самый разнообразный характер, часто применяется не употребляемая в мордовских языках терминология — это является трудоемкой и сложной переводческой задачей. Предложения собраны из различных источников — художественные тексты, тексты официальных новостей, фразы из разговорников, учебников, научная и техническая терминология.

«Мы создали и запустили чат-бот в мессенджере Телеграм для направления перевода русский-эрзянский. Также в режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем в следующих релизах. Сейчас мы начинаем сбор аудиозаписей на эрзянском языке для решения задач синтеза и распознавания речи. Кроме того, мы собираем и предложения для языковой пары русский-мокшанский, с дальнейшей реализацией такой же модели в виде чат-бота», — отметил разработчик проекта, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ им. Н.П. Огарева Артем Андронов.

Поделиться в соц. сетях:

Случайные новости