Министр культуры РФ Ольга Любимова посетила премьеру сказки «Буратино»
В Москве в кинотеатре «Октябрь» состоялась премьера фильма «Буратино», снятого Игорем Волошиным по мотивам книги Алексея Толстого...
По данным Федерального агентства по делам национальностей, по состоянию на 2023 год только 6 из 277 языков народов России имеют онлайн-переводчики - татарский, башкирский, чувашский, марийский, якутский и удмуртский. В Мордовском госуниверситете им. Н.П. Огарева сейчас разрабатывают онлайн-переводчики и чат-боты для мордовских языков. Они получат широкое применение в системе образования, органах госслужбы при делопроизводстве, национальных СМИ как в регионе, так и в местах компактного проживания мордовского населения за пределами республики.
Согласно последней переписи населения России, численность мордвы составляет более 484 тысяч человек. Из них 30% проживают в Мордовии, остальные — расселены по Нижегородской, Ульяновской, Оренбургской, Самарской и Пензенской областям.
Отсутствие цифрового сервиса по мордовским языкам не позволяет в полной мере использовать эрзянский и мокшанский в цифровом пространстве. Разработка онлайн-переводчика создаст условия для сохранения и развития мордовских языков в современных реалиях.
Основным инструментом для создания сервиса по переводу является параллельный корпус. Это двуязычные корпуса текстов, имеющие перевод с одного языка на другой. Все тексты в корпусах должны быть выравнены: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода. На основе корпуса будут созданы наборы обучающих данных вычислительных моделей мордовских языков. Процесс перевода будет моделироваться с помощью нейронной сети.
«На данный момент в параллельном русско-эрзянском корпусе уже собраны выравненные тексты, содержащие около 50 тысяч предложений. В 2023-2024 гг. вуз получил грант в размере 8,5 млн рублей на создание параллельных корпусов мордовских языков - русско-эрзянского и русско-мокшанского. Работа ведется в рамках реализации стратегического проекта «Университет — центр социокультурного развития региона» федеральной программы «Приоритет 2030»», – отметил ректор МГУ им. Н.П. Огарева Дмитрий Глушко.
Состав и содержание предложений имеет самый разнообразный характер, часто применяется не употребляемая в мордовских языках терминология — это является трудоемкой и сложной переводческой задачей. Предложения собраны из различных источников — художественные тексты, тексты официальных новостей, фразы из разговорников, учебников, научная и техническая терминология.
«Мы создали и запустили чат-бот в мессенджере Телеграм для направления перевода русский-эрзянский. Также в режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем в следующих релизах. Сейчас мы начинаем сбор аудиозаписей на эрзянском языке для решения задач синтеза и распознавания речи. Кроме того, мы собираем и предложения для языковой пары русский-мокшанский, с дальнейшей реализацией такой же модели в виде чат-бота», — отметил разработчик проекта, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ им. Н.П. Огарева Артем Андронов.
Поделиться в соц. сетях:
В Москве в кинотеатре «Октябрь» состоялась премьера фильма «Буратино», снятого Игорем Волошиным по мотивам книги Алексея Толстого...
В координационном центре Правительства РФ организовано аналитическое сопровождение для вопросов и предложений, поступивших в ходе Прямой...
Фильм, вышедший в широкий прокат 1 января, за первые сутки показа заработал больше 226,6 миллиона рублей. За весь период собрано почти полмиллиарда...
Зампредседателя Правительства РФ Марат Хуснуллин поделился промежуточными итогами работы по обновлению российских дорог. Он сообщил, что на...