Ученые КалмГУ совместно с региональным центром цифровой трансформации при опорном вузе республики создали линейку цифровых продуктов для изучения калмыцкого языка.
О том, в чем суть проекта, сможет ли его ресурсами воспользоваться простой обыватель и ждать ли калмыцкую версию умной колонки «Алиса» - в материале «ЭП».
В линейку цифровых продуктов вошли программное обеспечение по распознаванию текстов на старокалмыцкой письменности тодо бичиг, интерфейс для работы с электронным корпусом калмыцких текстов и распознавания устной калмыцкой речи, а также сводный электронный словарь. Помимо решения главных прикладных задач по изучению родного языка, создание линейки цифровых продуктов – это отличная заявка на вхождение в систему «Яндекс-переводчик».
По словам ректора КалмГУ Бадмы Салаева, впервые фонетика устной речи родного языка стала понятна искусственному разуму. Новое современное пособие для нужд образования и популяризации языка среди молодежи сегодня особенно актуально. По мере накопления аудиоматериала и повышения качества работы моделей распознавания и синтеза устной речи голосовые помощники на калмыцком языке станут доступны любому желающему.
Стоит отметить, что линейка цифровых продуктов была презентована участникам международного научного форума «Сетевое востоковедение», который прошел на площадке КалмГУ в конце октября.
«Работа над масштабным проектом продолжается, - рассказал в интервью «ЭП» директор Института калмыцкой филологии и востоковедения КалмГУ Мингиян Лиджиев. – Программа по распознаванию текстов, выполненных на старокалмыцкой письменности, уже дает конкретные результаты. Если раньше специалисты тратили на перевод одной рукописи от двух месяцев до полугода, теперь этот процесс происходит за 40 минут: программное обеспечение распознает текст, сканирует его в формате PDF, дает транслитерацию текста на латинице, затем переводит на современный калмыцкий язык, а после - на русский. Конечно, без редактуры тоже не обойтись, но какая экономия времени и сил!».
Что касается платформы, благодаря которой можно синтезировать и распознавать устную калмыцкую речь, то этот цифровой продукт был создан на основе записи 50 часов калмыцкого текста, отметил Мингиян Алексеевич.
В озвучке принимали участие преподаватели, учителя-калмыковеды, артисты, журналисты, школьники. Но нужно еще наполнять контент.
«Мы сейчас вплотную работаем над этим. В планах – привлечь к проекту преподавателей калмыцкого языка из районов, отдаленных сел. Это трудоемкий процесс. К примеру, из трехчасового аудиотекста на «выходе» получается всего лишь 20 минут чистого звукового материала, - подчеркнул директор Института калмыцкой филологии и востоковедения КалмГУ. – Еще одно наше достижение - интерфейс для работы с электронным корпусом языка. Цифровой продукт позволяет после сканирования текста распознавать ошибки и давать ссылки на множество художественных, публицистических и фольклорных текстов с употреблением того или иного слова. Например, вводишь слово «шар» (желтый) в строку и получаешь примеры словоупотребления».
Важно сохранить наследие калмыцкого народа в электронном варианте, и не только сохранить, но и использовать, считают преподаватели высшей школы Калмыкии. И потому работа над масштабным проектом продолжается. Сделать калмыцкую версию «Алисы» вполне реально, но для этого нужно создать корпус из ста тысяч предложений на калмыцком языке.
Таким образом, будет сформирована языковая база, на основе которой умная колонка будет общаться со своими пользователями. Голосовой помощник позволит детям и взрослым изучать родной язык в легкой и доступной форме. Гаджет сможет рассказывать калмыцкие сказки, включать песни, помогать готовить национальные блюда, шутить.
Вита БАИРОВА