Спецпроекты
Татар-информ
©2023 ИА «Татар-информ»
Учредитель АО «Татмедиа»
Новости Татарстана и Казани
420066, Республика Татарстан, г. Казань, ул. Декабристов, д. 2
+7 843 222 0 999
info@tatar-inform.ru
Как татарстанские разработчики создали онлайн-переводчик башкирского языка
Институт прикладной семиотики Академии наук РТ в сотрудничестве со специалистами из Башкортостана создал русско-башкирский машинный переводчик «Башкортсофт». Директор института Ринат Гильмуллин рассказал о том, что показал опыт сотрудничества с башкирской стороной, а также об общих проблемах татарского и башкирского языков.
«Сотрудничество с Башкортостаном вылилось в разработку русско-башкирского машинного переводчика»
– Расскажите, в чем заключается ваше сотрудничество с научным сообществом тюркских народов.
– Как уже отмечалось, мы ведем совместную работу с представителями различных тюркских народов. Ежегодно, начиная с 2013 года, активно проводим конференцию по компьютерной обработке тюркских языков под названием «TurkLang», представляем на ней свои лучшие научно-исследовательские и прикладные разработки. Благодаря этому сформировалось мощное сообщество представителей науки Татарстана и других тюркских народов.
Оно сейчас активно развивается. Например, в этом году в конференции приняло участие более 100 ученых, занимающихся исследованиями в области компьютерной обработки языков. Уже есть совместная деятельность с казахами, киргизами, узбеками, чувашами и крымскими татарами в виде разработки машинного переводчика, корпусов электронных словарей. Также, например, с участием казахов, турок, киргизов и узбеков были реализованы электронные тезаурусы тюркских языков для создания систем многоязычного поиска и извлечения знаний.
Хочу также отметить, что такого рода совместные исследования и разработки дают огромную пользу и для развития как нашего татарского языка, так и других тюркских языков.
– Можете подробнее рассказать о сотрудничестве с башкирской стороной?
– Мы стараемся помогать всем, кто к нам обращается. Сотрудничество с Башкортостаном у нас вылилось в отдельную разработку в виде веб-портала русско-башкирского машинного переводчика.
Вообще создание машинного переводчика – это весьма науко- и трудоемкий процесс, который нельзя реализовать без участия специалистов и разработчиков различного профиля. Задействованы и филологи, и программисты, и ученые как с татарстанской, так и с башкортостанской стороны. И благодаря совместной работе, использованию передового опыта удалось разработать уникальный продукт. На сегодняшний день этот сервис является одним из лучших по качеству перевода в русско-башкирской паре.
«С нашей стороны – разработка моделей и алгоритмов, реализация веб-сервиса, со стороны башкирских коллег – лингвистический ресурс»
– А с кем именно вы работали при создании «Башкортсофта»? Это был какой-то институт или организация?
– Это представители различных как научных, так и общественных организаций, ученые, разработчики, лингвисты, переводчики – специалисты разного профиля. Подбором специалистов по заданным нами требованиям занимался Фонд по сохранению и развитию башкирского языка (создан указом главы Башкортостана в 2018 году. – Ред.).
– В какую сумму ему это обошлось?
– Эту информацию можно найти на официальном сайте «Гранты Республики Башкортостан» («Создание веб-сайта башкирско-русского и русско-башкирского переводчика с функционалом озвучивания башкирских текстов». – Ред.).
– Как выбирался человек, озвучивающий текст?
– Данная работа, так же как и подготовка данных для машинного обучения, проводилась нашими башкортостанскими коллегами. С нашей стороны – разработка моделей, алгоритмов и собственно реализация веб-сервиса, исполнение и контроль над полным циклом технологического процесса. Со стороны же башкирских коллег был предоставлен весь необходимый лингвистический ресурс для создания переводчика.
– Пригодились ли наработки, полученные при создании «Татсофта»?
– Задачей разработки систем машинного перевода мы занимаемся уже более 20 лет, начиная от создания rule-based систем и заканчивая совместной работой с компанией «Яндекс» по созданию статистического машинного переводчика. То есть использовался весь опыт создания такого рода систем, от разработки лингвистических моделей до реализации алгоритмов на основе нейронных сетей.
– А как вы работали над «Татсофтом»? Сколько времени заняло его создание, сколько ваших людей было задействовано?
– В разработке русско-татарского машинного переводчика в общей сложности приняло участие более 30 специалистов различного профиля – разработчики, лингвисты, переводчики. Работы по подготовке лингвистических ресурсов для переводчика были начаты еще в 2014 году, первая версия общедоступного нейросетевого переводчика была запущена в начале 2020 года. Работа не останавливается и по сей день. Система постоянно развивается и совершенствуется.
– А сколько ваших людей было задействовано в работе над «Башкортсофтом»?
– С нашей стороны пять специалистов. Сколько со стороны башкирских коллег – у меня нет точной информации.
«Говорят, на сегодня это лучший русско-башкирский переводчик»
– Какие сложности возникали в ходе работы?
– Основная задача при построении переводчика, учитывая малоресурсность наших языков, связана с подготовкой достаточного объема лингвистических данных (моноязычный корпус, русско-башкирский параллельный корпус и словари). Должен отметить, что наши башкортостанские коллеги хорошо справились с этой задачей и в достаточно сжатые сроки смогли предоставить весь необходимый материал для реализации переводчика.
– Довольны ли вы результатом? Что говорят рядовые пользователи, если с ними уже есть обратная связь?
– Промежуточными результатами можно быть довольным. Автоматическая метрика оценки качества перевода имеет достаточно высокие показатели. От пользователей также приходят положительные отзывы, говорят, что на сегодня это лучший русско-башкирский переводчик. В то же время мы понимаем, что для его развития и для повышения качества перевода работы должны вестись постоянно и непрерывно.
– Что вообще показала эта работа, какие выводы вы из нее сделали?
– Сейчас, к сожалению, приходится констатировать тот факт, что наши языки, в том числе и татарский, и башкирский, относятся, как я уже сказал, к малоресурсным языкам. И вот лишь такого рода совместные разработки в виде создания популярных и востребованных сервисов мирового уровня позволяют нам получать новые лингвистические ресурсы и взращивать своих высококвалифицированных специалистов. Что, безусловно, является важной задачей для сохранения и развития языков в условиях такой масштабной цифровизации.
И чем больше таких разработок, тем больше у нас шансов изменить ситуацию с малоресурсностью наших языков.
Этому способствует и создание веб-портала «Тюркская морфема» на материале семи тюркских языков, реализованного в рамках гранта Российского научного фонда (modmorph.turklang.net). Лингвистические возможности родственных тюркских языков при разработке подобных проектов используются для развития отдельно взятого языка. На основе этих совместных исследований и разработок реализуется система машинного перевода для семи тюркских языков (turk.translate.tatar).
Ильгизар Вахитов, Рустем Шакиров, milliard.tatar
Следите за самым важным в Telegram-канале «Татар-информ. Главное», а также читайте нас в «Дзен»