28 апреля, 13:54 Столица на Онего

Онлайн-переводчик на карельском появится благодаря сотрудничеству ученых и «Яндекса»

main_890x400.jpg

Лингвисты передали «Яндексу» более 50 тысяч предложений на карельском языке для подготовки онлайн-переводчика.

Лингвисты КарНЦ РАН передали «Яндексу» 50 тысяч предложений на ливвиковском наречии карельского языка — это более половины из необходимых 100 тысяч предложений для создания онлайн-переводчика. Об этом и других направлениях развития платформы «ВепКар» рассказала старший научный сотрудник ИЯЛИ КарНЦ РАН Александра Родионова в ходе VII Международной конференции «Цифровизация языков народов России: Масштабирование опыта и перспективы» в Йошкар-Оле.

7503_min.jpg

«ВепКар» — это уникальная цифровая платформа, созданная языковедами и математиками Карельского научного центра РАН. У истоков проекта стоит доктор филологических наук Нина Григорьевна Зайцева. Именно под её руководством в 2009 году стартовала работа по созданию «Корпуса вепсского языка» — предшественника современного «ВепКара». Платформа содержит более девяти тысяч текстов на 58 диалектах и почти три миллиона слов. Почти все они имеют разметку — лингвистическую или метатекстовую — что позволяет пользователям узнавать лексические, грамматические и другие характеристики элементов текста.

%D0%A1%D0%BA%D1%80%D0%B8%D0%BD%D1%88%D0%BE%D1%82_28-04-2026_131828.jpg

«ВепКар» является площадкой для подготовки данных для создания онлайн-переводчиков карельского и вепсского языков, которое ведется в рамках сотрудничества с Федеральным агентством по делам национальностей России и компанией «Яндекс».

— Для обучения переводчика нужна база из ста тысяч предложений с переводом на русский язык. В ходе её формирования в корпусе реализована новая функция проверки выравнивания параллельных текстов на уровне предложений. На сегодняшний день в «ВепКаре» представлено свыше 1500 текстов на ливвиковском наречии карельского языка с переводом на русский. Суммарно программистам «Яндекса» передано уже более 50 тысяч предложений. Параллельно идёт подготовка аналогичной базы по вепсскому языку, — рассказала Александра Родионова.

8001_min.jpg

Разработчики «ВепКара» не только продолжают пополнять существующие, но и создают новые коллекции, повышая роль платформы как электронной библиотеки. Так, в рамках работы, приуроченной к 800-летию крещения карелов, был расширен подкорпус библейских текстов и открыты два новых: «Памятники письменности» и «Этнографические тексты». Также за последние годы серьезно расширились возможности «ВепКара» для лингвистических исследований. Благодаря генераторам словоформ удалось выявить ряд лингвистических закономерностей, которые дополнили новые грамматики карельского и вепсского языков. Расширились возможности и для междисциплинарных исследований и разработке прикладных продуктов на базе корпусных данных: игр и учебных материалов.

— Опыт «ВепКара» показывает: корпус языка, находящегося под угрозой исчезновения, способен одновременно решать задачи сохранения языка, его научного изучения и цифрового развития, — подытожила ученый.

Опыт карельских ученых можно распространить и для других малых языков России.

Ранее журналист «Столицы на Онего» рассказывает, зачем пошла изучать карельский язык, что думает о шутках о нем, и каким видит его будущее в Карелии.

Информационные партнеры

Компьютерная сеть «Сампо.ру»

Логин:
Пароль: