В России создадут корпус древнеславянского языка

18 мар. 2020 г. в 10:14
1150
 
В России создадут корпус древнеславянского языка

С помощью искусственного интеллекта российские ученые при участии комиссии по работе с вузами и научным сообществом при Епархиальном совете Москвы планируют создать интерактивную базу древнеславянских текстов, - рассказали в пресс-службе НИТУ "МИСиС".

"Коллаборация ученых Института русского языка им. В. В. Виноградова РАН, НИТУ "МИСиС", НИУ ВШЭ при участии комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов - корпуса", - говорится в сообщении, передает РИА Новости.

Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам инструмент для изучения всех современных национальных славянских языков и культур, а также станет ключом к пониманию их наследия.

Корпус – это структурированная база данных языка, информационно-справочная система, основанная на собрании в электронной форме текстов на определенном языке. Он представляет собой подобранную и обработанную совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

"Естественный язык является ключевым полигоном для развития технологий искусственного интеллекта. Именно благодаря этим технологиям задачи машинного перевода, построение диалоговых систем и задачи интерпретации текстов на естественном языке получили мощный толчок в последнее время. В некотором смысле такой проект является мостиком от культуры прошлого к технологиям будущего", - рассказал Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнерства MegaScience НИТУ "МИСиС", руководитель Научно-учебной лаборатории методов анализа больших данных Высшей школы экономики.

Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках – служебных церковных книг, содержащих распорядок служб всех дней церковного года. Рукописи этих книг хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.