Лингвисты используют Библию для разработки языковых технологий

Лингвисты используют Библию для разработки языковых технологий для малых языков

Siri от Apple, Google Translate и другие языковые технологии уже давно являются прерогативой людей, которые говорят на английском или других языках большинства. Если вы говорите на Валлийском, Фарерском или Галисийском языках, то технологий будет мало или они будут бесполезны. Лингвисты показали, что они могут создавать языковые технологии, основанные на библейских стихах и статьях Википедии  одновременно для 100 малых и больших языков.

Если вы говорите по-английски или на другом большом языке, Вы можете поговорить со своим мобильным телефоном, использовать поисковые системы и системы машинного перевода, чтобы сделать переводы текстов. Это стало возможным благодаря тому, что английский язык является огромным языком с большим количеством ресурсов, которые лингвисты используют для развития языковых технологий. Менее удачливые люди, говорят на Фарерском, Валлийском или Галисийском языках.

«Когда мы разрабатываем системы машинного перевода и поисковые системы, мы обычно загружаем в компьютер огромное количество аннотированных вручную текстов, содержащих информацию о функции и значении отдельных слов. По историческим причинам эти тексты в основном представляли собой газетные статьи на английском и других крупных языках. У нас нет доступа к аналогичным аннотированным текстам на небольших языках, таких как Фарерский, Уэльский, Галисийский и ирландский, или даже на таком крупном африканском языке, как Йоруба, на котором говорят 28 миллионов человек»

, — говорит профессор Андерс Сегаард из Копенгагенского университета.

Андерс Сегаард и его коллеги из проекта LOWLANDS: Parsing Low-Resource Languages and Domains используют тексты, аннотированные для больших языков, для разработки языковых технологий для небольших языков, ключом к которым является поиск переведенных текстов, чтобы исследователи могли передавать знания грамматики одного языка на другой язык:

«Библия была переведена более чем на 1500 языков, даже самых маленьких и самых «экзотических», а перевод  — крайне консервативный; стихи имеют совершенно однородную структуру на разных языках, что означает, что мы можем сделать компьютерную модель даже очень малых языков, имея только пару сотен страниц библейского текста» 

Андерс Сегаард и его коллеги недавно представили свои результаты в статье «Если у вас есть немного из Библии» на ежегодной конференции Ассоциации компьютерной лингвистики.

Источник: Копенгагенский университет-Гуманитарный факультет

admin

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Next Post

Древнейшее астрономическое общество Москвы

Пн Авг 27 , 2018
Лингвисты используют Библию для разработки языковых технологий для малых языков Siri от Apple, Google Translate и другие языковые технологии уже давно являются прерогативой людей, которые говорят на английском или других языках большинства. Если вы говорите на Валлийском, Фарерском или Галисийском языках, то технологий будет мало или они будут бесполезны. Лингвисты […]