Цифровые технологии

Эксперт рассказал, почему ошибаются электронные переводчики

Основой любого электронного переводчика становятся начальные данные, качество и объем которых влияют на результат перевода, однако каждый день появляется множество новых терминов, которых может не быть в исходных данных, в результате чего возникают неточности в переводе, разъяснил РИА Новости основатель компании машинного перевода Lingvanex Алексей Рудак. 

Ранее пользователи интернета заметили, что, например, английскую фразу «Biden changed for bad» платформа Google переводит как «Байден изменился к лучшему», а аналогичное предложение с именем президента России «Putin changed for bad» как «Путин изменился в худшую сторону». Также в декабре пользователи Google обращали внимание на то, что если в переводчике ввести на английском языке фразу «Thank you, Mr President» («Спасибо, мистер президент»), то сервис переводил это как «Спасибо, Владимир Владимирович». Позднее все эти неточности исправили.

«Основа всего — это данные, на которых происходит обучение алгоритма перевода. Качество и объем таких данных напрямую влияет на результат перевода. Чем больше разнообразных текстов увидит алгоритм, тем больше ситуаций, на которых он может обучиться и, соответственно, больше тематик и слов он переведет правильно», — рассказал эксперт.

Рудак пояснил, что каждый день появляются новые термины, имена собственные, речевые обороты, которых может не быть в исходных данных для обучения. Чтобы переводить новые понятия, алгоритм должен постоянно дообучаться, выискивая новую информацию, которая появляется в интернете. Затем эта информация фильтруется и добавляется к тем данным, которые были вначале, на основе чего происходит обучение электронного переводчика заново.

«Чем больше ошибок в данных, тем больше ошибок в переводе. Из-за того, что в интернете каждый может написать что угодно, от ошибок и дезинформации никто не застрахован. А проверять все данные на корректность специалистом очень долго и дорого. Поэтому для фильтрации используется компьютерные программы», — указал эксперт.

Кроме того, если пользователь заметил ошибку перевода, он может прислать разработчикам правильный вариант перевода слова или фразы. «И если много людей на одно и то же слово или фразу пришлют одинаковый вариант, то алгоритм перевода перестроится таким образом, чтобы переводит эту фразу по-другому уже для всех остальных пользователей. С одной стороны, это помогает находить ошибки, но с другой позволяет пользователям манипулировать результатами перевода», — резюмировал Рудак.

Читайте также:

В России могут отменить плановые проверки IT-компаний

Источник

Кнопка «Наверх»