Компания Facebook заявила о создании новой системы машинного перевода, основанной на использовании технологий искусственного интеллекта, которая способна обеспечить высококачественный прямой перевод между различными языковыми парами.
На сегодняшний день подавляющее большинство систем машинного перевода (СМП) использует английский язык в качестве промежуточного. То есть перевод сначала осуществляется, например, с испанского на английский, а уже затем на китайский. Естественно, что из-за такого подхода качество перевода значительно снижается, а многие нюансы исходного текста могут быть утеряны.
Заявлено, что новая система от Facebook поддерживает сотню языков, переводы между которыми осуществляются напрямую, без необходимости использовать английский в качестве промежуточного. Заявлено, что отказ от промежуточного языка позволил резко повысить качество перевода – сразу на 10 пунктов, согласно алгоритму оценки качества переводов BLEU (bilingual evaluation understudy).
Для создания новой системы, получившей название M2M-100, компанией был составлен огромный корпус, состоящий из 7,5 миллиардов предложений для 100 языков. Используя его, исследовательская группа подготовила универсальную модель перевода с более чем 15 миллиардами параметров, которая «собирает информацию из родственных языков, создавая более полную картину их структуры и морфологии».
Для составления корпуса были задействованы архивы некоммерческой организации CommonCrawl. Затем собранный материал анализировался при помощи системы FastText, разработанной специалистами Facebook и предназначенной для языкового анализа. Главной же проблемой для разработчиков стала нехватка письменного материала для некоторых языков.
Исследования проводились много лет с использованием новейших подходов и технологий. В результате было собранно множество компонентов, которые исследователи проанализировали и собрали вместе на манер конструктора Lego.
Машинный перевод используется Facebook более чем активно. Только для своей новостной ленты социальная сеть ежедневно выполняет около 20 миллиардов переводов. То есть компания очень заинтересована в появлении высококачественного инструмента, который позволит общаться миллионам людей со всего мира.
Хотелось бы верить, что Facebook действительно удалось создать СМП, обеспечивающую по-настоящему хороший перевод. На сегодняшний день решение, которое используется социальной сетью, оставляет желать много лучшего, даже когда речь идёт о таких родственных языках, как русский и украинский.
На каком этапе M2M-100 находится сегодня и когда она станет доступной пользователям социальной сети, пока ещё неизвестно.
Читай также:
10 заповедей изучающего иностранный язык
За какое время можно выучить иностранный язык?
Специальный язык для сбора орехов