Говорить на другом языке становится все легче. Google представила Translatotron, первую в своем роде модель перевода, которая может напрямую преобразовывать речь с одного языка на другой, сохраняя при этом голос и частоту речи говорящего. Инструмент разработан в противовес обычного шага по переводу речи в текст и обратно в речь, что часто может привести к ошибкам. Вместо этого сквозная техника напрямую переводит голос говорящего на другой язык. Компания надеется, что это позволить открыть новые возможности с использованием модели прямого перевода.
Согласно Google, Translatotron использует «Прямое преобразование речи в речь с последовательной моделью», которая принимает голосовой ввод, обрабатывает его как спектрограмму — визуальное представление частот — и генерирует новую спектрограмму на целевом языке. В результате получается гораздо более быстрый перевод с меньшей вероятностью того, что что-то может быть потеряно по пути. Инструмент также работает с дополнительным компонентом кодировщика динамика, который поддерживает голос говорящего. Переведенная речь все еще синтезируется и звучит немного роботизированно, но может эффективно поддерживать некоторые элементы голоса говорящего. Вы можете прослушать примеры попыток Translatotron сохранить голос говорящего на странице GitHub Google Research. Некоторые, конечно, лучше, чем другие, но это только начало.
Google в последние месяцы корректировала свои переводы. В прошлом году компания представила акценты в приложении Google Translate, которое может говорить на разных языках с произношением в зависимости от региона, и добавила дополнительные языки к своей функции перевода в реальном времени. Ранее в этом году Google Assistant получил «режим переводчика» для умных дисплеев и динамиков, который может использовать 26 языков.