Это логика статистического машинного перевода. Там основная идея такая же, как у переводчиков с древних забытых языков - ищут текст, который написан на разных языках, типа "языковую пару", и сравнивают. Гугль (и яндекс, и яху, и транслейт и все остальные тож) ищет такие пары в интернете и обрабатывает накопленные массивы информации статистическими методами - чем больше в его распоряжении разных двуязычных (или многоязычных текстов), тем точнее и умнее получается перевод. В общем, в автоматический переводчик заносится самый распространенный вариант из наиболее подходходящих. А это сильно зависит от того, по каким текстам и языковым парам "лазила" машина. Раньше, в основном, это были официальные тексты - какие-нибудь отчеты ООН, переведенные на разные языки. Или литература художественная классическая, загруженная в сеть. Разные статьи научные. Ну и всякая такая более-менее профессионально переведенная, но мало соответствующая современному разговорному жанру текстуха. Тогда машинный перевод веселил бессмысленными подстрочниками и официозом. А теперь, судя по обилию ненорматива, жаргона и штампов, гугль черпает инфу из газет, журналов, новостных сайтов, которые за последние годы массово переехали с бумаги во всемирную паутину, шерстит многоязычные форумы, интернет-магазины и ты ды. Вот как-то так.
no subject
Date: 2013-09-09 11:08 am (UTC)