Я ты не понимать. Сравнение программ машинного перевода

Задумайтесь — и скажите честно, не обманывая себя: когда вы в последний раз зачитывались Шиллером в оригинале или заходили на англоязычный сайт? Рискну предположить: многие читатели, хоть и имеют в аттестате твердую “четверку” по иностранному языку, смутятся. Современному человеку часто не хватает времени на поиск нужной информации, не говоря уже о “ручном” переводе. Поэтому программы машинного перевода текстов (электронные переводчики) просто незаменимы. Понять письмо, написанное на незнакомом языке, разобраться в технической инструкции или в информации на иностранном сайте — вот неполный круг проблем, которые они позволяют решить.

Выбор
В России известны два семейства программ-“переводчиков” — Promt и “Сократ”. У каждого из кланов — свои плюсы и минусы, сильные и слабые стороны. Какую программу выбрать? Однозначный ответ дать очень сложно. Мы рассмотрим наиболее распространенных представителей этих линеек — “Сократ Персональный 4.1” и Promt 7.
Promt 7, — пожалуй, самый часто встречающийся продукт санкт-петербургской компании ПРОМТ. Диапазон возможностей программы колеблется от перевода файлов различных форматов до чтения web-страниц с сохранением разметки. С технологической точки зрения Promt 7 демонстрирует качественный скачок, по сравнению с предыдущей версией (по заверению разработчиков, англо-русский перевод улучшен на 55%, немецко-русский — на 60%) Во многом это заслуга переработанного алгоритма перевода и изменения формата представления грамматики в словарных базах. Однако самым интересным нововведением стало внедрение “ассоциативной памяти”. Суть этой технологии заключается прежде всего в том, что по мере работы программы специальная база данных пополняется образцами наиболее удачно переведенных связок текста, отдельными фразами, которые система перевода использует в дальнейшем.
В программу заложена возможность перевода web-страниц непосредственно в окне Internet Explorer, на практике оказавшаяся действительно очень удобной, так как при переводе сохраняется оригинальное форматирование страницы. Но Promt 7 хорош и по возможностям экспорта и импорта файлов. Он не только читает широко распространенные форматы файлов (TXT, RTF), но и позволяет сохранять готовые переводы в этих же форматах. Разработчиками из ПРОМТ’а реализована поддержка подключаемых словарей. Это могут быть как иноязычные словари, так и словари спе­циализированные. Все они, к сожалению, приобретаются за дополнительную плату. Еще одной интересной особенностью Promt 7 является функция синхронного перевода: набирая текст по-русски, вы сразу полу­чаете его английский вариант!
“Сократ Персональный” выпускается компанией “Арсеналъ” в рамках семейства “Сократ”. Версия 4.1, отобранная для этого теста, является наиболее свежим продуктом данной линейки, выпущенным, правда, в 2001 году. Важной особенностью данного переводчика является его резидентный режим работы: программа постоянно “сидит” в трее (рядом с часами) и доступна пользователю практически из любого приложения, в котором требуется перевести текст. При сравнении работы “Сократа Персонального 4.1” с его предшественником, “Сократом-98”, довольно распространенным в свое время, разница в результатах составила не более 10%. Отсюда можно сделать вывод о неизменности ядра нового “Сократа” по сравнению с предыдущим. Так что большинство различий, вероятнее всего, носит чисто косметический характер. Интегри­руется “Сократ Персональный” только с MS Outlook. Впрочем, в свете сказанного выше это не критично.
Помимо всего прочего в “Сократе Персональном” имеется возможность перевода файлов справочной системы Windows, то есть с его помощью вы можете без проблем просматривать документацию к ПО. “Сократ” также позволяет непосредственно работать со словарной базой (электронный словарь).
Огромным упущением разработчиков из компании “Арсеналъ” является поддержка только одного формата — TXT (как для открытия, так и для сохранения)
Обе программы распространяются далеко не бесплатно. За Promt 7 сейчас просят 1980 рублей, за “Сократ” — 430. Но и в Promt, и в “Сократе” есть бесплатный демо-режим, в коем большинство пользователей и работает.
Тестируемые программы имеют полезную и зачастую нужную функцию перевода содержимого буфера обмена. Что ж, отдадим должное тенденциям моды (в частности — Microsoft, как их законодательнице). В обеих программах наличествует возможность озвучивания текста, в веселой компании весьма интересная.
Интерфейс программ удобен и интуитивно понятен, поэтому на этом пункте внимание заострять нецелесообразно. Перейдем к главной части — непосредственно к тестам переводов.

Методика тестирования
Для тестирования были выбраны три тематических категории: техническая документация, художественный текст и личная переписка (разговорный стиль).
Хотелось бы сразу отметить, что представленные образцы ни в коем случае не являются наиболее удачными (равно как и самыми “неуклюжими). Они подобраны таким образом, чтобы показать реальные возможности каждой из программ. Кроме всего прочего, по ходу тестирования каждый может составить свое собственное мнение о качестве перевода той или иной программы.

Личная переписка
Этот тест — самый простой. Сообщение на английском языке было получено по электронной почте и касалось процедуры регистрации пользователя на иностранном сервере.

Исходный текст
Thanks for visiting and signing up to become a member of the Games Workshop Web Site. We have enthusiasts from all over the world checking out the site and are very pleased that everyone is enjoying all of the cool stuff that we’ve put up so far. Trust me there is a lot more to come! Before we let you start clicking your way around the site as a full-fledged member, we do have a few administrative things to take care of. To complete your registration, cut and paste the entire address below into your browser window (make sure you highlight the whole thing as some e-mail programs may not make the entire address a hyperlink when it is delivered to you):

Promt 7
Спасибо за посещение и подписание, чтобы стать членом Вебсайта Симпозиума Игр.

Мы имеем энтузиастов, со всех континентов проверяющих участок и очень рады, что каждый наслаждается всем интересным материалом, который мы подняли пока. Доверяйте мне будет еще больше! Прежде, чем мы позволяем Вам начинать щелкать вашим путем вокруг участка как вполне оперившийся член, мы действительно имеем несколько административных вещей, чтобы заботиться. Чтобы закончить вашу регистрацию, сократите и приклейте весь адрес ниже в ваше окно браузера (удостоверьтесь, что Вы выдвигаете на первый план все это, поскольку программы некоторой электронной почты, возможно, не делают весь адрес гиперссылкой, когда это поставляют Вам):
Не слишком здорово, не так ли? Если проанализировать ошибки, то станет ясно, что большинство предложений пострадало из-за того, что неверно была определена связка “подлежащее-сказуемое”, т.е. сказуемое не согласовано с подлежащим. Вторая по частоте проблема заключается в некорректной трактовке многозначных глаголов. Впрочем, содержимое письма вполне понятно, а значит, мы достигли своей цели. Обратите внимание, что Promt 7 не оставил ни одного слова непереведенным, что свидетельствует об обширной словарной базе.

Сократ Персональный 4.1
Благодарность, чтобы посещаться и подписание вплоть до становиться членом Места Сети Мастерской Игр. У нас есть энтузиаст чтобы во всем мире подтверждать место и очень быть порадован, что все наслаждаются всем холодным материалом, который мы поместили по пока.

Поверьте мне есть много более, чтобы приходить! Прежде, чем мы позволили, Вы начинаете щелкать ваш путь вокруг места как полноценный член, у нас есть несколько административных вещей, чтобы заботиться о. Для того, чтобы завершать вашу регистрацию, вырезайте и клейте целый адрес ниже в ваше окно просмотра окна (убедитесь что Вы выделяете целую вещь как некоторые программы эл.почты не может делать целый адрес hyperlink когда поставлено Вам):
Как видно из перевода, у “Сократа” еще больше трудностей с согласованием слов, чем у Promt 7. В “Сократе” прослеживается все та же проблема с глаголами, упорно не согласующимися с другими членами предложения. Помимо всего прочего, “Сократ Персональный” нередко ошибается с выбором нужной формы существительного, ставя его в неправильный падеж или число. Лексически “Сократ” оснащен намного скуднее Promt’а, что особенно хорошо видно из этого изобилующего фразеологизмами отрывка. Все-таки анализ устойчивых словосочетаний хотелось бы видеть на несколько более высоком уровне, иначе cool stuff так и останется холодным материалом… Ну, а не знать в наше время слово hyperlink… Стыдно, батенька, стыдно…
Теперь посмотрим, как программы справятся с обратной задачей.

Исходный текст
Уважаемый администратор!
Извините за беспокойство, но у меня возникли трудности с регистрацией на вашем сайте. После заполнения всех нужных форм и анкет я получил письмо с подтверждением и ссылкой, я пошел по этой ссылке, но браузер загрузил пустую страницу. Когда на сайте я ввел свой логин и пароль, никаких сообщений об ошибке не было, но дальше страницы регистрации я не прошел. Ссылку из письма я скопировал полностью, cookies в браузере включены. Вероятно, мне стоит вновь пройти процедуру регистрации? Заранее спасибо!

Promt 7
The dear manager!
Excuse for troubling, but I had difficulties with registration on your site. After filling all necessary forms and questionnaires I have received the letter with acknowledgement and the reference, I have gone under this reference, but the browser has loaded empty page. When on a site I have entered the login and the password, no messages on a mistake existing, but further page of registration I have not passed. From the letter I have copied the reference completely, cookies in a browser are included. Possibly, I should pass procedure of registration again? In advance thanks!
Построение предложений удивляет своей­ архаичностью; создается впечатление, что они написаны школьником-хорошистом. Причина этого видна не совсем… Словами Магистра Йоды, воистину, переводчик Promt говорит. Согласитесь, есть в этом и своя прелесть…

Сократ Персональный 4.1
The Dear manager!
Excuse me for troubling you, but beside I appeared the difficulties with registration on your put. After filling of all necessary forms and questionnaires I have got the letter with acknowledgement and reference, I will go on this reference, but браузер has loaded am empty the page. When on put I entered its логин and password, no reports on mistake was not, but further pages to registrations I did not pass. The Reference from letter I have copied completely, cookies in браузере are enclosed. Probably, I cost (stand) newly to pass the procedure to registrations? Beforehand thank you!
Как и следовало ожидать, в переводе “Сократа” содержится ряд неточностей, связанных в первую очередь с лексической бедностью программы. Например, вместо site он выдает put; enclosed, когда следовало бы enabled. Непонятно, почему остались непереведенными слова браузер и логин. Огорчило и то, что последнюю фразу (довольно стандартную, к слову) “Сократ” перевел буквально, в отличие от Promt 7.

Техническая документация
Теперь посмотрим, как наши подопытные справятся с написанной по-английски документацией. Для этого мы возьмем отрывок из инструкции к фотоаппарату Canon PowerShot A60. В тексте присутствуют технические термины, которые могут отсутствовать в стандартных словарях программ, а также некоторые специфические обороты.

Исходный текст
This camera employs AiAF (artificial intelligence autofocus) technology which uses a broad metering field to calculate the focal distance with high precision. It delivers a crisp focus even when the photographic subject is slightly off-center.

Promt 7
Эта камера использует AiAF (автоцентр искусственного интеллекта) технология, которая использует широкую область измерения, чтобы вычислить центральное расстояние с высокой точностью. Это поставляет свежему центру, даже когда фотографический предмет немного вне центра.
Налицо недостаток словарной базы, естественно списываемый на специфичность текста. Но, несмотря на огрехи в лексике, грамматика проработана на должном уровне: про ошибки согласования на время можно и забыть. В целом же с инструкцией Promt 7 справляется успешно, за что честь ему и хвала.

Сократ Персональный 4.1
Эта камера применяет AiAF технологии (искусственный интеллект autofocus), которая использует широкую измерительную область, чтобы вычислять фокусное расстояние с высокой точностью. Это доставляет хрустящий фокус даже когда фотографический предмет является немного-центром.
Переведено неплохо. Местами даже лучше, чем у Promt’а. Особенно согрела душу фраза “фокусное расстояние” (у Promt — центральное). Конечно, Promt лучше справился с согласованием предложений, но техническая сторона выполнена и “Сократом” безошибочно, так что и ему хвала!

Теперь поэкспериментируем с обратным переводом.
Исходный текст
CloneCD представляет из себя мощный инструмент для копирования дисков, благодаря использованию raw-режима, дающего полный контроль над записью данных, позволяя создавать точные копии ваших дисков один к одному. Большинство приводов, доступных сегодня, уже поддерживают этот режим. CloneCD работает с форматами: CD-Extra, Audio-CD, CD-Text, Karaoke CD, Gaps (паузы между треками) и может копировать их на лету без сканирования субкодов.

Promt 7
CloneCD is the powerful tool for copying disks, owing to use of the raw-mode, giving the full control over data recording, allowing to create exact copies of your disks one to one. The majority of the drives accessible today, already support this mode. CloneCD works with formats: CD-Extra, Audio-CD, CD-Text, Karaoke CD, Gaps (between tracks) also can copy pauses to their strike without scanning subcodes.
Очень прилично: как смысл, так и форма переданы вполне верно, почти без изъянов. Программа не стала изменять собственные имена (название форматов и программы), что в техническом тексте очень и очень важно. Из мелких неточностей опять-таки отметим явное незнание программой ряда устойчивых словосочетаний, остающееся на совести разработчиков.

Сократ Персональный 4.1
CloneCD presents from itself powerful instrument for copying disk, due to use raw-mode, giving full control on record data, allowing create the true copies your disk head-to-head. The Majority drive, available today, already support this mode. CloneCD works with format: CD-Extra, Audio-CD, CD-Text, Karaoke CD, Gaps (the pauses between track) and can copy their raid without scan субкодов.
Ясно видно, что более-менее сложные предложения вызывают у переводчика серьез­ные затруднения, в то время как короткие переводятся “на ура”. “Сократ” по возможности пытается использовать устоявшиеся выражения, что ему удается лучше, чем Promt'у. Но, к сожалению, когда про­грамма теряет нить, по которой весь пере­вод выстроен заранее (например, устояв­шиеся выражения с несколько измененной структурой), то смысл всей фразы растворяется в малосвязанном потоке слов. Плюсом ко всему “Сократ” допускает грамматические ошибки, о чем говорилось не раз.

Художественный текст
Хотелось бы заметить, что особых надежд на качественный перевод художественного текста мы с самого начала не возлагали. Дело в том, что машине зачастую не по зубам справиться со всеми метафорами и аллюзиями, которые так любят писатели. Именно поэтому основной задачей для программ было лишь правильно пересказать предложенный текст, не обращая внимания на языковые средства. Для этого были отобраны такие примеры, в которых писатели пользуются короткими, точными фразами (иные авторы предпочитают настолько “заковыристый” стиль, что даже их соотечественники не понимают смысла написанного). Ниже Promt и “Сократ” попытаются перевести на русский язык фрагмент из культового романа Чака Паланика “Бойцовский клуб”.

Исходный текст
«It doesn't matter,» Tyler says. «If the applicant is young, we tell him he's too young. If he's fat, he's too fat. If he's old, he's too old. Thin, he's too thin. White, he's too white. Black, he's too black.» This is how Buddhist temples have tested applicants going back for billions years, Tyler says. You tell the applicant to go away, and if his resolve is so strong that he waits at the entrance without food or shelter or encouragement for three days, then and only then can he enter and begin the training.

Promt 7
«Не имеет значения,» говорит Тайлер. «Если претендент молод, мы говорим ему, что он слишком молод. Если он жирен, он слишком жирен. Если он стар, он слишком стар. Тонкий, он слишком тонок. Белый, он слишком бел. Черный, он слишком черен.» Это — то, как Буддистские храмы проверили претендентов, возвращающихся в течение миллиардов лет, Тайлер говорит. Вы говорите претенденту уходить, и если его решение настолько сильно, что он ждет во входе без пищи или убежища или поддержки в течение трех дней, тогда и только тогда может он входить и начинать обучение.
Начинает сказываться лексический дефицит, Promt’у явно не хватает слов, поэтому им используются общие слова, текст переводиться буквально (“вы говорите уходить” вместо “посылаете прочь”). Но это не есть серьезный недостаток программы. Ведь само собой разумеется, художественный текст всегда на порядок превосходит техническую литературу, так что пользователю по мере редактирования все равно придется интенсивно работать со словарем. Тем не менее смысл отрывка вполне понятен, а значит, если красота авторского слога для вас не важна, связный пересказ Promt 7 обеспечит.

Сократ Персональный 4.1
Тайлер «Это не имеет значения,» сообщается. «Если претендент молод, мы сообщаем ему он слишком молод. Если он — жир, он — слишком жир. Если он стар, он слишком стар. Тонкий, он слишком тонкий. Белый, он слишком белый. Черный, он слишком черн.» Это — как виски Буддиста протестировали претендентов, возвращать миллиарды лет, Тайлер сообщается. Вы сообщаете претендента, чтобы уходить, и если его решать, такое прочное, что он ожидает на входе без пищи или защиты или одобрения в течение трех дней, тогда и только затем может ли он ввести и начинать подготовку.
“Сократ” справился с художественным переводом откровенно плохо. Да, в тексте нет пропущенных слов, смысл близок к оригиналу — но грамматика просто ужасна! Сказуемое, как всегда, не согласовано с подлежащим; у дополнений либо падеж, либо число (а то и оба параметра) зачастую берутся, что называется, с правильного потолка. Читатель поймет, о чем данный текст, но глаза такой перевод режет.
Обратный перевод интересен, скорее, чисто из любопытства, хотя и дает более четкое представление о возможностях программ. Так что будем рассматривать следующий фрагмент как попытку понять, насколько хорошо тестируемые сумеют пробраться сквозь паутину хитросплетений русского языка. Что ж: Ильф и Петров, “Двенадцать стульев”.

Исходный текст
В Москве, в центре города, на площадке девятого этажа стоял взрослый усатый человек с высшим образованием, абсолютно голый и покрытый шевелящейся еще мыльной пеной. Идти ему было некуда. Он скорее согласился бы сесть в тюрьму, чем показаться в таком виде. Оставалось одно — пропадать. Пена лопалась и жгла спину. На руках и на лице она уже застыла, стала похожа на паршу и стягивала кожу, как бритвенный камень. Так прошло полчаса. Инженер терся об известковые стены, стонал и несколько раз безуспешно пытался выломать дверь. Он стал грязным и страшным.

Promt 7
In Moscow, in city centre, on a platform of the ninth floor there was an adult moustached person with higher education, absolutely naked and covered by a soapsuds moving still. To go to it there was no place. It would agree to sit down in prison more likely, than to seem in such kind. It was necessary — to vanish one. Foam bursted and burned down a back. On hands and on the person it has already fallen asleep, became similar on паршу and pulled together a leather, as a shaving stone. So has passed half an hour. The engineer rubbed about limy walls, groaned and some times unsuccessfully tried to break out a door. It became dirty and terrible.
Программа много додумывает, вместо того, чтобы использовать устоявшиеся фразы (ведь “исчезать” будет не “to vanish” (это вообще отдает рекламой бытовой химии), а “to disappear”). Promt ошибается с выбором местоимений: так, на месте he чаще всего оказывается it. Больше, пожалуй, добавить нечего: текст переведен достаточно чисто, если вручную исправить фирменные “косяки” с глаголами.

Сократ Персональный 4.1
In Moscow, in town centre, on platform of the ninth floor stood the adult with a mustache person with higher educations, absolutely nacked and coated budging else soapsuds. Go him was nowhere. He sooner agreed sit in prison, than be shown in such type. Remained one — disappear. The Spume burst and жгла back. On hand and on person she has already frozen, became looks like mange and joined the skin, as shaving stone. So passed the half an hour. The Engineer терся about lime wall moaned and several times unsuccessfully tried выломать door. He became dirty and terrible.
У “Сократа” заметно больше непереведенных слов. Кстати, о словах. Выбор нужного слова из ряда синонимичных (что критично для художественного перевода) оставляет желать лучшего. Вместе с тем нельзя не заметить, что с большинством предложений “Сократ” справляется довольно сносно.

Подведение итогов
Обе программы достаточно сильны в техническом переводе, когда язык автора строг и конкретен. Чем меньше вольностей допускает автор, чем лаконичней его речь, тем лучше электронные переводчики справляются с задачей. Однако при работе с художественным текстом, который пестрит сложными оборотами, метафорами, и у Promt'а, и “Сократа” возникают затруднения, которые, правда, не мешают воспринимать смысл написанного. У обеих программ есть слабые места: плохая работа с местоимениями и глагольными формами, согласование предложений, иногда не поддаю­щееся логике. Оба переводчика продемонстрировали практически одинаковую производительность, но все же выбор Promt 7, на наш взгляд, более оправдан. В его пользу говорят и богатая словарная база, и “ассоциативная память”, дающая программе возможность самосовершенствоваться в процессе работы. Возможности Promt'а неизмеримо шире, чем “Сократа”, благодаря подключению дополнительных словарей.

Вместе с тем “Сократ Персональный 4.1” ориентирован на использование в задачах, не требующих идеального перевода (таких, как перевод web-странички или фразы в чате). И в этой нише ему, если не искать более функциональных (а значит, и более дорогих) программ, не будет равных.
P.S. Почему программы-переводчики, до сих пор не могут тягаться с людьми? Дело в том, что принципы человеческого мышления коренным образом отличаются от машинных алгоритмов и опираются на ассоциативность и образность; человек в процессе мышления во многом полагается на интуицию. Чтобы компьютер научился понимать нас, необходима некая промежуточная среда, способная сохранить природу естественного языка — и одновременно структурированная по законам ЭВМ. Норвежский ученый, доктор Бергенхольм, вплотную подошел к решению этой нелегкой задачи, выдвинув концепцию универсального мета-языка. Его технология напоминает работу Java-машины: текст конвертируется в код, понятный машинному интерпретатору, а затем практически без ошибок переводится на любой человеческий язык. Что ж, будем ждать!


Рекомендуем почитать: