Оглавление блога

четверг, 29 декабря 2011 г.

Ну, прям целый сериал получается!



Опять очень длинный ответ на коммент msnre по поводу машинного перевода

а) Что это? Кто и как его "хорошесть" определяет?
Как раз здесь можно ввести метрики, определяющие качество перевода. ... критерии оценки ввести можно всегда, просто все зависит от того, насколько сложны они будут :).

Это всё равно, что сказать: можно разработать систему, которая точно определит, какая погода будет на ул. Стара Загора г. Самары, возле ИМЕННО моего дома, ровно через год (температура, влажность, осадки, облачность), "ПРОСТО ВСЁ ЗАВИСТ ОТ ТОГО, насколько сложна она будет".

Так же и с оценкой качества перевода, и с оценкой качества пайки - по мере усложнения, они движутся в направлении полного абсурда и утрачивают какой-либо практический смысл, становятся "вещью в себе", как сложные комплексные показатели победы в "социалистическом соревновании", включавшие, среди прочего, и число выпущенных стенгазет, и число забеременевших в бригаде коммунистического труда!

б) машинный перевод может быть действительно удобным инструментом для переводчика, который будет облегчать его работу на 30-40%.

Бооольшая ошибка! Для простого пользователя, который "учился [английскому, французскому, немецкому] понемногу, чему-нибудь и как-нибудь", возможно - да, хотя - не факт! Я, например, никогда не берусь редактировать чужие переводы - печатаю быстро, мне проще и быстрее, причем раза в 2, а не на те 30-40% - перевести самому заново с оригинала, см. мой пост "Редактирование чужого перевода".

В 1996, в фирме по торговле электроникой, где я переводил инструкции пользователя, закупили программу-переводчик Stylus (была тогда такая крутая марка!).

А кто не знает - инструкция пользователя на стиральную машину, газовую плиту, автомобильную магнитолу - отнюдь не технический перевод, не техническая терминология. Простейшие фразы, без терминов ВААЩЕ! Типа: "Открылся новый магазин автомобильных шин, специально для блондинок. Называется: "Такие чёрные круглые штучки, чтобы на них ездить".

Сижу я, перевожу, а параллельно, их сотрудник рядом, корректирует-редактирует перевод, выполненный Стайлусом. И через каждые 2-3 минуты меня тягает: "Сереж, а что бы вот это могло означать?" Смотрю, не пойму! Говорю, дай оригинал посмотреть. И так весь вечер, и не один!

Все время жалуется, как занудно удалять, копипейстить, исправлять окончания. Говорю ему: "А ты попробуй этот стайлусовский перевод 2-3 страницы распечатать на бумаге, положи их рядом, и просто печатай с этих листов свой откорректированный вариант. Быстрее получится!"

"Котёнок сначала боялся нового пылесоса, но потом - втянулся!" Действительно быстрее! Хотя он медленно печатал двумя пальцами - всё равно! Быстрее напечатать заново, чем десять раз помечать и рокировать 10 слов во фразе, где их всего 10, а потом еще и подгонять курсор к каждому окончанию, чтобы изменить их в нужный падеж.

Начальник мне: "Ну тебе же проще исправить готовый перевод, чем самому переводить!" Говорю, нет, потому что английский текст я понимаю на все 100%, а этот русский машинный - только процентов на 60! Неспециалисту же всегда кажется "ну слова-то ведь русские! Осталось только чуть подправить - и пойдет".

с) для повседневного пользователя, который хочет прочитать статью в Нью-Йорк Таймс, и действительно правильно понять, что там написано...

Ах, если бы!!! Вот перевод статьи из The New York Times, опубликованный в 2009 г. на вкладке в "Новой газете" (начало. Полностью см. мой пост "Нетрадиционный экономист"). Перевод выполнила даже не машина, а девушка (или женщина), он даже подписан! Понять невозможно вообще, даже о чем это! У меня потом, в 2010 целая серия из 8-ми постов была по переводам этой вкладки "Дебильные переводизмы".

оригинал

перевод из Новой газеты

мой перевод

Mainstream economics subscribes to the theory that markets “clear” continuously. The theory’s big idea is that if wages and prices are completely flexible, resources will be fully employed, so that any shock to the system will result in instantaneous adjustment of wages and prices to the new situation.

Господствующая политэкономия соглашается с теорией о том, что рынки непрерывно очищаются. Основная идея этой теории заключается в том, что если заработная плата и цены являются абсолютно гибкими, то ресурсы будут использованы полностью таким образом, что любой удар по системе приведет к мгновенному регулированию заработной платы и цен в соответствии с новой ситуацией.

Большинство экономистов убеждены, что рынок всегда сам возвращается в состояние равновесия. Согласно этой теории, для эффективного использования ресурсов нужно вообще отказаться от регулирования зарплат и цен, тогда после любого резкого воздействия на систему, зарплаты и цены немедленно придут в соответствие с новой ситуацией.

This system-wide responsiveness depends on economic agents having perfect information about the future, which is manifestly absurd. Nevertheless, mainstream economists believe that economic actors possess enough information to lend their theorizing a sufficient dose of reality.

Такая общесистемная ответная реакция зависит от субъектов рынка, имеющих полную информацию о будущем, что явно является абсурдным. Однако традиционные экономисты полагают, что субъекты экономической деятельности обладают достаточным количеством информации для придания их теориям достаточной степени реальности.

Но чтобы вернуть систему в равновесие, экономическим субъектам нужна точная и достоверная информация о будущем, а это невозможно. Однако, большинство экономистов считает, что у экономических субъектов все же достаточно информации, чтобы делать довольно точные прогнозы.

The aspect of the theory that applies particularly to financial markets is called the “efficient market theory,” which should have blown sky-high by last autumn’s financial breakdown. But I doubt that it has.

Теорию, которая применяется сугубо к финансовым рынкам, называют «теорией эффективного рынка». Прошлой осенью эта теория уже должна была быть разбита в пух и прах после финансового кризиса. Однако я сомневаюсь, что это произошло.

Раздел этой теории, касающийся финансовых рынков, называется "теорией эффективного рынка". Будь она верна, крах финансовой системы осенью прошлого года должен был бы стать ее триумфом. По-моему, не стал.



Если бы я не нашел в сети текст оригинала, я бы не понял ничего! И уж тем более ничего бы не смог исправить. А ведь эта девушка наверняка училась переводу в вузе! А уж по машинному переводу тем более невозможно "правильно понять, что там написано"!

д) Гугл Транслейт не умеет до конца согласовывать род числительных, да и у глаголов время

Для смертельно больного пациента - это легкий прыщик!

Эх, если бы он не умел только это! Цены бы ему не было!

е) И Ашманов как раз и занимается развитием и разработкой систем понимания и анализа текста (не только синтаксический разбор и статистический анализ, конечно же) - чтобы различными алгоритмическими хитростями "понимать" текст (определение тематики для подбора словаря, определение контекста, нахождение действующих объектов для определения местоимений и согласования и т.д.).

Ну, если он как раз этим и занимается, наше ему с кисточкой - гениальный конспиратор! Поскольку в интервью он же сам как раз и говорит (наверное, чтобы конкурентов направить на тупиковый путь разработок!), что возиться с "пониманием" - глупо, не нужно, а он-то такими глупостями как раз и не занимается!

А я-то здесь, как раз, тупо попался, как заурядный "машинный переводчик": воспринял только то, что написано в тексте, без учета бэкграунда автора и прочих метатекстуальных, металингвистических аспепктов, о которых Вы меня (Спасибо!) проинформировали!

3 комментария :

msnre комментирует...

Ну нет же, нет же! :)

Все-таки перевод - не искусство, ремесло, как и программирование. Ремесло сложное, создание метрик затруднено, но ведь возможно - так же, как возможно и с погодой - составлять прогнозы с определенными интервалами доверия по вероятности такой-то температуры и т.д.

Так же и с переводами нехудожественных книг (тут подчеркну, все-таки в художественных книгах даже одного жанра слишком много простора для авторского стиля и прочих лингвистических штучек) - т.е. специализированной литературы в определенной области. Соответствие принятых оборотов, правильный перевод терминологии, часто встречающиеся куски текста - хорошие метрики.

Пример. Что такое Яндекс и Гугл - это поисковые системы, которые стремятся к тому, чтобы отвечать на заданные поисковые запросы, при этом перелопачивая миллионы текстов. Яндекс сейчас вообще работает на самообучаемой машине, которая оценивает адекватность ответа на запросы множества видов: навигационные, коммерческие; тысяч тематик; и при этом учитывает очень много факторов. При этом компания того же Ашманова создала альтернативную метрику поисковых систем - http://analyzethis.ru/?lang=ru.

Серьезно, качество всегда можно оценить без передергивания на "бюрократизм".

--

По поводу пункта б) вы же сами привели пример интерфейса, который должен быть в программе, чтобы упростить жизнь переводчику.

Смотрите, я читаю книги с Киндла Тач, электронной книжки с тач-экрана, при этом читаю с английского, который знаю, скажем так, со словарем, - мне достаточно просто тапнуть пальцем в слово, которое мне не понятно, чтобы узнать его перевод. При этом чтению это совершенно не мешает и не сбивает.

Если бы посмотрели, как устроены переводы на том же нотабеноиде - обе строки (с вариантами других пользователей) вполне прекрасно уживаются на одном экране, и если видно, что кто-то перевел неправильно, достаточно добавить свой.

Ну вот смотрите. Например, если бы вы вели блог на Вордпрессе, или вообще на отдельном движке, я мог бы сделать вам простой и удобный скрипт размещения вот таких таблиц-подстрочников, с быстрым выделением ключевых слов в обоих языках, с которым не надо было мучиться с таблицами только текст и понятные операции.

Все дело в том, как программист и дизайнер заботится о пользователе и том процессе, который должен поддерживать программа в силу своих обязанностей.

--

О Гугл Транслет я молчу, молчу. Впрочем, повторюсь, я не слежу особо за рынком машинного перевода и не знаю, есть ли там прорывы, новые игроки и в чем текущие затыки в развитии направления.

msnre комментирует...

--

О метатексте и "понимании". В этом маленьком псевдоинтервью вообще ничего не сказано, оно как будто вырвано из огромного контекста, которое журналист посчитал просто скучным. Ну или Ашманов в своем стиле отделался популистскими высказываниями - хотя зачастую он может много говорить по делу.

Но вернемся к тексту интервью. К сожалению, Ашманов употребляет слова "хороший" машинный перевод и "понимание" так, как математик-программист. Т.е. в случае первого он имеет в виду, что по определенным критериям можно будет мерять качество перевода. Критерии должны быть построены с учетом, чтобы 80-90% текстов самой частой направленности переводились так, чтобы читались и в глаза не бросались очевидные ляпы (на ИТ-ресурсах появляется столько недо-переводов, де проскальзывают американизмы, что мне тоже впору завести блог для них).

Наконец, он говорил о понимании как о процессе, которому нет определения и соответственно не познаваемого алгоритмически. Нет пока прорыва в Искуственном Интеллекте, нет. Но он уже симулируется. Точно так же и перевод - вместо буквального "понимания" используются лингвистические и статистические хитрости, основанные на определении темы, контекста, учитывающие окружение слов и даже уже написанное до. Я, в принципе, могу пошукать тексты на эту тему, если интересно - хотя, конечно, пока многие вещи компаниями не публикуются, т.к. они стараются применить свои разработки уже сейчас в других областях (как, например, сейчас все рванулись в определение негативных/позитивных отзывах о брендах в блогосфере) и, соответственно, заработать больше денег, чем конкуренты.

msnre комментирует...

И да, это целый сериал :)