Оглавление блога

среда, 28 декабря 2011 г.

Машинный перевод: туда - сюда - обратно

Павел Русланович Палажченко обширно процитировал в своем блоге (см. его пост "Машинный перевод — от утопии к науке и обратно") выдержки из интервью (кому-то) математика Игоря Ашманова, доктора физико-математических наук, уверенного, что буквально через 5-7 лет появятся программы, пригодные для "ответственного" перевода.

Причем, сам Павел Русланович отметил свое несогласие с его тезисами, и уверенность, что, по крайней мере, через 7 лет мы убедимся, что этого еще, увы! не случилось.

Я недели две назад откомментил заметкой из газеты "Волжская Коммуна" от 1956 г. о том, что электронно-вычислительная машина БЭСМ (большая электронно-счетная машина), УЖЕ умеет не только считать, но и переводить с других языков:

"Институтом точной механики и вычислительной техники Академии наук СССР сконструирована быстродействующая электронная счетная машина «БЭСМ». За одну секунду машина совершает в среднем 7000-8000 арифметических действий. Машина может быть использована не только для решения математических задач. В порядке пробы недавно эта машина производила перевод научно-технического текста с английского на русский язык. Научный сотрудник С.Н. Разумовский подтвердил правильность переведенного текста".

Доктор наук говорит, что поскольку

а) "никто не знает, что вообще такое понимание (сознание)".
б) "Человечество не смогло выработать удовлетворительного определения (или определителя) разума, сознания и понимания",

то и нечего с ними заморачиваться, а можно и без них создать программу "ответственного" перевода.

Как бывший радиомеханик по ремонту цветных телевизоров с 11-ти летним стажем, смею возразить, что многие даже абсолютно НЕВЕРБАЛИЗУЕМЫЕ вещи РЕАЛЬНО существуют. Если что-то в принципе невозможно вербализовать, это не значит, что этого чего-то нет!

Возвращение на работу после трехнедельного отпуска: механик дней 10-14 "не в форме" (не потому, о чем!):

Знакомая картинка дефекта на экране. Теоретически, дефект может быть:

а) здесь
б) там
с) сям

Начинаешь проверять в произвольной последовательности, то есть НАУГАД:

а) ой, не здесь!
б) ой, и не там!
с) вот оно, наконец-то!

Когда ты "не в форме" (нюх сбился за время отпуска, интуиция не та): вероятности, что ты обнаружишь дефект с первой, второй или третьей попытки - примерно равны (~33%).

Когда ты "в форме", вероятность найти дефект с первой попытки зашкаливает за 70% (ну, к слову просто).

А "картинка" дефекта (на экране, по звуку, по приборам) - казалось бы, та же самая! Какие-то мелкие, безотчетно, интуитивно улавливаемые (и уж точно - невербализуемые!) ея детали, подсказали тебе, что дефект "а" вероятнее, чем "б" или "с".

И так везде, во всем, повсюду, повсеместно! Так талантливый врач ставит диагноз; квалифицированный геофизик - интерпретирует "картинку" сейсморазреза...

Уважаемый Ашманов может возразить, что-де не все же врачи - талантливые диагносты, не все геофизики... Дык, ведь и кладбища же отнюдь не пустуют, а пустопорожних скважин тоже немало!

А что такое безответственно выполненный "ответственный" перевод?

А если это так просто, по его мнению, пусть-ка Игорь Батькович сначала напишет компьютерную программу для робота - манипулятора - хирурга. И сам под него ляжет для удаления не аппендицита даже, а просто бородавки!

Был у нас при Ельцине министр финансов Лифшиц (не слесарь-токарь какой, не хухры-мухры!), лег, типа, в барокамеру, там что-то сбойнуло, начало автоматически переворачивать разные части евойного тела в разные стороны. Ногу сломало... Ладно, что не шею! Осиротела бы страна без министра...

А неточный перевод медицинской карты тем же чреват, только с отложенными последствиями. Вот не сию минуту, а через две недели, через полгода.

Да, конечно, и при правильном переводе, но дурном враче, трагический финал не исключен. Но, коллеги, мы же с вами не звери! Давайте хоть мы не будем увеличивать вероятность печального исхода!

А неточный перевод коммерческого договора чреват банкротством талантливой компании типа "Эпл Макинтош", и процветанием (недолгим!) бездарной.

А тексты написанные не-нейтивами, коих на английском - подавляющее большинство!!!

А нейтивами, но с ошибками:
(см. мой пост: The Lack of Exposure)

Возьму девушку на квартиру по сходной цене.
(Объявление)

Справка

Дана управлению связи в том, что они работали в Н.-Никольском на дранье лука и выдрали 12 чел.
(Справка из совхоза)

Тов. жильцы! 9/Х-91 г. будет производиться травка мышей только вместе с жильцами.
(Объявление)

С положительной стороны Шорин В.П. характеризуется отрицательно.
(Из характеристики)

Внимание домовладельцев загаженных домов! В апреле будет проверка из Одессгаза.
(Объявление)

Присвоить звание "Образцовое рабочее место" следующим сотрудникам...
(Из приказа)

Лучше всего язык развит у хамелеонов, лягушек, которые ловят им мух, и еще у артистов и учителей.
(Из ответа ученика 8 класса)

За халатное отношение к пьянке слесарю Носачеву Е.В. объявить строгий выговор.
(Из приказа)

Возле Дома связи находился гражданин в легком опьянении, который приставал к окружающей среде.
(Из милицейского протокола)

Пенсию, алименты и увечья получают в кассе ЖКК.
Расчетный отдел

Доктор физико-математических наук думает, что это редкие ляпы? Отнюдь! Типичный случай! (не все, конечно, столь забавны).

Автор инструкции по монтажу оборудования пишет ее для специалиста (слесаря, электрика, и т.п.), а не для филолога-переводчика! Ему просто в голову не приходит уточнять какие-то вещи, очевидные для его земляка, опытного специалиста, хорошо знакомого с десятком предыдущих моделей этого же станка, пресса, и т.д. А в Россию ВПЕРВЫЕ закупили 10-ю модель, для наших слесарей, монтажников - она - как инопланетный корабль! Предыдущих девять они не видели!

А переводчик вообще впервые в жизни слышит о существовании агрегата подобного назначения (швейный робот-полуавтомат, нашивающий задние карманы на джинсы, к примеру) и НЕ ВИДИТ его перед собой во время выполнения перевода! Хорошо еще, если есть иллюстрации и он умеет читать чертежи...

И уж вовсе даже ошибается Игорь Ашманов насчет того, что задачи распознавания речи и выполнения "ответственного" перевода - примерно одного уровня сложности. Давно есть приличные распознавалки не только отсканированных текстов, но и вообще - ЛЮБЫХ картинок.

Зайдите, полюбопытствуйте, на портал likeness.ru, типа:







А с точки зрения ТПС (теории передачи сигналов) - что видео, что аудио - всё одно - сигнал: моменты времени / амплитуды =/= частòты / амплитуды. Преобразование Фурье...

2 комментария :

msnre комментирует...

Есть некоторые поправки технического свойства для ликбезу :)

Конечно, анализ изображений, видео и аудио - совершенно разные задачи. Но с ними неплохо справляются уже сейчас - Гугл замазывает лица людей на фотографиях (хотя и с забавными косяками - замазывая лица и у лошадей и собак), некоторые сервисы позволяют найти по-настоящему схожие и по-настоящему автоматически (в отличие от лайнесса) изображения, несколько русских команд работают над автоматическим определением порнографии (чтобы спасти вКонтакте, видимо). Распознавание (OCR) тоже шагнуло вперед - не FineReader'ом и CuneiForm единым, теперь есть оцифровщики на мобильниках, и все это настолько круто, по сравнению с тем, как предыдущие программы распознавали мутные сканы - что восторг.

Ну и по голосу и переводам продвижения есть - распознователь Гугла неплох для английского, а эппловская Siri так вообще соединена с интеллектуальным поисковиком. Конечно, несмотря на то, что IT-слухи внимательно мониторю, о крупных прорывах в машинном переводе не слышал - но там и задача другого уровня, и сложностей куда больше, чем иронии в этой статье - но с техническими переводами по профессиональным словарям (в смысле заточенности на терминах специализации, а не уровня словаря), с документацией вполне справляется. И хорошие машинные переводчики уже давно переводят фразы в контексте - даже translate.google.com, который просто ужасен :)

И, кстати, Ашманов говорил все эти вещи не просто так - он-таки не просто доктор физически-математических наук, но и лингвист, который со своей командой и при институте работал, и в Рамблере, а теперь занимается подобного уровня вещами в своей компании "Ашманов и партнеры" - они делали проверку орфографии в Ворде "Орфо", теперь вот занимаются инфами (ну, это на самом деле, продвинутый вариант чат-бота из 90-ых) и нахождением упоминаний (и их коннотации) о бренде в Интернете. Переводами тоже занимался, если правильно помню из одного его интервью, коих много по сети валяется - Ашманов не только профессионал в своей сфере, но и довольно крут на (свой подвешенный) язык, и очень любит высказаться по многим поводам.

Ну а о переводах - все сложно. Вроде бы есть и решенные вопросы, и много нерешенных, и понятно, что дополнительная проверка человеком во многих случаях обязательна. В любом случае, говорю с технической стороны - все не так ужасно, как кажется со стороны переводчика ;)

Sergio комментирует...

Слишком длинный коммент получился - на целый отдельный пост. См.
http://perevod99.blogspot.com/2011/12/msnre.html