May 26th, 2008

Pacific

Локализация. Часть 3.2. Машинный перевод-2

К концу 80-х на проблему машинного перевода забили почти все, кто пытался финансировать коммерческие разработки. Понятно, что оставались еще всякие IBM-ы, которым было все равно, сколько и куда вкладывать, SYSTRAN, который с середины 70-х жил на военных заказах, энтузиасты и мелкие академические группы. На слайдах по прежнему все было разноцветно: вот французская фраза, вот она превращается... Фраза превращается... Превращается фраза... Вообще, интересно, что такого есть между английским и французским, что большинство презентаций по MT эксплуатируют именно эту языковую пару?..
Презентациями можно было поразить воображение один-два раза. Иногда три. Впрочем, если инвестор совсем тупой, то можно и больше. Но рано или поздно заинтересованные стороны начинали осторожно спрашивать "А где же долгожданный результат?"
Базовая стоимость разработки заказной коммерческой системы машинного перевода колебалась в диапазоне 6-16 миллионов долларов, но результат мог порадовать только энтузиастов и впечатлительных журналистов; индустрию MT не впечатлил. Основные неработающие методики можно свести к трем категориям:

  1. Word-by-word (подстрочный перевод). В качестве методологии перевода используется голый словарь для генерации квази-подстрочника: таких систем в интернете довольно много. На выходе они в лучшем случае выдают "Я стрелять мой нога", в худшем "Он(она) (с)делала это(т)". Предполагается, что по набору слов пользователь поймет хотя бы о чем речь.
    Слабым местом таких систем является практически все.
  2. Rule-based (на основе правил). Собственно, наиболее частый метод. Перевод осуществляется на базе жестко заданных правил для преобразования одной группы слов в другую (на другом языке). Подразумевается, что система распознает структуру предложения и правильно переставит и согласует переведенные слова; в реальности это происходит только на эталонных фразах. SYSTRAN, от которого сейчас отказались и Google и Microsoft, и BabelFish  - наиболее яркие представители этого класса. На выходе в лучшем случае получаются "Однажды в течение ледяного холодного зимнего времени I от леса уезжают, было сильный мороз", в худшем - "В левом окне верхней рукы" (примеры реальных переводов). Предполагается, что такого качества будет достаточно, чтобы понять суть.
    Слабых мест много, но основное - такие системы не улавливают контекста и применимы только к очень ограниченному количеству языковых пар. Чтобы как-то адресовать проблему контекста, некоторые системы MT позволяют выбрать из списка домен (то, о чем речь): IT, деловая переписка, политика и пр. Приемлемое качество перевода при этом подходе - явление почти случайное. Пустые хлопоты - на протяжении нескольких десятков лет прорыва в качестве добиться не удалось.
  3. Interlingua/Transfer-based (с промежуточным языком). Мой личный безнадежный фаворит. Идея состоит в том, чтобы перевести исходный текст на некий логичный промежуточный язык, а потом с него - на  нужный. В качестве промежуточного языка используют либо что-то совсем синтетическое, либо интерлингву или эсператно. Иногда используются два промежуточных языка: сначала производится описание исходного предложения, потом описание переводится в описание для целевого языка, а потом - на целевой язык. Метод заманчив многим, в частности, теоретической возможностью переводить с любого на любой. Про это все читать безумно интересно (а уж с разработчиками беседовать - это редкостное удовольствие), но такие системы относятся, скорее, к мифическим созданиям и в природе не встречаются. Цепочка "морфологический анализ" - "лексический анализ" - "семантический анализ" - "перевод в интерлингву" склонна рваться в любом месте.
    Интересно тут вот что. Ходили назойливые слухи, что интерлингве пытались приделать альтернативное применение: идея состояла в том, что, если писать документацию сразу на синтетическом языке, то потом можно будет сгенерить ее на всех нужных языках и сэкономить на локализации. Я даже не могу себе представить, куда и в какой форме авторы технической документации посылали энтузиастов машинной генерации текста...

И даже не то, чтобы все было совсем уж безнадежно: на самом деле многие системы всерьез использовались, под них затачивались производственные процессы и документооборот, клиентам делались звонкие обещания, из лабораторий в поисках смысла жизни выползали десятки коммерческих големов и просили госфинансирования. Но, по моему опыту, машинный перевод был и остается кошмаром всех профессиональных переводчиков, которых вынуждали им пользоваться: года три назад менеджеры крупнейшей немецкой локализационной фирмы отказались от долгожданного проекта, в котором использование машинного перевода рассматривалась теоретически. Уговорить их взяться за проект удалось только клятвенно (и неоднократно) пообещав, что никакого MT там не будет.

Но неожиданно что-то заработало. И заработало не совсем в технологическом смысле.

Про статистический машинный перевод - позже.

Pacific

Одноклассники после жизни

Было бы интересно сделать копию одноклассников, но для уже умерших. Умер - запись переместилась в другой домен. Разница в функционале не очень большая (за владельца пишут и размещают фотографии остальные). Поиск общий. Было бы полезно. 
Для христиан можно ввести голосовалку: куда попал человек - в ад или рай. А для верящих в переселение душ возможен и обратный процесс перемещения записи назад на одноклассники.ру.