Home
Angel Station
Продолжение следует
Лингвистическое 
26th-Dec-2008 10:29 pm

Ответы на вчерашние вопросы:

1. Русский.
2. Французский.
3. Русский.

Детали – под катом.

Для начала – пара замечаний.

1. Цифры какие есть, такие есть :) У меня нет цели разобраться, как надо переводить, мне интересно, как реально переводят, что на что влияет, и какие из этого следуют выводы.
2. Набор исходных английских терминов для всех языков примерно один и тот же, а использованные переводы делались разными фирмами и переводчиками на протяжении нескольких лет, так что выборка, как мне кажется, может считаться полной, а результаты – корректными применительно к языкам.

1. У какого из вышеперечисленных языков встретился перевод с максимальным удлинением?

Понятно, что тут – почти чистая лотерея, и понятно, что наибольшее “удлинение” происходит на коротких терминах. Но, честно говоря, я не ожидал увидеть на первом месте именно русский, а на втором - итальянский. Глядя на результат, я, кажется, начинаю понимать, что произошло: в русские и итальянские переводчики стараются передать смысл или ввести контекст, поэтому акронимы часто заменяют на “развернутую” версию. Скажем, в немецком такого нет: они с удовольствием сохраняют акронимы в первозданном виде, не изменяя. Удивило то, что такого явления нет в французском (единственное найденное исключение – замена “ KPI” на “Indicateur de performance clé”: удлинение – 900%). Видимо, придумывают свои акронимы: я не могу допустить, чтобы французы использовали английские :) В испанском заметная де-акронимизация встретилась только один раз: “OEM” –> “fabricante de equipo original” (867%)

Top 3 “удлиненных” терминов выглядят так:

Русский:

XP -> Расширенная хранимая процедура (удлинение 1400%)
KPI -> Ключевой индикатор производительности (1133%)
3D -> Объемные эффекты (700%)

Итальянский:

SQL -> Agente log shipping Microsoft SQL Server (1233%)
UDF -> Funzione definita dall'utente (866%)
SCD -> Dimensione a modifica lenta (800%)

Интересно, что, если отбросить акронимы, то на первое место попадает испанский, а второе место делят немцы и бразильцы. Для такого варианта Top-3 переводов по всем языкам выглядит так:

Испанский – 800%

Lift -> Mejora respecto al modelo predictivo (800%)
Reads -> Operaciones de lectura (340%)
Zip -> Código postal (333%)
(Кстати, OK –> Aceptar (250%): испанский – единственный язык, где “ОК” переводится).

Португальский (бразильский) - 450%

Lift -> Comparação de Precisão (450%)
Tan -> Marrom-claro (300%)
Views -> Modos de Exibições (260%)

Немецкий – 450%

Go -> Wechseln zu (450%)
Go –> Ausführen (350%)
Unsort -> Sortieren rückgängig machen (350%)

Французский – 433%

Any -> N'importe lequel (433%)
Order by -> Trier par ordre croissant ou décroissant (400%)
Letter -> Lettre US (215,9 x 279,4 mm) (366%)

Русский

Tan -> желто-коричневый (433%)
Usage -> Сведения об использовании (400%)
Bcc -> Скрытая копия (333%)

Итальянский

Done -> Operazione completata (425%) 
E-Mail -> Messaggio di posta elettronica (400%)
Login -> Nome account di accesso (360%)

2. У какого из вышеперечисленных языков самое большое “среднее” удлинение текста по всей выборке?

Французский. На втором – немецкий. Русский попал на последнее место по простой причине: у него оказалось максимальное количество переводов, длина которых короче оригинала (см. п. 3). Результаты получились такими:

Fre – 23%
Ger – 21.7%
Spa – 20%
Ita – 18%
BrP – 13.7%
Rus – 13.1%

Интересно то, что, хотя эта цифра – объективная, толку от нее, похоже, мало. Хотя, я еще покопаю…

3. У какого из языков получилось наибольшее количество переводов, где длина оригинала больше длины перевода?

Русский. Сводка:

Rus – 22%
BrP – 15%
Ita – 11.5%
Ger – 10%
Spa – 9.7%
Fre – 8.2%

В качестве бонуса подкину вот какие данные: французский же попал на первое место по проценту переводов, длина которых превышает оригинал больше, чем на 40%. Для меня 40% всегда было “магическим” числом: многие клиенты требуют, чтобы при переводе софта длина переведенных терминов не превышала эту цифру: в пользовательском интерфейсе разработчики оставляют под “удлинение” примерно столько места. Оказывается, что в среднем каждый пятый перевод превышает этот предел.

Разбивка по условным группам выглядит так:

image

В общем, начало положено. Промежуточный вывод: похоже, что по совокупности именно французский может претендовать на звание наиболее “длинного” языка. Хотя, я еще не закончил :)

Comments 
27th-Dec-2008 07:26 am (UTC)
Интересно, спасибо.
7th-Mar-2009 11:15 am (UTC)
Во, сейчас эти цифры очень пригодились при планировании многоязычной газеты :)
7th-Mar-2009 02:58 pm (UTC)
:)) Классно! :)
27th-Dec-2008 07:37 am (UTC)
Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану. Это несколько нивелирует крайности. Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть. По моим прикидам иврит будет примерно равен английскому но в среднем чуть длиннее. С одной стороны нет гласных и написание короче, но с другой имеет место "введение контекста" и расшифровка аббревиатур.
28th-Dec-2008 06:24 am (UTC)
> Я думаю что в пункте 2 стоит указать не только среднее удлинение, но и медиану.

Это, кстати, правильная мысль. Я ее подумаю. На первый взгляд (на графики) может показаться, что медиана может быть очень близкой к среднему значению. Но я могу быть неправ.

> Ксттаи, есть ли данные для иврита? Было бы интересно их увидеть.

Под рукой ничего нет, но в понедельник я попробую поискать переводы с хорошей выборкой. Если найду - кину сюда. У меня в планах польский пообнюхивать, но его тоже нет :) Буду искать оба языка. Уверен, что найду :)
28th-Dec-2008 01:35 pm (UTC)
Спасибо! :)
30th-Dec-2008 06:31 am (UTC)
quick update: польские переводы нашел, иврита нет. Запросил у другой группы :) Жду ответа.
30th-Dec-2008 06:39 am (UTC)
Спасибо. Если это сложно, так и чёрт с ним. Это всего лишь праздный интерес. :)
8th-Jan-2009 10:00 pm (UTC)
Иврит подкрался незаметно.
Выглядит это так (с табуляциями):

SHORTER THAN ORIGINAL WITH NO INCREASE 0-10% INCREASE 10-20% INCREASE 20-30% INCREASE 30-40% INCREASE EXCEEDING 40% INCREASE Unchanged AVG INCREASE MAX INCREASE
36448 80765 5742 5360 4933 4204 8443 75842 -5.26% 1175%

В общем, налицо среднее _уменьшение_ длины в размере -5.26%
То есть, по большому счету в среднем текст действительно остается примерно той же длины.

Если интересно, то еще вот цифры:
- наибольшее "удлинение" происходит, если длина исходной английской строки находится в пределах 1-6 знаков: текст удлиняется на 24-28 процентов.
- дальше все равномерно укорачивается и уходит "в минус" на переводах длиных строк (длинее 25 знаков)

Полная статистика по разбивке:

1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
24.05% 28.07% 12.75% 9.95% 7.12% 3.77% 1.56% 0.74% -1.28% -9.84%

Вот примерно так... :)
8th-Jan-2009 10:12 pm (UTC)
Это примерно то что я и ожидал. Удлинение на коротких словах - расшифровка аббревиатур и полный перевод всяких устоявшихся терминов (типа bitmap). Чем исходная строка длиннее, тем больше экономия благодаря отсутствию гласных и общей краткости слов.
28th-Dec-2008 12:47 pm (UTC)
Спасибо :)
7th-Jan-2009 12:37 am (UTC) - Так говорил Заратустра
В Приложении 2 к Рекомендациям Союза переводчиков России, которые можно скачать с официального сайта СПР (http://www.translators-union.ru/netcat_files/File/Recommendations_V1_02.zip), приводится таблица примерного изменения объёма текста при переводе с иностранных языков на русский. При этом получается, что английский текст в среднем короче русского на 17%, французский - на 9%, а венгерский и финский - на 29%!
Интересно...
Мне кажется, что эти данные можно использовать и для сравнения иностранных языков друг с другом - например, получится, что французский текст в среднем длиннее английского на 9%.
7th-Jan-2009 12:52 am (UTC) - Re: Так говорил Заратустра
> При этом получается, что английский текст в среднем короче русского на 17%,

Ну, если брать за основу русский и считать в терминах "укорочения", то мои данные довольно близки: разница в 3-4 процента это приемлемо...

> а венгерский и финский - на 29%!

Про венгерский не знаю, а финский - да, один из самых "длинных" получается.

> Мне кажется, что эти данные можно использовать и для сравнения иностранных языков друг с другом - например, получится, что французский текст в среднем длиннее английского на 9%.

Это да. Тут еще интереснее, похоже.
Я проанализировал языки по такому параметру как среднее удлинение в зависимости от длины исходного текста с интервалом в 3 знака. То есть, первый интервал - английские строки от 1 до 3 знаков, потом - от 4 до 6 и пр. Я об этом нигде не писал, но для русского получается вот что:

1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28+
56.01% 42.81% 28.31% 22.65% 25.80% 26.60% 21.84% 20.84% 18.09% 8.59%

Интересно тут то, что анализ такой разбивки позволил получить довольно четкую зависимость числа обрезанных строк в софте (resizing bugs) от некоторых интергральных значений. Другими словами, если мы добавляем новый язык, то для каждого продукта можно примерно предсказать, сколько багов мы найдем для этого "нового" языка.
This page was loaded Jul 14th 2009, 3:07 pm GMT.