Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке

Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 23.06.2011
Размер файла 4,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Подробнее о математической модели статистического машинного перевода (Модель Шеннона) рассказано далее.

Модель Шеннона

Модель состоит из пяти элементов: источника информации, передатчика, канала передачи, приемника и конечной цели, расположенных линейно.

Передатчик кодирует информацию, полученную от источника, и передает ее на канал. По каналу передачи, на который действует шум -- помехи любого рода, искажающие информацию, данные поступают в приемник, где они декодируется и передаются к конечной цели.

Из-за шума полученная приемником информация в общем случае не совпадает с информацией, отправленной передатчиком. Однако, согласно Шеннону, создавая избыточную информацию, исходные данные можно восстановить со сколь угодно высокой вероятностью. Для обнаружения ошибок используются контрольные суммы, для их исправления -- специальные корректирующие коды (при условии, что степень шума не превосходит некоторой границы).

Стоит отметить, что любая информация в некотором роде избыточна (Shannon, 1948: 380). Человеческая речь избыточна -- чтобы уловить смысл предложения, зачастую необязательно слышать его полностью. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться. Если предложение в целом понятно, но есть несколько незнакомых слов, то обычно не трудно догадаться об их значении.

Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.

Задача такого декодирования заключается в том, чтобы, при данном сообщении, найти исходное сообщение, которому соответствует наибольшая вероятность. Для этого же необходимо для любых двух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение.

В данном случае нужна модель источника (модель языка) и модель канала (модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразы при условии фразы на переводном языке.

Если нам нужно перевести фразу с русского на английский, то мы должны знать, что именно обычно говорят по-английски и как английские фразы искажаются до состояния русского языка. Сам по себе перевод превращается в процесс поиска такой английской фразы, которая максимизировала бы произведения безусловной вероятности английской фразы и вероятности русской фразы (оригинала) при условии данной английской фразы.

· E _ фраза перевода (английская);

· R _ фраза оригинала (русская).

В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель). Согласно этой модели, правильность выбора того или иного слова зависит только от предшествующих (n-1) слов.

Самой простой статистической моделью перевода является модель дословного перевода. В этой модели, известной как Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель языка. Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей парных переводных соответствий слов двух языков (Рахимбердиев, 2003: 101). Обычно используются более сложные модели перевода. Многие из них являются коммерческими тайнами компаний разработчиков.

Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации.

В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут же определяются вероятности каждого n-грамма.

В режиме эксплуатации, для фразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.

2.3 ТМ-системы

После работы СМП (трансфертного типа, Example-Based) не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов можно снова вводить в базу данных. Тогда, по мере перевода все новых и новых документов, «память переводчика» будет постепенно обогащаться, и ее эффективность будет возрастать. Бесспорным достоинством технологии «памяти переводчика» является высокое качество перевода того класса текстов, для которого она создавалась.

Но базы переводных соответствий, построенные для однородных текстов одного предприятия, пригодны лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов. Практическая реализация связаны с большими трудозатратами на создание «памяти переводчика» или пополнение массивов двуязычных текстов (билингв). По такой системе чаще всего и переводятся научные, технические и математические тексты. Авторам этой работы, в частности, известно, что подобный подход часто используется Курчатовском институте.

2.4 Сравнение различных типов СМП

Рассмотрим кратко преимущества и недостатки существующих систем.

Системы пословного перевода на данный момент используются только для составления подстрочечника, как отмечалось ранее.

Преимущества:

· простота;

· высокая скорость работы;

· не требовательные к ресурсам.

Недостатки: низкое качество перевода.

Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.

Трансфертные системы распространены очень широко.

Наиболее известными представителями являются:

· ImTranslator;

· PROMPT.

Все подобные системы имеют сходные преимущества и недостатки.

Преимущества:

· высокое качество перевода

(при наличие нужных словарей и правил);

· обычно есть выбор тематики текста, который повышает качество перевода;

· возможно уточнение перевода, благодаря внесению изменений в базу данных переводчика (таким образом, пользователь получает потенциально бесконечное множество терминов, с которыми можно свободно оперировать, и можно достигнуть «бесконечного» качества перевода).

Недостатки:

· высокая стоимость и время разработки;

· для добавления нового языка, приходиться переделывать систему заново;

· нужна команда квалифицированных лингвистов, для описания каждого исходного и каждого переводного языка.

· требовательность к ресурсам на этапе составления базы.

Интерлингвистические системы перевода так и не были доведены до уровня промышленных систем.

Предполагаемые преимущества:

· высокое качество перевода, независимо от выбора языка.

· выделение смысла из исходного текста происходит один раз и потом записывается на любой язык, в том числе исходный

(получаем «пересказ текста»);

· низкая стоимость трудозатрат на добавления нового языка в систему.

Недостатки:

· спорность потенциальной возможности;

· высокая сложность разработки;

Количество труда, которое требуется для повышения качества перевода на какой-то процент, увеличивается с тем, какой этот процент по порядку Из личной переписки с А.Л. Калинином, руководителем направления качества поиска Mail.Ru..

· системы не масштабируются.

Модель интерлингвистического привела к тому, что в России стала делаться система машинного перевода ЭТАП, на которую было затрачено огромное количество времени и сил, без какого-либо видимого результата.

В компании Abbyy, в течение десяти лет, под руководством В. П. Селегея, тоже пытаются создать интерлингвистическую систему.

Можно еще упомянуть проект ДИАЛИНГ. Результатом проекта стала только библиотеки машинной морфологии русского языка (сайт aot.ru).

СМП, основанные на примерах, так же не имеют ярких представителей. Существующие прототипы используются в академической среде для иллюстрации самого метода. Часто они поставляются не в виде готового продукта, а в виде набора библиотек:

· Marclator - СМП Дублинского Университета;

· Cunei _ гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.

Рассмотрим преимущества и недостатки таких систем:

Преимущества:

· высокое качество перевода

(при наличие достаточно долгой тренировке системы);

· хорошо справляется со многими контекстными задачами

(фразовые глаголы);

· квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;

· логическая простота устройства;

· возможно обучение системы во время ее эксплуатации.

Недостатки:

· для обучения системы нужны большие параллельные корпуса текста, размеченные определенным образом.

· перевод сильно зависит от корпусов, которые использовались при обучении;

· для создания подобных систем требуются специализированные языки программирования;

· продолжительное время обучения;

· требовательность к ресурсам на этапе обучения.

Статистические системы машинного перевода активно разрабатывались (и разрабатываются) компанией IBM. Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5. Но наибольшую известность этот метод приобрел благодаря компании Google. Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход:

· Giza++ ;

· Moses;

· Pharaoh;

· Rewrite;

· BLEU scoring tool.

Не очень давно появился статистический переводчик для Яндекса, правда пока он владеет только русским, английским и украинским.

Преимущества:

· высокое качество перевода (для фраз, которые целиком помещаются в n-граммную модель):

§ при наличие достаточно долгой тренировке системы.

§ при наличие качественных корпусов текста;

· квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;

· труд человека минимизирован для создания таких систем;

· не требуется перестраивать систему при добавлении нового языка;

· возможно обучение системы во время ее эксплуатации.

Недостатки:

· для обучения нужны большие параллельные корпуса текста;

· сложный математический аппарат;

· качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;

· перевод сильно зависит от корпусов, которые использовались при обучении.

· при добавлении нового языка приходится анализировать большое количество параллельных корпусов;

· продолжительное время обучения;

· требовательность к ресурсам на этапе обучения.

Преимущества и недостатки СМП, основанных на примерах, и статистических СМП во многом совпадают. Однако огромным преимуществом последних является то, что обучение таких систем происходит без участия человека. Для статистического перевода не нужна дополнительная разметка корпусов текста, это значительно упрощает их построение. С другой стороны для качественного обучения и тех и других нужны значительные объемы параллельных текстов. Потому часто переводчики являются дополнительными сервисами поисковых систем (Google, Яндекс). На данный момент, статистические системы являются лидерами по соотношению цена / качество для всех СМП.

3. Структурно-семантические трансформации в англоязычном научно техническом тексте при машинном переводе

Ниже мы рассмотрим стилистические особенности отрывков из приложений и проведем анализ перевода, выполненного статистической и трансфертной системами машинного перевода. Трансфертная система рассматривается на примере ПРОМПТ 9.0, статистическая - на примере Google Переводчик

3.1 Основные особенности

Отрывки в основном написаны в научном стиле. Как и любой реальный текст, обладают стилистической неоднородностью. Безусловно, есть некоторые моменты, которые приближают текст к художественному. Однако, учитывая направленность книги Д. Кнута, приходится говорить исключительно о научном стиле.

Рассматриваемый текст обладает свойствами:

· доходчивости;

· логической последовательности;

· объективности изложения;

· традиционности.

Авторы русского перевода попытались сгладить некоторые традиционные научные штампы, используемые в тексте, что сделало язык отрывка живее, хотя и исказило немного его стилистически. С другой стороны в других частях текста были замечены обратные преобразования. Можно говорить о переводческой компенсации. Рассматривая, машинный перевод отрывка, конечно, ни о какой компенсации не может идти и речи.

Все четыре свойства были переданы, «так как они есть». Правда, некоторое сомнение вызывает свойство доходчивости. На некоторых участках текста оно страдает из-за ошибок согласования. (Важно отметить, что для трансфертной системы количество таких ошибок значительно ниже.) В первом отрывке можно найти описание алгоритма Евклида. Даже без специального анализа не трудно сказать, что стиль алгоритма и стиль основного текста сильно отличаются. Если внимательно посмотреть на англоязычное описание, то можно сделать вывод (отчасти ложный), о том, что изложение ведется на формальном императивном языке обработки данных. В русском варианте алгоритма стилистическая разница немного сглажена. С одной стороны, это облегчает восприятие, но уменьшает необходимую формальность описания.

Тут надо знать, какую цель преследовал автор, приводя описание алгоритма. Варианты: для иллюстрации, для понимания, для последующего воплощения в «истинно формальном» языке.

Все три отрывка обладают свойством логической последовательности.

Сами отрывки между собой не связаны, ибо умышлено, взяты из разных участков текста. Однако внутри отрывка можно видеть последовательное развитие мысли от простого к сложному.

В первом отрывке текста автор хочет показать читателю, что на протяжении всей книги будет называться алгоритмом. Сначала рассказывается об этимологии этого слова, далее приводится пример алгоритма, и только после этого рассказывается о структуре книги и том, как далее будут алгоритмы обозначаться.

Во втором отрывке автор хочет привести пример использования логической структуры связных списков.

Сначала рассказывается о дискретном моделировании вообще и его отличии от непрерывного моделирования и потом приводится описание самой модели. За пределами этого отрывка автор приводит формальное описание модели.

В третьем отрывке автор приводит свои рассуждения по поводу применимости приведенных ранее (за пределами отрывка) логических вычислительных моделей _ связывающих автоматов, и машин Тьюринга.

Логическая структура отрывков была легко отражена во всех вариантах их переводов. СМП смогли передать основную мысль отрывков. Несмотря на то, что в случае трансфертной СМП третий отрывок выглядит как набор слов, и требует значительной правки, мысли автора восстановить не сложно. Последний эффект связан с тем, что третий отрывок содержит большое число специфических терминов, которые даже профессиональный переводчик не рискнул переводить.

Стилистически машинный перевод оказался более близок к оригиналу. Например, в следующем отрывке переводчик нарушил свойство традиционности. Двенадцатое предложение третьего отрывка:

Many years have passed since the author wrote most

of the comments above,

Вариант статистической СМП:

Много лет прошло с тех пор [как] автор написал большую часть комментарии выше,

Вариант переводчика:

Со времени первого написания автором большинства приведенных выше комментариев утекло много воды.

Однако в ряде случаев, отступления от авторского стиля были продиктованы отечественными традициями научно-технической литературы, о которых системам машинного перевода ничего не известно.

Это например относится, к тому что переводчик пытался избежать тавтологий и множественное скромности.

Не всегда перевод выполненный человеком обладает объективностью. При анализе отрывков мы в этом убедились. В ряде случаев, переводчик немного трансформировал мысли автора, подменил собственными суждениями. СМП, особенно статистические, лишены этого недостатка.

Например, в двадцать восьмом предложении второго отрывка

… but it is believed …

Переводчик передал с искажением смысла:

… но автор все же верит …

Примечателен тот факт, что в ряде случаев перевод созданные машиной практически не отличается от варианта переводчика. Например, второе предложение второго отрывка трансфертная СМП как

«Дискретное моделирование» означает моделирование системы, в которой все изменения состояния системы, как может предполагаться, происходят в определенные дискретные моменты времени.

С первого взгляда невозможно понять, что перевод сделала машина. И только после анализа перевода и оригинала текста можно увидеть некоторые стилистические ошибки. Иногда перевод машины оказывался точнее, чем вариант переводчика. С подобным явлением мы столкнулись в семнадцатом предложении первого отрывка.

3.2 Лексические особенности

В тексте встречаются слова общего языка, то есть общеупотребительная лексика:

The notion of an algorithm is basic to all of computer programming ...

The word did not appear in Webster's New World Dictionary as late as 1957

The chapters are divided into numbered sections ...

В рамках это лексики осуществлен перевод как СМП, так и человеком. В данном случае машина ошиблась только в согласовании определений. С другой стороны, системы перевода не всегда удачно разрешает омонимию. Потому в машинном переводе текста присутствуют бессмысленные фразы.

Каждый алгоритм рассмотрим было уделено выявлению письмо (E и в предыдущем примере), и шаги алгоритма обозначены этим письмом последовал ряд (El, E2, E3).

В слова, в некоторых случаях переводчик позволил себе вольность, а машина перевела точнее

The format above illustrates the style in which all of the algorithms throughout this book will be presented.

В данном случае, format выступает в значении формат, структура, вид. Однако переводчик-человек это перевел как

Приведенная выше формулировка иллюстрирует стиль, в котором алгоритмы будут представлены на протяжении всей этой книги.

Слово формулировка не обладающим оригиналом читателем может быть воспринято, как утверждение, что, в контексте изложения, является неверным и вызывает непонимание. Машина в этом случае перевела фразу шаблонно. Для статистической СМП:

Формат выше иллюстрирует стиль, в котором все алгоритмы в этой книге будут представлены.

Для трансфертной СМП:

Формат выше иллюстрирует стиль, в котором будут представлены все алгоритмы всюду по этой книге..

Перевод выглядит примитивно, но в этом случае именно такой вариант перевода передает смысл более полно.

В первом отрывке встречаются слова закрепленные за определенными понятиями, но не являющиеся терминами. С другой стороны в рамках конкретной области их не всегда легко отделить от терминов.

... a process for finding the greatest common divisor of two numbers that

appears in Euclid's Elements...

Given two positive integers m and n, find their greatest common divisor, that is, the largest positive integer that evenly divides both m and n.

Подобные термины, которые «выглядят как простые слова» очень характерны для английского языка. В русском языке, в данном случае могут быть иные формулировки, не похожие по структуре на английские. Важно заметит, что в данном случае positive integers это именно натуральные числа. Перевод сделанный машиной оказался более точным.

А вот, например, для наибольшего общего делителя трансфертная СМП допустила искажение термина.

чтобы найти самый большой общий делитель двух чисел,

Нельзя квалифицировать фразу как ошибку, однако при прочтении такого варианта перевода может возникнуть непонимание, что речь идет именно о наибольшем общем делителе.

Во втором отрывке термины встречаются чаще.

As an example of the use of {{doubly linked lists}}, we will now consider the writing of a discrete simulation program.

Термин в фигурных скобках в современной литературе обычно переводится как двунаправленные связанные списки. Термин был переведен корректно только трансфертной СМП. И человек и статическая СМП употребили в данном случае кальку с английского языка.

В качестве примера использования дважды связанных списков ….

Однако в этом же предложении есть термин

a discrete simulation program.

Только человек корректно перевел термин.

программу дискретного моделирования

В то время как СМП перевели фразу соответственно:

отдельной программы моделирования.

дискретной программы моделирования.

В контексте повествования это не является критичным, но термин использован неверно discrete относится именно к simulation. Подобная ситуация встречается несколько раз в этом отрывке. Явление можно объяснить тем, что СМП неверно разрешают препозитивную определительную группы discrete simulation program.

Верную интерпретацию можно изобразить как:

((discrete simulation) program)

В то время как СМП воспринимают это как:

(discrete (simulation program))

Например, в оригинале:

... illustrate typical implementation techniques used with discrete simulation programs.

Статистическая СМП перевела как:

... иллюстрируют типичные методы осуществления использоваться с дискретными программ моделирования.

Трансфертная СМП перевела как:

... иллюстрируют типичные методы реализации, используемые дискретными программами моделирования.

Человек перевел:

... типичные методики, которые используются в программах дискретного моделирования.

Ниже во втором отрывке обе СМП справились с подобной ситуацией, но очень вероятно, что это связано с положением термина в предложении.

Continuous simulation can often be satisfactorily approximated by discrete simulation.

Однако слово approximated было переведено точно только машинами. Человек позволил себе некоторую вольность

Непрерывное моделирование часто можно вполне удовлетворительно имитировать с помощью дискретного моделирования.

Всего скорее, в данном случае это не сильно важно, однако при таком употреблении немного исчезает точность изложения. Непрерывное моделирование именно аппроксимируется, приближается.

Интересно так же рассмотреть иную ситуацию из второго отрывка

Оригинал:

On floor 2 in NEUTRAL state, the doors will eventually close and the machine {{will wait silently for another command}}.

Статистическая СМП:

На этаже 2 в нейтральном состоянии, двери, в конечном счете закроются и машина {{будет ждать молча для другой команды}}.

Трансфертная СМП:

На полу 2 в нейтральном состоянии, в конечном счете закроются двери, и машина {{будет ожидать тихо другой команды}}.

Переводчик человек:

Если лифт находится на этаже 2 в состоянии NEUTRAL, двери со временем закроются и лифт будет {{ожидать следующей команды}}.

Вообще ожидать следующей команды (wait another command) является термином. Автор в данном случае решил сгладить сухой термин, добавив слово silently. Однако, переводчик решил не передавать шутки автора. Трудно сказать, верно ли он поступил, но СМП передать эту шутку удалось, хотя термин был искажен и повествование получилось не столь строгим.

К сожалению, обе СМП коверкают термины причем там где это имеет значение для правильного понимания текста. Например, фразу

The elevator {{takes a certain amount of time}}

Трансфертная СМП перевела как

Лифт {{берет определенное количество времени}} …

Может показаться, что это не важно, однако, в контексте повествования слово «берет» может быть воспринято ошибочно, так ранее речь идет о переменных.

Очень интересно рассмотреть выражение home floor с точки зрения термина. Оно не является термином даже в текущем контексте изложения. Но всего скорее автор пытался создать у читателя аналогию с компьютерным термином home folder, home directory. На наш взгляд такая аналогия в примере автора более чем уместна, так как позволяет понять как ведет себя моделируемый объект. Переводчик в данном случае решил отказаться от этой аналогии и употребил фразу «базовый этаж».

В то время, как СМП перевели ее шаблонно на уровне эквивалентных трансформации _ домашний пол, домашний этаж.

Третий отрывок с точки зрения терминологии является наиболее сложным. Важно отметить, что он является сложным не только для перевода, но и для восприятия. Такие термины как связывающие автоматы (linking automata), и машины графов (graph machines) были переведены неверно СМП, и без оригинала сложно понять о чем идет речь. Вообще слово linking, на протяжении всего третьего отрывка, СМП перевели как общеупотребительное слово, но ни как термин.

С другой стороны сложные фразы типа

Turing machines having multiple tapes and read/write heads

были переведены СМП как

статистическая СМП:

машин Тьюринга, имеющих несколько лент и головок чтения / записи

трансфертная СМП:

машин Тьюринга, имеющих многократные ленты и комбинированные головки

Причем человек перевел

машин Тьюринга с множеством лент и головок чтения/записи

Интересно заметить, что для трансфертной СМП оказалась известна фраза комбинированные головки. Это говорит о применении вариантных трансформаций в трансфертной СМП - перевод происходит не так примитивно, как это могло бы показаться. С другой стороны примененное обобщение может повлиять на качество восприятия.

Однако, ниже фраза multitape Turing machine (многоленточная машина Тьюринга) была переведена достаточно странно и верно термин был переведен только человеком.

Статистическая СМП поступает очень интересно с таким термином. И фразу multitape Turing machine, и one-tape Turing machine она переводит просто как машина Тьюринга. (Понимая принципы работы статистических машин легко объяснить природу этого эффекта.) С точки зрения научно-технической литературы это совсем не верно, но в рамках иных стилей подобный подход мог быть оправдан.

Так же, достаточно сложным термином является выражение pointer machines. Учитывая, то что переводчик указал в скобках ориганальный термин (на английском языке), можно утверждать что русского устойчивого аналога выражения просто не существует. Не удивительно, что обе СМП не справились с этим термином.

Вариант статистической СМП:

… сейчас он называется указатель машин …

Вариант трансфертной СМП:

… теперь названным машинами указателя …

Вариант переводчика:

… сегодня называемых машинами указателей (pointer machines) …

В тексте можно заметить использование устойчивых выражений, характерных для научной прозы.

Finally, historians of mathematics found the true origin of the word algorism:

Of course, Euclid did not present his algorithm in just this manner.

For example, we are now in Section 1.1

Conversely, however, it is unlikely that

Подобные, слова являются обособленными, потому с ними может справится даже самая простейшая система машинного перевода.

Важно, что общелингвистическое и специальное значение таких слов совпадает для русского и английского языков (чего в общем случае утверждать нельзя). Устойчивые фразы из второго отрывка такие как:

The methods to be discussed below …

Были переведены СМП как

Методы, которые будут обсуждаться ниже …

Однако переводчик перевел фразу так же усточивой для русского языка фразой

Рассматриваемые ниже методы…

В большинстве случаем перевод сделанный СМП и человеком таких устойчивых фраз совпадает.

В тексте можно так же заметить логическое подчеркивание. Благодаря своей шаблонности, такие маркеры так же весьма удачно переводятся машиной. В третьем отрывке:

Some of the most interesting problems …

Статистическая СМП:

Некоторые из наиболее интересных задач …

Трансфертная СМП:

Некоторые из самых интересных проблем …

Переводчик:

Самыми интересными проблемами …

Переводчик опять позволил себе вольность, однако это не является критическим в данном случае. Но, это несколько искажает смысл фразы. Переводчик ограничивает круг жестче интересных проблем, в то время как автор этого не делает. Эту же фразу можно классифицировать, как и выражение количественной экспрессивности. Можно утверждать, что переводчик умышленно ее усиливает.

Логическое подчеркивание видно на примере предложения

So far we have described the elevator from a user's point of view; the situation is more interesting as viewed by the elevator.

В данном случае противопоставляются две точки зрения, и на вторую автор хочет обратить особое внимание, потому что далее речь пойдет именно о ней. Статистическая СМП перевела это предложение как:

До сих пор мы описали лифт с точки зрения пользователя, ситуация более интересная, если смотреть на лифте.

Вариант трансфертной системы и вариант переводчика не сильно стилистически отличаются, хотя обе СМП сильно исказили текст, следующий за подчеркиванием

До сих пор мы описали лифт с точки зрения пользователя; ситуация более интересна как просматривающийся лифтом.

До сих пор работа лифта описывалась с точки зрения пользователя, но ситуация станет более интересной, если рассмотреть ее с точки зрения лифта.

В тексте встречается количественная экспрессивность

В конце первого отрывка:

... most frequently associated with Euclid's algorithm,

Статистическая СМП:

... чаще всего связаны с алгоритмом Евклида ...

Трансфертная СМП:

... наиболее часто связывался с алгоритмом Евклида ...

Переводчик:

... чаще всего ассоциировалось с алгоритмом Евклида ...

Интересно заметить, что различные СМП перевели фразы по-разному.

Варианты, сделанные переводчиком и машиной, являются верными и те и другие отражают экспрессивность, но различными средствами. Отдельное внимание стоит обратить на тот факт, что варрант статистической СМП совпал с вариантом переводчика. Это говорит о том, что в русском техническом тексте используется именно этот вариант перевода. Трансфертная СМП действовала в данном случае по заложенным в нее правилам. Она выдала, тоже верный вариант, но он не является устойчивым и в процессе беглого прочтения может быть воспринят неверно.

Сходная ситуация наблюдается и в примере ниже. Вариант трансфертной СМП больше отличается от вариант переводчика, чем вариант статистической. Все три варианта перевода верны.

В конце второго отрывка:

… algorithm below, which is much more precise …

Статистическая СМП:

… алгоритм, который является гораздо более точным ….

Трансфертная СМП:

… в алгоритме ниже, который намного более точен …

Переводчик:

… в алгоритме, который выглядит гораздо более строго …

В первом отрывке встречается большое количество точных дат, которые так же являются показателем научности. В научном тексте, обычно, вся числовая информация передается цифрами, и даты не являются исключением, потому и для машин и для переводчиков «перевод» подобных слов выполняется крайне просто.

Иначе дело обстоит с географическими названиями и именами собственными. В рассматриваемом тексте правильное название городов и других объектов не критичны, но они показывают кругозор автора и его осведомленность. При переводе таких слов надо учитывать именование таких объектов принятое в русской литературе.

В седьмом предложении первого отрывка

The Aral Sea in Central Asia was once known as Lake Khwarizm …

Статистическая СМП:

Аральское море в Центральной Азии когда-то называлось озером Хорезм …

Трансфертная СМП:

Аральское море в Средней Азии было когда-то известно как Озеро Хваризм, …

Переводчик:

Аральское море в Центральной Азии было когда-то называли озеро Хорезм …

Здесь можно увидеть сразу два географических объекта регион Средней Азии и озеро Хорезм.

Именование первого термина имеет различную географическую и политическую трактовку. Анализируя перевод сделанный человеком, приходится учитывать текущие веяния и, возможно, оказываемое на переводчика давление. В случае СМП дело обстоит не намного проще, ибо ряд фраз мог быть жестко прописан в алгоритме перевода. Аналогичная ситуация касается не только географических объектов, но так же может проявиться при переводе любых названий и именований, особенно если объекты реального мира были названы в честь какого-либо ученого или общественного деятеля.

Еще более интересная ситуация складывается, если в момент написания оригинала и в текущей момент объекты назывались по-разному. В данном случае такая ситуация тоже имеет место быть. Мы считаем, что переводить термин Central Asia в этом предложении следует именно как Средняя Азия. Именно так назывался этот регион, когда Д. Кнут писал свой труд. Однако, в текущий момент регион называется Центральной Азии. Это название было закреплено за регионом, во время работы переводчика. Этим объясняется его вариант перевода.

В случае перевода статистической СМП, то вероятно, что название было переведено как выражение общей лексики, без осознания того, что это имя собственное. Но точно утверждать нельзя. В трансфертную СМП перевод словосочетания был заложен жестко.

Для уменьшения разночтений переводов научно-технической литературы, нам кажется наиболее приемлемым обращаться к оригиналу и уже самостоятельно делать выводы на основе экстралингвистических знаний.

Рассмотрим второй географический объект, который встретился в этом предложении. Правильное русское название Lake Khwarizm _ озеро Хорезм. Однако, трансфертная СМП в данном случае использовала транслитерацию. В данном случае - недопустимо, потому что это дает неверные представления и если указанного слово не оказалось в базе данных СМП, то его лучше оставить без перевода и привести оригинальное название из авторского текста. Такой подход был использован в этом же предложении.

В тексте:

... Amu River basin just south of that sea.

Статистическая СМП:

... в бассейне реки Амударьи к югу от этого моря.

Трансфертная СМП:

... в бассейне реки Amu только к югу от того моря.

Переводчик:

... в бассейне реки Амударьи южнее этого моря.

Далее в тексте первого отрывка можно найти (третье предложение):

... did not appear in Webster's New World Dictionary ...

Статистическая СМП:

... не появится в Новом Свете Словарь Вебстера ...

Трансфертная СМП:

... не появлялось в Новом Мировом Словаре Вебстера...

Вариант переводчика:

... не было в издании словаря Webster's New World Dictionary …

На наш взгляд, более верным является второй вариант перевода. Перевод был явно калькирован, но он не выглядит бессмысленно как в случае статистической СМП. Вариант, который предложил переводчик тоже верен, однако много слов на иностранном языке вызывает неприятное впечатление. Важно отметить, что официального русскоязычного перевода названия словаря до сих пор нет.

3.3 Синтаксические особенности

Стоит сразу сказать, что СМП рассматриваемых типов не могут кардинальным образом влиять на синтаксические особенности текста. Они оставляют структуру сверхфразовых единств и предложений такой, какая она была в оригинальном тексте. Этот факт был нами проверен на исследуемых отрывках.

В некоторых случаях статистическая СМП, в текущей реализации, может менять порядок слов. Но эти изменения маловероятны, и будут происходить только внутри пятерок слов. Нами подобное поведение установлено не было, но это не говорит, о том, что оно не может быть обнаружено на других текстах или при другой исходной базе СМП.

Сохранение оригинальной синтаксической структуры является плюсом систем перевода. Но такой подход не всегда возможен. В научных текстах очень часто встречаются распространенные сложные предложения. Если разбивать такие предложения, то текст будет легче для восприятия. Переводчик-человек может учесть этот факт и упростить авторский текст.

При этом будет потерян авторский стиль. Подобную ситуацию можно наблюдать в пятом и девятнадцатом предложении первого отрывка, во первой части двадцать пятого предложения второго отрывка.

СМП не обладает информацией о мысли, которую хотел донести автор. Она оперирует только лингвистическими знаниями и никакой разбивки предложений не производит.

Возможна и обратная ситуация, когда мысль автора выражена не одним, а несколькими предложениями. В этом случае, переводчик имеет право соединить две части высказывания, чтобы нагляднее донести мысль автора. СМП переведет авторский текст так, как он есть, без каких либо изменений структуры. Подобная ситуация прослеживается в последнем предложении третьего отрывка.

В англоязычной научной прозе для сложносочиненных предложений часто используют знак препинания «точка с запятой». В отечественной литературе знак используется только для маркированных списков.

При анализе оригинального текста на английском языке (особенно математического), заранее не известно, какую функцию несет «точка с запятой». Потому в этом случае, СМП не меняет структуры. Но человек, следуя отечественной традиции, может поменять знаки препинания.

Подобную ситуацию можно наблюдать в третьем и восьмом предложениях первого отрывка, в третьем, шестом, восьмом предложении и в первой части двадцать пятого предложения второго отрывка, в седьмом предложении третьего отрывка.

Рассматриваемый текст имеет четкую структуру. Первый отрывок делится на шесть абзацев и без учета алгоритма содержит двенадцать предложений. Второй отрывок делится на семь абзацев и содержит двадцать восемь предложений. Третий отрывок содержит четыре абзаца и содержит тринадцать предложений.

В каждом абзаце выдвигается определенное предположение, которое в нем же и доказывается. Например, в начале второго отрывка

By contrast, a "continuous simulation" would be simulation of activities that are under continuous changes, such as traffic moving on a highway, spaceships traveling to other planets, etc.

Ниже до начала следующего абзаца рассказывается о непрерывном моделировании и его отличиях от дискретного.

В отрывке можно предложения с прямым порядком слов, которые можно считать определениями.

... algorithm is basic to all of computer programming...

... that [common divisor] is, the largest positive integer that

evenly divides both m and n.

... n is the answer ...

В научно-техническом тексте достаточно часто встречаются и обычные «настоящие» определения. В рассмотренных отрывках виде они в явном виде не встретились. Малое количество определений в отрывках еще раз подчеркивает, что реальные научные тексты обладают стилистической неоднородностью. Часто автору проще донести свою мысль косвенно, неприбегая к именованию. Последнее представляет значительную сложность для СМП, так как тут не всегда можно обойтись эквивалентными трансформациями.

Четвертое предложение второго отрывка:

In a discrete simulation, we proceed by doing whatever is to be done at a certain instant of simulated time …

Переводчик передал фразу как неявное определение:

При этом процесс моделирования заключается в выполнении определенных действий, предусмотренных для данного момента …

Что может быть передано в явном виде как

Процесс моделирования - суть выполнение определенных действий, предусмотренных для данного момента …

Однако СМП передали это предложение с сильным искажением:

Статистическая СМП:

В дискретного моделирования, мы проведем делать то, что должно быть сделано в определенный момент времени моделирования …

Трансфертная СМП:

На дискретном моделировании мы продолжаем, делая независимо от того, что должно быть сделано в определенный момент моделируемого времени …

Машины перевели максимально близко к тексту автора, однако основная идея высказывания была потеряна. Для научного текста - это серьезная проблема. На данном этапе развития технологий не представляется возможным автоматизировано, в общем случае, выделять дефидент и дефиницию для неявных определений.

Существует несколько вариантов решения этой проблемы:

· предобработка исходного текста, на предмет разрешения подобных смысловых групп, и их преобразования в явные;

· чтение машинного перевода текста параллельно с оригиналом;

Однако, ни один из способов не может быть удовлетворителен, так как потребует дополнительных затрат времени и дополнительных знаний.

Методы автоматического построения синонимичных конструкций на данный момент так же требуют доработки. При их применении опять же потребуется проверка результата. И мы придем опять к той же проблеме. Остается надеяться, что проблема разбора неявных определений исчезнет в недалеком будущем.

Следующий пример тоже можно считать определением.

Второе предложение второго отрывка:

"Discrete simulation" means the simulation of a system …

Обе СМП и переводчик

«Дискретное моделирование» означает моделирование системы …

Совпадение всех трех вариантов перевода объясняется логичностью и простотой фразы.

Большая часть предложений имеет прямой порядок слов. В тексте преобладают сложноподчиненные предложения. На шестьдесят одно предложение всех трех отрывков (без учета алгоритма Евклида) было обнаружено двадцать девять сложноподчиненных предложений, что составляет примерно сорок семь процентов.

Большая часть придаточных предложений в рассматриваемых отрывках оказалась индивидуализирующими определительными. Вторыми по частоте оказались придаточные условия. Благодаря своей четкой регулярной структуре такие предложения были корректно переведены обеими СМП.

Сложноподчиненных предложений не абсолютное большинство среди всех рассмотренных предложений, но важно учитывать, что предложения содержат себе более чем одно придаточное. Более того, эти придаточные относятся к разным типам. При переводе таких сложных предложений с помощью СМП лучше производить их предварительную обработку. СМП не всегда могут выявить к кому члену (основного или придаточного предложения) относится то или иное придаточное. Из-за этого многие сложные предложения превратились в набор слов.

Например, к таким предложениям относится седьмое предложение третьего отрывка. Оно содержит семь придаточных: уступки, причины условия и придаточное предложение сказуемое.

Для удобства восприятия предложение каждая основа записана на отдельной строке. Конец каждой распространенной основы обозначим символом конкатенации строк «¦».

We must admit that, ¦

as the number n of nodes created

by a linking automaton approaches infinity, ¦

we don't know how to build such a device physically, ¦

since we want ¦

the machine operations to take

the same amount of time regardless of the size of n; ¦

if linking is represented by using addresses as in a computer memory, ¦

it is necessary to put a bound on the number of nodes, ¦

since the link fields have a fixed size.

Статистическая СМП c таким предложением справилась плохо. Понять смысл высказывания без оригинала текста невозможно. Поведение системы перевода объясняется ее устройством, а именно тем, что вычисляются частоты использования именно для пятерок слов. Для верного перевода данного предложения уместнее было бы анализировать набор слов, в который бы всегда попадали, по крайней мере, две основы.

Статистическая СМП:

Мы должны признать, что, ¦

как число n узлов,

созданных по образцы бесконечности автомата подходы, ¦

мы не знаем, как построить такие устройства физически, ¦

так как мы хотим ¦

машинных операций принять

столько же времени, независимо от размера n, ¦

если образцы представлены

с помощью адресов, как в памяти компьютера, ¦

необходимо поставить оценку числа узлов, ¦

так как ссылка поля имеют фиксированный размер.

Кроме того, ошибки связаны с неправильным разрешением омонимии. В результате глаголы были восприняты как существительные, что разрушило структуру предложений. Вариант трансфертной СМП оказался более читаемым. Трансфертная СМП:

Мы должны признать, ¦

что, поскольку номер n узлов, создаваемых

соединяющимся автоматом, приближается к бесконечности, ¦

мы не знаем,

как создать такое устройство физически, ¦

так как мы хотим, ¦

чтобы машинные операции заняли

то же самое количество времени независимо от размера n; ¦

если соединение представляется

при использовании адресов как в памяти компьютера, ¦

необходимо поместить привязанный число узлов, ¦

так как у полей ссылки есть фиксированный размер.

Структура предложения изменена не была.

Трансфертная СМП производит подробный синтаксический анализ. Все основы были выделены, ряд оборотов (that as the number n) были верно переведены на русский язык. Из примера можно заключить, что трансфертная машина может обрабатывать предложения любой сложности, максимально сохраняя стилистику авторского текста.

Как и было указано выше в данном случае машина не стала разбивать предложение на две части по символу «;», хотя в данном случае это было бы вполне оправдано. Переводчик поступил иначе.

Более того, он избавился от второй основы, сделав ее обстоятельством условия. На наш взгляд первая часть варианта переводчика воспринимается труднее, чем та же часть, переведенная трансфертной СМП. Обстоятельства условия более характерны для русскоязычной научной прозы, но встречаются крайне редко. Вторая часть текста, которую перевел человек воспринимается проще, чем вариант трансфертной СМП. Вариант переводчика:

Следует признать, ¦

что при стремлении количества созданных

связывающим автоматом узлов n к бесконечности

неизвестно,

как построить такое устройство физически, ¦

поскольку желательно, ¦

чтобы операции машины выполнялись

за одно и то же время независимо от размера n. ¦

Если связывание представлено

с использованием адресов в машинной памяти, ¦

необходимо определить границу для количества узлов, ¦

поскольку поля связей имеют фиксированный размер.

Немногочисленные простые предложения развернуты за счет однородных членов. В первом отрывке _ только одно короткое простое предложение (не учитывая алгоритм Евклида).

Of course, Euclid did not present his algorithm in just this manner.

Мысль высказывания, крайне четкая. Она призвана уберечь читателей от ложных выводов.

Во втором отрывке простые предложения содержат перечисления. Это связано с тем, что большую часть отрывка занимает описание модели.

The Mathematics building has five floors: sub-basement, basement, first, second, and third.

On each floor there are two call buttons, one for UP and one for DOWN.

Corresponding to these buttons, there are ten variables CALLUP [j] and CALLDOWN [j], 0 <= j <= 4.

The elevator is in one of three states: GOINGUP, GOINGDOWN, or NEUTRAL.

Подобные предложения претерпевают меньше всего трансформаций при переводе. Если все части предложения будут переведены верно и не возникнет проблем с омонимией, то СМП вернет правильный перевод предложений, что мы можем наблюдать для приведенных примеров.

В конце третьего отрывка встречаются еще более короткие простые предложения.

Relevance is more important than realism.

But of course much still remains to be done.

Важно заметить, что по эти предложения не выражают отдельную мысль и являются. Они дополняют мысли предыдущих фраз.

Оба эти предложения были переведены СМП без изменения структуры.

Во втором случае переводчик решил объединить предложение с предыдущей фразой. Это сделало более очевидным развитие мысли автора, но с другой стороны - несколько исказило текст.

Для передачи логических связей в тексте используется большое число союзов, в том числе и двойных.

Например:

Webster's New World Dictionary as late as 1957 ...

... was once known as Lake Khwarizm ...

... as explained by the Oxford English Dictionary ...

... as invented by Leibniz.

... it is referred to as Algorithm 1.1E.

If r = 0, the algorithm teminates

Сами по себе союзы были обработаны СМП без ошибок, но вот конструкции с этими союзами в переводном тексте получились достаточно странными.

Третье предложение первого отрывка:

The word did not appear in Webster's New World Dictionary as late as 1957 ...

Статистическая СМП:

Слово не появится в Новом Свете Словарь Вебстера как в конце 1957 года ...

(Тут важно отметить, что саму по себе фразу «as late as 1957», трансфертная СМП переводит как «еще в 1957 году», что на наш взгляд является наиболее подходящим вариантом.)

Трансфертная СМП:

Слово не появлялось в Новом Мировом Словаре Вебстера уже в 1957 ...

Вариант переводчика СМП:

Этого слова еще не было в издании словаря Webster's New World Dictionary, вышедшем в 1957 году.

Переводчик решил обойти фразу стороной, на что имел полное право. Получается, что ни один из вариантов перевода не отражает полностью смысл конструкции.

Специфичными для технических текстов, являются препозитивные определительные группы.

Например:

multitape Turing machine

greatest common divisor,

the largest positive integer.

СМП подобные конструкции переводятся верно. Однако стоит напомнить случай описанный выше a discrete simulation program.

Только человек корректно перевел термин _ программа дискретного моделирования. В то время как СМП перевели фразу:

отдельная программа моделирования

дискретная программа моделирования

С точки зрения препозиционных конструкций СМП восприняли фразу верно. Модель разбора в данном случае можно представить в виде

(discrete (simulation program))

Такая модель имеет смысл только для трансфертной СМП. Для статистической явление можно объяснить тем, что словосочетание «программа дискретного моделирования» является редким, а то что discrete simulation - является термином учтено не было.

Верную интерпретацию можно изобразить как:

((discrete simulation) program)

Препозитивные определительные группы более характерны для тестов, в которых идет речь о приборах, оборудовании или методах проектирования.

Отдельно стоит сказать про синтаксическую структуру описания алгоритма Эвклида. Предложения краткие и безличные, глаголы стоят в повелительном наклонении. Шаги алгоритма показаны в виде элементов списка, что помогает «пошаговому» восприятию.

Такие синтаксические особенности не требуют трансформационных преобразований текста. С задачей перевода сходным образом справились как человек так и машина.

3.4 Морфологические особенности

Широко распространены пассивные конструкции

Например:

... the Khwarizm region is located ...

... the appropriate section number is attached ...

... algorithm is called Algorithm E ...

... the algorithm are identi?ed ...

... The chapters are divided ...

В тексте используются именные конструкции:

At the time this chapter was first written

И человек и СМП учли эту особенность

Статистическая СМП:

В то время эта глава впервые была написана

Трансфертная СМП:

В то время, когда эта глава была сначала записана

Переводчик:

В то время, когда автор приступил к работе над настоящей главой

Несмотря на то, что машины перевели фразу с ошибками, можно сказать, что цель выражения была достигнута. - Не столь важна точная дата события, как то что оно произошло одновременно с другим событием.

Широко распространены так же безличные и неопределенно-личные конструкции.

В первом отрывке:

... at first glance it may look as though someone intended to write ...

... while in later sections it is referred to as …

Статистическая СМП:

... на первый взгляд это может выглядеть, как будто кто-то собирался ...

... а в последующих разделах это называется …

Трансфертная СМП:

... на первый взгляд может выглядеть, как если бы кто-то намеревался ...

... в то время как в более поздних разделах это упоминается как …

Переводчик-человек:

... На первый взгляд может показаться, будто кто-то собирался ...

... ссылаться на него в последующих разделах мы будем как …

При машинном переводе эти выражения были переведены шаблонно. С одной стороны это сохранило их безличную форму, которая также характерна для русского языка. С другой стороны это отрицательно повлияло на согласование. Человек-переводчик в данном случае предпочел изменить порядок слов. Это немного изменило стилистическую направленность текста, но упростило его восприятие.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.