Ви є тут

Оцінка якості машинного перекладу.

Автор: 
Бірюков Артем Валентинович
Тип роботи: 
Дис. канд. наук
Рік: 
2008
Артикул:
0408U000751
129 грн
Додати в кошик

Вміст

РОЗДІЛ 2
ОЦІНКА ЯКОСТІ ВІТЧИЗНЯНОЇ СИСТЕМИ МАШИННОГО ПЕРЕКЛАДУ „ПРАГМА 4.4”
(німецько-український НАПРЯМОК ПЕРЕКЛАДУ)
2.1. Оцінка СМП „Прагма 4.4” (німецько-український напрямок перекладу)
Ще у вересні 2004 року розробники електронного перекладача (е-перекладача)
„Прагма 3.0” зробили заяву про готовність німецько-української мовної пари.
Йшлося, проте, про бета-версію системи і розробники не наважувалися пропонувати
її для придбання з метою професійної діяльності. На сайті фірми „Трайдент-Софт”
(www.trident.com.ua) ця версія з’явилася лише на початку 2005 року, що
дозволило нам, нарешті, протестувати якість системи з цим напрямком перекладу.
Враховуючи відносно недавню появу цього продукту, ми вирішили не обтяжувати
збірку тестових речень складними конструкціями і побудувати її на основі
звичайних явищ німецької граматики та додали певну кількість речень, переклад
яких потребує використання тих чи інших перекладацьких трансформацій. Тестова
збірка становить 853 речення і перевіряє можливості системи при перекладі
займенникових прислівників, дієслів з відокремлюваними префіксами, конструкцій
„Акузатив плюс інфінітив“, модальних дієслів для суб’єктивної оцінки
висловлювання, дієприкметників та дієприслівників, сталих словосполучень,
зворотних дієслів, займенників, прийменників з різними значеннями,
інфінітивних, пасивних та герундіальних конструкцій, питальних та спонукальних
речень, керування дієслів, складних речень. Оцінка складається з трьох фаз: 1)
аналіз лінгвістичної потужності системи на основі „тест-с’юту”, укладеного для
перевірки граматичних та синтаксичних феноменів; 2) кодування словника
користувача, розширення тестової збірки для перевірки тих чи інших гіпотез,
повторний перебіг процесу перекладу та оцінка результатів з метою визначення
покращення його якості після коригування словника; 3) оцінка продуктивності
роботи системи як інструмента для створення чернетки перекладу на основі
економічних та когнітивних критеріїв.
Оскільки запропонована нами оцінка передбачає кодування словника, необхідним
було придбання ліцензованої версії програми – процедура поповнення власних
словників без ліцензії є неможливою. Процес інсталяції на персональний
комп’ютер займає 7 хвилин, проте це залежить від швидкості жорсткого диску,
встановленого на комп’ютері, яка може змінюватись при інших умовах
експерименту. Після інсталяції програму потрібно зареєструвати, що може тривати
ще певний час, якщо комп’ютер, на якому встановлена програма, не підключений до
Інтернету. Переклад тестової збірки виконаний нами 30 січня 2006 року
(додаток Г). Система тричі виходила з ладу, коли підходила до перекладу речень
551, 724, 801. Спільною ознакою цих трьох речень є наявність слова „Gutenberg“,
що дає нам змогу зробити припущення, що саме воно виводить систему з ладу,
оскільки заміна слова „Gutenberg“ на відповідний особовий займенник „er“ одразу
усуває всі проблеми, і система надалі працює коректно.
2.2. Перший перебіг процесу перекладу та його оцінка на основі тестових збірок
Під час аналізу речень (додаток Д) впадає в око низька якість автоматичного
словника. З усієї тестової збірки система не знала значення 592 слів, серед них
таких звичайних, як „Mдdchen“ (речення № 38, далі – 38), „Gott“ (31), „Leben“
(18), „Kleinigkeit“ (23), „Volk“ (67) тощо. Інколи в автоматичному словнику
бракує зміненої словоформи: наприклад, інфінітив слова „heraufbeschwцren“ є, а
його дієприслівник „heraufbeschworen“ вже відсутній: „eine gespante Atmosphдre
heraufbeschwцren“ – „викликати напружену атмосферу” (94); „der Konflikt wurde
heraufbeschworen“ – „конфлікт стало heraufbeschworen” (93). До лексичних
помилок перекладу належать також омонімічні зв’язки між словами та
сполучуваність слів. Характерною ознакою науково-технічних текстів є досить
часте вживання невизначено-особового займенника „man“. Іноді воно може бути
навіть ключовим словом, яке наявне майже в кожному реченні тексту, що,
безперечно, матиме негативні наслідки для аналізу, а відповідно і для
правильного перекладу всього тексту в разі, якщо система не переклала це слово.
На жаль, саме так було і в нашому випадку. Автоматичний словник системи не
містить цього слова, що є досить серйозним недоліком, з огляду на значущість
цієї лексеми в науково-технічному перекладі: „Наш шеф є ein дуже пристрасна
людина і опинився легкий в жарі коли man цьому заперечує” (32),
“Korruptionsverdдchtige службовець знищений всі Зазнали поразку, з тим цьому
man нічого не може підтвердити” (135).
Одним з найвагоміших доводів песимістів у питаннях щодо перспектив машинного
перекладу завжди була і залишається теза про відсутність у машини
екстралінгвістичних знань, неможливість її навчання та абсолютна безпорадність
у питаннях визначення контексту. І справді, людина-перекладач, маючи справу з
силою силенною полісемантичних слів, дає собі раду в більшості випадків саме
завдяки контекстуальному аналізу. Навіть підключення до системи відповідних
тематичних словників не вирішує повністю проблеми, оскільки багатозначні слова
тексту будуть перекладатися після цього виключно термінами, тоді як цілком
зрозуміло, що навіть вузькоспеціальний галузевий текст міститиме також
багатозначні слова зі звичайними, а не термінологічними значеннями. Усе це
справді так, і ця проблема залишається актуальною для машинного перекладу і ще
чекає на своє розв’язання. Інша справа з перекладом багатозначних службових
слів, які мають певні функції, значна частина з яких може бути алгоритмізована.
Наприклад, деякі прийменники перекладаються в певних конструкціях завжди