Articles

Who Offers the Best Chinese-English Machine Translation? A Comparison of Google, Microsoft Bing, Baidu, Tencent, Sogou, and NetEase Youdao

W pracy często dzielę się artykułami w języku chińskim z kolegami mówiącymi po angielsku i artykułami w języku angielskim z kolegami mówiącymi po chińsku. Niechętnie zacząłem używać tłumaczenia maszynowego w zeszłym roku, po tym jak ilość materiałów do przetłumaczenia stała się przytłaczająca. Byłem mile zaskoczony jakością tłumaczenia maszynowego i dlatego chciałbym się dowiedzieć, która firma oferuje najlepszy produkt.

Do naszego (bardzo nienaukowego) ślepego testu użyjemy fragmentów przemówienia prezydenta Xi Jinpinga na Forum Bo’ao 2018. Wybrałem to przemówienie, ponieważ jeśli tłumaczenie maszynowe ma poczynić jakiekolwiek postępy, powinno zacząć się od najbardziej formalnych (i, śmiem twierdzić, najbardziej formalistycznych) oficjalnych przemówień. Co więcej, chiński rząd udostępnił oficjalne tłumaczenie przemówienia Xi, więc będziemy mieli punkt odniesienia, z którym będziemy mogli porównać maszyny.

Zanim ujawnię wyniki testu, powinienem zauważyć, że pierwotnie planowałem użyć przemówienia Xi z 2017 roku. Ale po podaniu go do Google Translate, otrzymałem wyniki identyczne z oficjalnym tłumaczeniem dostarczonym przez chiński rząd. Stąd Google musiało użyć oficjalnego tłumaczenia jako materiału szkoleniowego. Aby zapewnić uczciwość naszego testu, uruchomiłem przemówienie Bo’ao na różnych stronach tłumaczeniowych, zanim oficjalne tłumaczenie pojawiło się pod koniec kwietnia.

Wyniki są następujące:

  • Pierwszy poziom: Google, Microsoft Neural1, Sogou, Tencent (w nieszczególnej kolejności)
  • Second tier: NetEase Youdao, Baidu (w nieszczególnej kolejności)
  • Trzeci szczebel: Microsoft Bing

Część pierwsza wyników testu została przedstawiona poniżej. Błędy zaznaczone są na czerwono, a niezręczne sformułowania na zielono.

machine-translation-comparison

Tłumaczenie maszynowe przeszło długą drogę. Jeszcze kilka lat temu Google Translate miał problemy z wymyślaniem spójnych zdań. Teraz wychwytuje większość, jeśli nie całość głównej myśli. Jak pokazano powyżej, osoba mówiąca po angielsku nie miałaby problemów ze śledzeniem przemówienia Xi w czasie rzeczywistym, gdyby polegała tylko na Google, Microsoft Neural, Sogou lub Tencent.

Inny produkt tłumaczeniowy DeepL, który moim zdaniem przewyższył Google w tłumaczeniach hiszpańsko-angielskich, nie udostępnił jeszcze swojej usługi chińsko-angielskiej. Niewykluczone więc, że DeepL poradzi sobie jeszcze lepiej z przemówieniem Xi.

Część 2 wyników testu:

machine-translation-comparison

Podczas Bo’ao Forum, Tencent rozpoczął masową kampanię PR promującą swoje „rozwiązanie AI do tłumaczeń konferencyjnych”. Jak widać poniżej, maszyna okazała się być bardziej chwytem reklamowym. Biorąc pod uwagę przyzwoity produkt tłumaczeniowy firmy Tencent, podejrzewam, że to chińska mowa na tekst poszła źle. Gdyby dźwięk został wiernie przepisany, „rozwiązanie AI” mogłoby zapewnić zadowalające tłumaczenie na angielski.

tencent-boao

Na razie maszynom można ufać tylko w przypadku chińsko-angielskich tłumaczeń instrukcji technicznych, oficjalnych przemówień i ogłoszeń oraz poważnych artykułów informacyjnych. Beletrystyka czy potoczne rozmowy byłyby już przesadą. Tłumaczenia symultaniczne mają dodatkowy problem z transkrypcją audio – hałas panujący w pomieszczeniu i dialekt mówcy utrudniają pracę nawet najbardziej doświadczonym tłumaczom.

Poniżej znajdują się cztery rodzaje błędów powszechnie popełnianych przez maszyny podczas tłumaczenia fragmentów przemówienia Xi:

Gdy chiński jest wyjątkowo długim zdaniem

  • „坚决破除制约使市场在资源配置中起决定性作用、更好发挥政府作用的体制机制弊端” – jeśli rozłożymy to zdanie na czynniki pierwsze, głównym czasownikiem-przedmiotem jest „破除弊端”, ale niektóre maszyny uważają, że jest to „破除制约,使市场发挥作用…。机制弊端”; inne uważają, że jest to „破除那些让市场…的制约”. To zdanie jest wyzwaniem zarówno dla ludzi, jak i maszyn
  • „欢迎各国朋友来华参加” (poprzedzone dyskusją o expos) = „przyjaciele z całego świata są mile widziani do udziału w expo”, a nie „zapraszamy przyjaciół ze wszystkich krajów do udziału w Chinach”

Gdy chiński jest słowem o wielu znaczeniach (i używane jest mniej popularne znaczenie)

  • „(政策)落地” = „zmaterializować się,” zamiast „wylądować”
  • „(行业)具备开放基础” = „być w stanie się otworzyć”, zamiast „mieć otwartą podstawę”
  • „(同国际经贸规则)对接” = „integrować” lub „wyrównywać”, a nie „dokowanie” (myślę, że maszyny dostały „dokowanie” od „dokowania molekularnego”)
  • „(完善产权制度)是经济竞争力的最大激励” = „zapewnić największy impuls do konkurencyjności gospodarki,” zamiast „być największym bodźcem do poprawy konkurencyjności gospodarki”
  • „重新组建” = „zreorganizować,” zamiast „przywrócić”
  • „(这不是)一般性的会展,(而是我们主动开放市场的重大政策宣示和行动)” = „kolejna zwykła wystawa,” zamiast „wystawa ogólna”

Omisja

  • „空气清新才能吸引更多外资” = „tylko świeże powietrze przyciąga więcej zagranicznych inwestycji,” zamiast „świeże powietrze może przyciągnąć więcej zagranicznego kapitału” lub „powietrze jest świeże, aby przyciągnąć więcej zagranicznego kapitału” (co dziwne, żadna maszyna nie poradziła sobie z tym prostym zdaniem)
  1. Badacze Microsoftu opracowali ostatnio nowy system tłumaczenia, który, jak twierdzą, osiągnął „ludzki parytet” w tłumaczeniu z chińskiego na angielski testowego zestawu wiadomości. To nowe narzędzie tłumaczeniowe jest dostępne tylko w wersji chińsko-angielskiej.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *