Articles

Wie biedt de beste Chinees-Engelse automatische vertaling? A Comparison of Google, Microsoft Bing, Baidu, Tencent, Sogou, and NetEase Youdao

Op mijn werk deel ik regelmatig Chinees-talige artikelen met Engelstalige collega’s en Engelstalige artikelen met Chineestalige collega’s. Vorig jaar ben ik met tegenzin begonnen met machinevertaling, nadat de hoeveelheid te vertalen materiaal overweldigend werd. Ik was aangenaam verrast door de kwaliteit van de machinevertaling en wil daarom graag weten welk bedrijf het beste product biedt.

Voor onze (zeer onwetenschappelijke) blinde test zullen we fragmenten gebruiken van de toespraak van president Xi Jinping op het 2018 Bo’ao Forum. Ik heb deze toespraak gekozen omdat, als machinevertaling enige vooruitgang wil boeken, het zou beginnen bij de meest formele (en, durf ik te zeggen, meest formulaïsche) officiële toespraken. Bovendien heeft de Chinese regering een officiële vertaling van Xi’s toespraak beschikbaar gesteld, zodat we een benchmark hebben om de machines mee te vergelijken.

Voordat ik de testresultaten onthul, moet ik opmerken dat ik oorspronkelijk van plan was een toespraak van Xi uit 2017 te gebruiken. Maar nadat ik die aan Google Translate had gegeven, kreeg ik resultaten die identiek zijn aan de officiële vertaling van de Chinese regering. Google moet dus de officiële vertaling als trainingsmateriaal hebben gebruikt. Om de eerlijkheid van onze test te garanderen, heb ik de Bo’ao-toespraak op de verschillende vertaalsites uitgevoerd voordat de officiële vertaling eind april uitkwam.

De resultaten zijn als volgt:

  • Eerste tier: Google, Microsoft Neural1, Sogou, Tencent (in willekeurige volgorde)
  • Tweede tier: NetEase Youdao, Baidu (in willekeurige volgorde)
  • Derde niveau: Microsoft Bing

Deel 1 van de testresultaten is hieronder weergegeven. Fouten zijn gemarkeerd in rood en lastige formuleringen in groen.

machine-vertaal-vergelijking

Machinevertaling heeft een lange weg afgelegd. Nog maar een paar jaar geleden had Google Translate moeite om coherente zinnen te bedenken. Nu kan het de meeste, zo niet alle, hoofdgedachten overnemen. Zoals hierboven getoond, zou een Engelse spreker geen moeite hebben om Xi’s toespraak in real time te volgen als hij alleen op Google, Microsoft Neural, Sogou, of Tencent vertrouwde.

Een ander vertaalproduct DeepL, dat naar mijn mening Google heeft overtroffen in Spaans-Engelse vertalingen, heeft zijn Chinees-Engelse dienst nog niet beschikbaar gemaakt. Het is dus mogelijk dat DeepL nog beter werk levert met de toespraak van Xi.

Deel 2 van de testresultaten:

machine-vertaal-vergelijking

Tijdens het Bo’ao Forum lanceerde Tencent een massale PR-campagne om zijn “AI-oplossing voor conferentietolken” te promoten. Zoals hieronder te zien is, bleek de machine meer een publiciteitsstunt te zijn. Gezien Tencent’s degelijke vertaalproduct, vermoed ik dat het de Chinese spraak-naar-tekst was die de mist in ging.

tencent-boao

Voorlopig kunnen machines alleen worden vertrouwd voor Chinees-Engelse vertalingen van technische handleidingen, officiële toespraken en aankondigingen, en serieuze nieuwsartikelen. Fictie of alledaagse conversaties zouden te moeilijk zijn. De gelijktijdige vertolking heeft het toegevoegde probleem van audiotranscriptie – het lawaai van de ruimte en het dialect van de spreker maken dingen voor zelfs de meest ervaren menselijke tolken moeilijk.

Hieronder staan vier soorten fouten die machines vaak maken bij het vertalen van fragmenten van de Xi-speech:

Wanneer het Chinees een extreem lange zin is

  • “坚决破除制约使市场在资源配置中起决定性作用、更好发挥政府作用的体制机制弊端” – als we deze zin uitsplitsen, is het hoofdwerkwoord-voorwerp “破除弊端”, maar sommige machines denken dat het “破除制约,使市场发挥作用.” is; anderen denken dat het “破除那些让市场…的制约机制弊端.” is. Deze zin is een uitdaging voor zowel mensen als machines
  • “欢迎各国朋友来华参加” (voorafgegaan door een discussie over expo) = “vrienden uit de hele wereld zijn welkom om deel te nemen aan de expo,” in plaats van “vrienden uit alle landen welkom om deel te nemen in China”

Wanneer het Chinees een woord is met meerdere betekenissen (en de minder gebruikelijke betekenis wordt gebruikt)

  • “(政策)落地” = “materialiseren,” in plaats van “te landen”
  • “(行业)具备开放基础” = “in een positie te zijn om zich te openen” in plaats van “een open basis hebben”
  • “(同国际↩经贸规则)对接” = “integreren” of “afstemmen”, in plaats van “koppelen” (ik denk dat de machines “koppelen” hebben afgeleid van “moleculair koppelen”)
  • “(完善产权制度)是经济竞争力的最大激励” = “de grootste stimulans geven aan het concurrentievermogen van de economie,” in plaats van “de grootste stimulans te zijn voor het concurrentievermogen van de economie”
  • “重新组建” = “te reorganiseren,” in plaats van “opnieuw op te richten”
  • “(这不是)一般性的会展,(而是我们主动开放市场的重大政策宣示和行动)” = “nog een gewone tentoonstelling,” in plaats van “een algemene tentoonstelling”

Omissie

  • “空气清新才能吸引更多外资” = “alleen frisse lucht trekt meer buitenlandse investeringen aan,” in plaats van “frisse lucht kan meer buitenlands kapitaal aantrekken” of “de lucht is fris om meer buitenlands kapitaal aan te trekken” (Vreemd genoeg heeft geen enkele machine deze eenvoudige zin goed gekregen)
  1. Microsoft-onderzoekers hebben onlangs dit nieuwe vertaalsysteem ontwikkeld dat volgens hen “menselijke gelijkwaardigheid” heeft bereikt bij het vertalen van Chinees naar Engels van een testset nieuwsberichten. Deze nieuwe vertaaltool is alleen beschikbaar in het Chinees-Engels.

Laat een antwoord achter

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *