Betrouwbaarheid AI-vertalingen onderzocht

Hoe betrouwbaar zijn vertalingen door vertaalmachines nu eigenlijk? Een Chinese onderzoeker zocht het uit.

Dat kunstmatige intelligentie steeds vaker wordt ingezet voor vertalingen is inmiddels geen nieuws meer. Veelgebruikte vertaalmachines zoals Google Translate en DeepL passen op grote schaal AI toe. En chatbots als ChatGPT pure AI-toepassingen. Maar hoe goed en betrouwbaar zijn AI-vertalingen? Een Chinese onderzoeker probeerde het uit te zoeken.

Lan Wang werkt bij de Shandong Jianzhu-universiteit in Jinan. Voor de 8th International Conference on Social Sciences and Economic Development schreef Wang vorig jaar de paper The Impacts and Challenges of Artificial Intelligence Translation Tool on Translation Professionals (link).

Wang liet een panel diverse vertalingen beoordelen. Het ging om drie soorten teksten: zakelijke teksten, nieuwsberichten en literair werk. Voor elke soort tekst waren drie passages geselecteerd. Die waren vertaald door menselijke vertalers en door drie vertaalmachines: de vertaaldienst van zoekmachine Youdao, de gerenommeerde dienst DeepL en de vertaaldienst van de Chinese zoekgigant Baidu. De panelleden kregen niet te horen wie de vertaler was. Ze moesten de vertalingen beoordelen op criteria als accuratesse, stijl, culturele gevoeligheden en logica.

Uitkomsten

Bij de zakelijke teksten deden de vertaalmachines het nog redelijk, volgens het panel, maar overall waren de menselijke vertalingen toch beter. DeepL scoorde bij één passage aanzienlijk beter dan de menselijke vertalers. Bij nieuwsberichten waren de menselijke vertalingen superieur. Een vertaalmachine haalde slechts een keer de top-3. Wang wijt dat aan onnauwkeurigheden en aan de minder heldere formuleringen van de kunstmatige vertalingen. Eenzelfde resultaat werd behaald bij de literaire teksten. Menselijke vertalers blijken de bedoeling en de emoties van de oorspronkelijke auteur beter over te brengen.

Kritiekpunten

Ons viel ten eerste de matige kwaliteit op van het Engels in de paper, maar belangrijker zijn de inhoudelijke onduidelijkheden. Er wordt niet vermeld hoeveel personen deelnamen aan de test. Uit de paper maken we op dat de beoordeelde teksten vertalingen Engels zijn, maar nergens staat of het vertalingen Chinees-Engels zijn of Engels-Chinees. Tot slot worden de categorieën waarin de menselijke vertalingen zijn onderverdeeld niet toegelicht: wat houden standard, low-level en high-level artificial translation in? We hebben auteur Lan Wang per e-mail gevraagd om een toelichting, maar helaas geen antwoord gekregen.

Betrouwbare AI-vertalingen

Wist je overigens dat je voor betrouwbare AI-vertalingen bij ons wél aan het juiste adres bent? Onze gecertificeerde werkwijze filtert fouten eruit. Probeer ons eens uit!