Kanta-Häme

Konekääntäminen ei ole enää pelkkää höpöhöpöä

Vuonna 2005 konekääntämisen tutkija Maarit Koponen naureskeli Googlen upouudelle käännösohjelmalle.

– Olihan Google Translatoriin hauska syöttää laulun sanoja ja hihittää höpöhöpö-käännökselle. Tuntui mahdottomalta, että joku voisi käyttää ohjelmaa vakavissaan.

Nyt, eli 11 vuotta myöhemmin, tilanne on eri. Koponen käytti Googlen käännösohjelmaa vastikään belgialaisessa verkkokaupassa, jotta sai selkoa flaaminkielisistä toimitusehdoista.

Koponen luennoi konekäännösten jälkieditoinnista suomalais-ruotsalaisessa kääntäjäseminaarissa, joka järjestettiin Hämeenlinnassa torstaina ja perjantaina.

Konekäännöksellä tarkoitetaan nimensä mukaisesti tekstiä, jonka on kääntänyt kone. Arkipuheessa Googlen käännösohjelma on lähestulkoon synonyymi konekääntämiselle, mutta se ei suinkaan ole ensimmäinen tai ainoa konekäännösohjelma.

Koposen mukaan konekäännösten tarkoitus on nopeuttaa kääntämistä. Lisäksi kääntimien on tarkoitus olla avuksi rutiininomaisten tekstien kääntämisessä.

Konekäännöksiä on tähän asti tuotettu kahdella tavalla. Toisen maailmansodan jälkeen alettiin rakentaa sääntöpohjaisia konekäännöksiä.

Ihmiset koodasivat ohjelmaan lähtökielen ja kohdekielen sanastot ja esimerkiksi sanajärjestyksen säännöt.

Parinkymmenen viime vuoden aikana on yleistynyt tilastollisiin todennäköisyyksiin perustuva konekääntäminen.

Käännösohjelma etsii valtavista tekstimassoista sitä, millä todennäköisyydellä lähtökielen yksittäinen sana tai sanojen muodostama jono vastaa kohdekielen yksittäistä sanaa tai sanajonoa.

Googlen käännösohjelma käyttää käännösvastineiden etsimiseen Wikipediaa ja muuta verkkomateriaalia, joka on saatavilla useilla kielillä. Huvittavat käännösvirheet voivat johtua esimerkiksi siitä, ettei kone ymmärrä sanojen käyttöyhteyttä.

Esimerkiksi englannin kielessä on paljon sanoja, jotka voivat olla sekä verbejä että substantiiveja. Lisäksi sanalla voi olla useita merkityksiä.

Englannin sana ”play” voi tarkoittaa substantiivia ”näytelmä” tai verbejä ”soittaa”, ”pelata” tai ”näytellä”.

– Vaikka koneella olisi biljoona lausetta, joista etsiä käännösvastineita, virheitä voi silti tulla.

Esimerkiksi Euroopan komissio tuottaa käännöksensä ensin kääntimen avulla. Käännin etsii olemassa olevista EU-asiakirjoista samankaltaisia lauseita kuin mitä käännettävässä tekstissä on.

Koneen kääntämän tekstin jälkieditointiin tarvitaan ihmistä. Muuten koneen tuottamat käännöskukkaset jäävät lopulliseen tekstiin.

Koponen huomauttaa, että esimerkiksi englannista espanjaksi tehdyt konekäännökset ovat suhteellisen toimivia. Kielet kuuluvat samaan kieliryhmään, ja kummallakin kielellä on paljon digitaalista materiaalia.

Koska ruotsi kuuluu samaan indoeurooppalaiseen kieliryhmään kuin englanti, käännökset englannin ja ruotsin välillä toimivat paremmin kuin englannin ja suomen välillä.

Suomi kuuluu uralilaisiin kieliin. Indoeurooppalaisten kielet ovat käännösohjelmille kaiken kaikkiaan helpompia kuin uralilaiset.

Esimerkiksi indoeurooppalaiset prepositiot kääntyvät koneessa helpommin kuin uralilaiset sijamuodot.

Suomen ja ruotsinkaan välillä konekäännökset eivät toimi kunnolla, vaikka esimerkiksi kaikki Suomen lakitekstit ovat olemassa sekä suomeksi että ruotsiksi.

– Jos kone opetettaisiin tekemään käännöksiä lakitekstin pohjalta, voi vain kuvitella, miten hirveältä vaikka käännetty lehtiuutinen näyttäisi. HÄSA