Lettre 45. szám, 2002. Nyár

Tartalomjegyzék [Lettre 45. szám, 2002. Nyár] Kezdőlap

Laurence Danlos
Informatikai nyelvészet - automatikus fordítás

Stanley Kubrick híres filmjében, a 2001. Űrodüsszeiá-ban a HAL nevű számítógép megérti az embert, az ő nyelvén párbeszédet folytat vele, végrehajtja a parancsait, átérzi az érzéseit. 1968-ban Marvin Minsky, a film tudományos tanácsadója, a mesterséges intelligencia szakértője úgy gondolta, 2001-ben valóban létre lehet majd hozni egy HAL-hoz hasonló számítógépet. Ma vajon közel állunk-e hozzá, hogy megalkossuk HAL-t? Előadásomban megpróbálom elmagyarázni, miért vagyunk még messze ettől.
Egy ilyen állítás persze nyomban bírálhatónak tűnik, hiszen manapság az informatikai lingvisztika (általánosabban: a mesterséges intelligencia) alkalmazásai egyre gyorsuló ütemben árasztják el hétköznapjainkat. Számos autó beszél, minden szövegszerkesztőben van helyesírásellenőrző, az automatikus diktáló- és fordítórendszerek forgalma virágzik a piacon. Rendszeresen jelentenek be olyan fénymásolókat és telefonokat, amelyek képesek fordításra, a weben keresőmotorok kínálnak a talált szövegekhez kivonatolást vagy fordítást, virtuális személyi asszisztenst használhatunk, aki intézi a találkozásainkat, és így tovább. Egyszóval ma már nagyon is léteznek olyan alkalmazások, amilyeneket még csak elképzelni sem tudtunk négy vagy öt évvel ezelőtt. Akkor hát miért vagyunk oly messze HAL-tól? A kérdésre adott válasz egy kulcsfogalmon nyugszik: a megértésen. HAL létrehozásához az kellene, hogy a számítógép megértse a nyelvet, míg azok az alkalmazások, amelyeket ma kínálnak, nem tételezik fel a megértést, vagy ha igen, csak nagyon felületesen. Itt van a különbség: számítógépen ma még nem tudjuk szimulálni a nyelvértést.
Előadásomat két részre osztottam. Az elsőben bemutatom azokat az alkalmazásokat, amelyeknél a számítógép anélkül kezeli az írott vagy a beszélt nyelvet, hogy bármit is megértene belőle (vagy ha igen, éppen csak). Közben azt is bemutatom, mit jelentene a megértés egy számítógép esetében, és megvitatjuk a humanoid robotokat is. A második részben egy sajátos alkalmazásról szeretnék beszélni, az automatikus fordításról, ahol a számítógépnek muszáj volna értenie a fordítandó szöveget - megértés nélkül lehetetlen fordítani. Az alkalmazás ürügyén megtárgyalunk majd néhány roppant nagy nehézséget, amellyel az írott nyelv automatikus kezelésénél találkozunk. Ezek a nehézségek magyarázzák a gyakori tévedéseket, amelyeket az automatikusan fordított szövegeknél megfigyelhetünk, és jelzik azt az utat is, amelyet meg kell tennünk ahhoz, hogy az emberi megértést számítógépen szimuláljuk.

***Értés nélkül vagy felszínes értéssel működő alkalmazások

Két alkalmazást mutatunk be, az egyiket 1964-ben, a másikat napjainkban alkották. Így a már megtett és a még megteendő utat is érzékeltethetjük.
1964-ben J. Weizembaum és MIT-s kollégái létrehoztak egy szoftvert, az Elizát, amely nemcsak akkor volt lenyűgöző; még ma is az. A szoftver olyan írott párbeszédet szimulál, amely egy pszichoterapeuta és a páciense közt zajlik le. A pszichoterapeuta szerepét a számítógép játssza. Álljon itt példaként az egyik párbeszéd: a páciens válaszai, amelyeket emberi segédlettel rögzített a számítógép, dőlt betűvel szerepelnek, a pszichoterapeuta válaszai vastag betűvel.
- Jó napot, én vagyok az ön pszichoterapeutája. Beszéljen, kérem, a problémáiról.
- Nagyon aggódom.
- Miért mondja, hogy aggódik?
- A feleségem miatt.
- Beszéljen a családjáról.
- Imádom a gyerekeimet.
- Szeretném, ha beszélne a gyerekeihez fűződő kapcsolatáról.
- Engem senki se szeret.
- Zavarja, hogy önt senki sem szereti?
- Igen, magányosnak érzem magam.
- Ebben talán szerepe van az ön szexuális életének is. Folytassa, ne féljen.
- ...
Alig hihető! A párbeszéd elképesztő! Pedig a pszichoterapeuta-számítógép semmit sem ért, abszolúte semmit a páciens válaszaiból. Hogyan lehetséges ez? A pattern-matching technikával, amelyet most röviden elmagyarázok az iménti párbeszédet alapul véve.
"Jó napot, én vagyok az ön pszichoterapeutája. Beszéljen, kérem, a problémáiról." Ez az egyik előre felvett szöveg, amellyel a pszichoterapeuta-számítógép elkezdi a beszélgetést. A szöveget véletlenszerűen választották ki, számos hasonló tartalmú, előre felvett szöveg közül.
"Nagyon aggódom." Ez a páciens szabadon adott válasza, amely egy R1 változóban van elraktározva.
"Miért mondja, hogy aggódik?" A pszichoterapeuta kérdése csak morfoszintaktikus illeszkedés a karakterek láncolatához: miért mondja, hogy R1? A számítógépnek nem kell megértenie az R1 értelmét, hogy a kérdést feltehesse. Elég, ha az egyes szám első személyt átalakítja magázó formára. Ha a páciens azt mondja: "Teljesen fel vagyok dobva", a "pszichoterapeuta" nyugodtan megkérdezte volna: "Miért mondja, hogy fel van dobva?"
"A feleségem miatt." Ez a páciens szabadon adott válasza, amely tartalmazza a "feleség" szót.
"Beszéljen a családjáról." Ez a rendszerben rejlő kérdése a pszichoterapeutának; ezt kell választania, ha a páciens válasza tartalmazza a "feleség", "férj", "apa", "anya" stb. szavakat.
"Igen, magányosnak érzem magam." A páciens szabadon adott válasza, amely semmi speciálisat nem tartalmaz.
"Ebben talán szerepe van az ön szexuális életének is. Folytassa, ne féljen." Ez a pszichoterapeuta válasza, ha már végképp nem tudja, mit mondjon.

Összefoglalva: a pszichoterapeuta-számítógép semmit sem ért páciense megszólalásaiból: beéri azzal, hogy válaszokat generál az előre rögzített több száz vagy több ezer válasz valamelyikét aktiválva, miközben végrehajtja a morfoszintaktikus átalakításokat (az egyes szám általában magázás lesz).
Csaknem negyven évvel Eliza után J. Cassel és MIT-s kollégái éppen egy szoftvert készítenek, a Reát, amely a legfejlettebb kutatásokat és technológiát testesíti meg. A szoftver lehetőséget ad szóbeli párbeszédszimulációkra egy ingatlanügynök és egy vevő közt. Az ingatlanügynök szerepét egy humanoid robot játssza, azaz egy ember formájú robot, amely gesztusokkal, tekintettel és szavakkal is képes kommunikálni (ami "multimodális kommunikáció" néven ismert). A fejlődés Eliza (1964) és Rea (2000) közt tekintélyes: az írott dialógusról áttértünk a szóbeli dialógusra (ami a felismerésben és a beszéd szintézisében bekövetkezett óriási haladásnak köszönhető), a számítógépről a humanoid robotra (ami a robotika óriási fejlődésének köszönhető), végül áttértünk a multimodális kommunikációra a különféle technológiák sikeres integrációjának köszönhetően. Mi a helyzet a megértéssel? A haladás itt csekély: Rea nagyjából megérti, amit az ügyfele mond, de csak akkor, ha az ügyfél beéri azzal, hogy az ingatlant érintő kérdéseket tegyen fel. Ha a lakásvásárlásról áttér az autóvásárlásra, Reának vége. Ami annak tudható be, hogy a megértési modulnak csak az ingatlanokra vonatkozó nyelvi vagy nyelven kívüli ismeretei vannak. Mindenekelőtt a szótára korlátozódik az ingatlanokkal kapcsolatos szókészletre. Általánosabban fogalmazva szó sincs semmiféle generikus megértési rendszerről, azaz olyanról, amely a hétköznapi beszédben és számos körülhatárolható területen (ingatlan, jog, orvoslás stb.) is működik. Jelen pillanatban a számítógép csak akkor képes megérteni egy szöveget (kiszámítani ennek a szövegnek a kellőképpen elvont szemantikai megjelenítését, hogy aztán ezt értelmezhesse), ha az valamely körülhatárolható területről származik, azaz nyelvileg és fogalmilag korlátozott. Ennek a korlátozásnak a technikai okait az előadás második részében magyarázom meg.
A humanoidok korlátozott értését gyakran a következő szavakkal fordítják le a médiában: "Rea észbeli képességei egy hároméves gyerekének felelnek meg." Úgy gondoljuk, hogy minden ilyen típusú állítás alapjaiban téves. Nem azért, mert az életkort nem két vagy négy évben jelöli meg, hanem egyszerűen azért, mert megtévesztő összehasonlítani egy humanoid robot mentális életkorát egy gyerekével. Ismereteink szerint nincsen olyan gyerek, aki csak egy körülhatárolt terület nyelvezetét (mondjuk a táplálkozásét) volna képes megérteni, és az összes többi területét (mondjuk a játékokét vagy a kedveskedésekét) nem. Ez még azokra a gyerekekre is igaz, akik nyelvi zavarokkal küszködnek. A nyelv elsajátítása (és a világ észlelése) kisgyerekkorban olyan mechanizmusok révén történik, amelyeket ma még kevéssé ismerünk, de biztosra vehetjük, hogy semmi közük azokhoz a mechanizmusokhoz, amelyeket egy Reához hasonló humanoidba építenek be; nála ugyanis a szókincset tudatosan az ingatlanok területére korlátozták, és fel sem merült, hogy megpróbálják a kört szélesíteni.
Gyakran halljuk azt is, hogy a humanoid robotok "lelkiállapotáról" beszélnek. Így például azt mondják, a humanoid "a lelkiállapotáról számol be", amikor azt mondja: "Lemerültek az áramforrásaim". Akkor viszont az autónk is a lelkiállapotáról értesít bennünket, amikor kigyullad az üzemanyagjelző piros fénye. Az elv tudniillik ugyanaz, csak a kommunikáció módja és a "közlő" tárgy formája különböző. Elegendő-e tehát az emberi forma és a vokális közlésmód ahhoz, hogy valamely tárgynak lelkiállapota legyen?

***Az automatikus fordítás

Az automatikus fordítás (a továbbiakban AF) rendszerében a forrásnyelvi (a továbbiakban Fny, például a francia) szöveget elektronikus formában viszik be az AF rendszerbe, amely a szöveget a célnyelvre (Cny, például az angol) ülteti át. Az elektronikus formában zajló fordítás nyomtatásra kész, de továbbítható a weben is.
Az AF a legrégebbi informatikai nyelvhez köthető alkalmazás: az AF-kutatások az informatika kezdeteivel egyidősek (az 1940-es évek vége). Igen értékes alkalmazásról van szó, minthogy óriási szükség van rá. Így például az Európa Tanács hozzávetőleg egymillió oldalt fordíttat le évente, a multinacionális cégeknél pedig ez a szám megközelíti az évi egymilliárdot.
Az első AF rendszerek szó szerinti fordításon alapultak, amit az 1. ábrán vázoltunk. A vezérszavak beazonosítása az Fny-en abból áll, hogy a főneveket egyes számúvá, az igéket főnévi igenévvé alakítja át a program. Az áttétel pedig nem más, mint hogy egy Fny-en megadott szóhoz a Cny-re fordított szót társítja (például "fekete" = black). A rendbetétel a Cny morfoszintaktikus szabályainak alkalmazását jelenti (például a jelző az angolban a szó elé kerül).

---------------
1. ábra - A szó szerinti fordítás

Le chat noir a mangé deux pommes (A fekete macska megevett két almát)
A VEZÉRSZAVAK BEAZONOSÍTÁSA FNY-EN

Le chat noir manger deux pomme (A fekete macska megenni két alma)
SZÓ SZERINTI ÁTTÉTEL FNY-BŐl CNY-BE
the cat black eat two apple

RENDBETÉTEL A CNY-BEN
The black cat ate two apples
--------------------

Persze túlságosan is jól ismerjük a szó szerinti fordítás korlátait, amely az adott mondatra (1) téves fordítást ad (2) a helyes fordítás (3) helyett.
1. Un pied-noir a mangé une pomme de terre. (Egy algériai francia [fekete lábú] megevett egy krumplit [földi almát].)
2. A black foot ate an apple of earth.
3. An Algerian-born Frenchman ate a potato.
A szó szerinti fordítás kudarcra van ítélve, hiszen tudjuk, hogy megértés nélkül lehetetlen fordítani. Az AF rendszernek tehát (elvileg) tartalmaznia kell egy elemző modult és egy generáló modult. Az elemző modul feladata a szöveg megértése FNY-en és a szöveg szemantikai megjelenítésének kialakítása. Ez kerül át aztán a generáló modulba, amely a szöveget a CNY-en létrehozza.
Csakhogy egy ilyen AF-rendszerarchitektúra inkább az elmélet, mint a valóság világához tartozik, mert nemigen sikerült eddig elemző és generáló modulokat létrehozni. Miért? Mert a nyelvben végtelenül sok kétértelműség van. Az értelem/forma viszonyban nincs semmi egyértelműség: egyfelől egy adott lingvisztikai formának több értelme is lehet (ami az elemzésben vezet bizonytalan értelmezésekhez), másfelől egy adott értelem többféle értelemmel is kifejezhető (ami a generálásban okoz bizonytalanságokat). A nyelvi kétértelműségeket kizárólag az elemzésnél és kizárólag azonos alakú szavakkal fogjuk illusztrálni. Így a francia "le" lehet névelő (a, az) vagy névmás (őt), a "savoir" lehet ige (tud) és főnév (tudás). Az "avocat" ugyan mindig főnév, de jelenthet jogászt (és akkor lawyer-nek fordítandó), és jelenthet gyümölcsöt is (ami avocado-nak fordítandó). Az esetek többségében az "avocat" kétféle értelme nem jelent valódi kétértelműséget: az alább olvasható 4. és 5. példamondatban egy emberi lény könnyedén egyértelműsíti a szót a kontextus alapján.
4. Zoé a mangé un avocat. (Zoé megevett egy avokádót)
5. Zoé a rendez-vous avec un avocat. (Zoénak egy ügyvéddel van találkozója)
A számítógép esetében azonban virtuális kétértelműség van, amelyet az elemző modul hozott létre, hiszen az "avocat" szó mindkét jelentését ismeri. Ezt a virtuális kétértelműséget kötelező feloldani, hogy elkerülhetők legyenek a 6. és 7. példamondatban szereplő hibás fordítások.
6. Zoe ate a lawyer.
7. Zoe has a meeting with an avocado.
Az azonos alakú szavak virtuális kétértelműségének feloldása két feladat elvégzését kívánja meg:
- el kell végezni a főnév szemantikai osztályba sorolását (az osztályok nevét nagybetűvel szerepeltetjük), például: az "avocat" GYÜMÖLCS, tehát ÉTEL / az "avocat" EMBER;
- meg kell állapítani az igei kiegészítők szemantikai kategóriáját, például: EMBER eszik ÉTELT / EMBER találkozik EMBERREL.
A dolog azonban tovább bonyolódik, minthogy gyakran az igék is azonos alakúak. Így a "manger" (enni) szónak a 4. példamondatban említett értelmén túl a következő jelentései lehetnek:
8. Ce poele mange beaucoup de charbon. (A kályha sok szenet fogyaszt)
KÉSZÜLÉK eszik ÉTELT
This stove uses a lot of coal.
9. Les grosses entreprises mangent les petites. (A nagyvállalatok lenyelik a kicsiket)
SZERVEZET eszik SZERVEZETET
Big firms swallow up smaller ones.
A 4. példa tehát kereszt-kétértelműséget mutat: hogy egyértelműsítsük az "avocat"-t, egyértelműsíteni kell a "manger"-t, hogy egyértelműsítsük a "manger"-t, egyértelműsíteni kell az "avocat"-t. A kereszt-kétértelműségek kombinatorikai robbanást okoznak, amelyet számszerűsítve így írhatunk le: ha egy mondatban n szó van (sz1, sz2... szi... szn), és ha az sz1 szónak k1 jelentése van (tehát általában k1 fordítása), akkor a számítógépnek K mennyiségű hipotézis közül kell választania, ahol a K = k1 x k2 x ... x ki x ... x kn. Úgy mondjuk, hogy az elemző modell "túlgenerál", azaz a hipotézisek burjánzását idézi elő. Ráadásul az is megesik, hogy egy azonos alakú szót nem lehet egyértelműsíteni sem a közvetlen szövegkörnyezet alapján (a mondatban, ahol megjelenik), sem tágabb kontextusban. Így a 10. példamondatban nem egyértelműsíthető az "avocat" szó sem az "aimer" (szeret), sem a "véreux" (romlott) alapján, minthogy mindkét állítmány alkalmazható a gyümölcsökre éppúgy, mint az emberekre.
10. Zoé a aimé cet avocat. Pourtant, il était véreux. (Zoé szerette ezt a jogászt/avokádót. Pedig az romlott volt)
Zoé loved/liked this lawyer/avocado. However, he/it was shady/worm-eaten.
Hangsúlyozzuk, hogy a 10. példamondat szövege valóban kétértelmű, de beszédhelyzetben ritkán észleljük annak, például két személy párbeszédében, minthogy a beszélők pontosan tudják, Zoé szerelmeiről van-e szó vagy arról, hogy mit evett délben. Az AF-ben, vagy általánosabban a megértésben, ezt a tudást azzal szimulálhatjuk, ha az adott szövegek területét korlátozzuk: egy elemző modullal ellátott rendszer csak akkor produkálhat kielégítő eredményeket, ha a terület zárt - például ha a jog, az informatika vagy ingatlan terepére szűkítjük le. Ilyenkor az elemző modul, amelyet a jog területére állítottak be, az "avocat" szónak csak a "jogász" értelmét veszi majd figyelembe, azaz korlátozza az azonos alakú szavakból következő hipotézisburjánzást. Ez a módszer azonban, amely azért hibáktól sem mentes, csak egy kötelező közbülső állomás, mert ne feledjük, hogy az azonos alakú szavak csak illusztrációk a nyelv kétértelműségeire: szemantikai típusú kétértelműség, csakhogy vannak más szemantikai kétértelműségek is (általában az igeidők használata, például a jövőidejűségre alkalmazott jelen idő - "Zoé vient demain" [Zoé holnap jön]), és a nyelv tele van más típusú - morfológiai, szintaktika, gyakorlati - kétértelműségekkel is. A kétértelműségek rendkívüli bősége, amely egy szöveg esetében a kereszt-kétértelműségek bonyolult hálóját adhatja, tényleges nagyságrendjében nem kezelhető, azaz nem tudjuk szimulálni az emberi megértést, amely a hétköznapi beszédet éppúgy érti, mint a technikaibb jellegű beszédmódokat.
Ez azonban nem jelenti azt, hogy az automatikus fordítási rendszerek lassacskán ne fejlődnének, ám ez két tendencia mentén történik. A kutatólaboratóriumokban olyan prototípusokat fejlesztenek ki, amelyek a körülhatárolt területeken viszonylag kielégítő eredményeket adnak. A piacon pedig virágzik a kereskedelemnek szánt termékek forgalma. Ezek gyakran adnak téves fordításokat, de legalább annak meghatározásában segítenek, miről szól a szöveg. Az ilyen termékek nagy szókészlettel rendelkeznek, PC-n működnek, és azonnal elkészítik a fordítást. Úgy vélhetnénk, a számítógépek teljesítményének növekedésével a két tendencia közeledik majd egymáshoz. Természetesen ez így lesz, de ennyi nem elég. Hatalmas munkát kell még elvégezni, azaz formalizálni és rögzíteni a számítógépben minden nyelvi és nyelven kívüli ismeretet, amivel biztosan nem végzünk, még 2002-re sem!

MIHANCSIK ZSÓFIA FORDÍTÁSA

Kérjük küldje el véleményét címünkre: lettre@c3.hu

Tartalomjegyzék [Lettre 45. szám, 2002. Nyár] Kezdőlap

stílus 1 (fehér)

stílus 2 (fekete)

+ betűméret | - betűméret