Stanley Kubrick híres filmjében, a 2001. Űrodüsszeiá-ban
a HAL nevű számítógép megérti
az embert, az ő nyelvén párbeszédet folytat
vele, végrehajtja a parancsait, átérzi az érzéseit.
1968-ban Marvin Minsky, a film tudományos tanácsadója,
a mesterséges intelligencia szakértője úgy
gondolta, 2001-ben valóban létre lehet majd hozni egy HAL-hoz
hasonló számítógépet. Ma vajon közel
állunk-e hozzá, hogy megalkossuk HAL-t? Előadásomban
megpróbálom elmagyarázni, miért vagyunk még
messze ettől.
Egy ilyen állítás persze nyomban bírálhatónak
tűnik, hiszen manapság az informatikai lingvisztika (általánosabban:
a mesterséges intelligencia) alkalmazásai egyre gyorsuló
ütemben árasztják el hétköznapjainkat. Számos
autó beszél, minden szövegszerkesztőben van helyesírásellenőrző,
az automatikus diktáló- és fordítórendszerek
forgalma virágzik a piacon. Rendszeresen jelentenek be olyan fénymásolókat
és telefonokat, amelyek képesek fordításra,
a weben keresőmotorok kínálnak a talált szövegekhez
kivonatolást vagy fordítást, virtuális személyi
asszisztenst használhatunk, aki intézi a találkozásainkat,
és így tovább. Egyszóval ma már nagyon
is léteznek olyan alkalmazások, amilyeneket még csak
elképzelni sem tudtunk négy vagy öt évvel ezelőtt.
Akkor hát miért vagyunk oly messze HAL-tól? A kérdésre
adott válasz egy kulcsfogalmon nyugszik: a megértésen.
HAL létrehozásához az kellene, hogy a számítógép
megértse a nyelvet, míg azok az alkalmazások, amelyeket
ma kínálnak, nem tételezik fel a megértést,
vagy ha igen, csak nagyon felületesen. Itt van a különbség:
számítógépen ma még nem tudjuk szimulálni
a nyelvértést.
Előadásomat két részre osztottam. Az elsőben
bemutatom azokat az alkalmazásokat, amelyeknél a számítógép
anélkül kezeli az írott vagy a beszélt nyelvet,
hogy bármit is megértene belőle (vagy ha igen, éppen
csak). Közben azt is bemutatom, mit jelentene a megértés
egy számítógép esetében, és megvitatjuk
a humanoid robotokat is. A második részben egy sajátos
alkalmazásról szeretnék beszélni, az automatikus
fordításról, ahol a számítógépnek
muszáj volna értenie a fordítandó szöveget
- megértés nélkül lehetetlen fordítani.
Az alkalmazás ürügyén megtárgyalunk majd
néhány roppant nagy nehézséget, amellyel az
írott nyelv automatikus kezelésénél találkozunk.
Ezek a nehézségek magyarázzák a gyakori tévedéseket,
amelyeket az automatikusan fordított szövegeknél megfigyelhetünk,
és jelzik azt az utat is, amelyet meg kell tennünk ahhoz, hogy
az emberi megértést számítógépen
szimuláljuk.
***Értés nélkül vagy felszínes értéssel működő alkalmazások
Két alkalmazást mutatunk be, az egyiket 1964-ben, a másikat
napjainkban alkották. Így a már megtett és
a még megteendő utat is érzékeltethetjük.
1964-ben J. Weizembaum és MIT-s kollégái létrehoztak
egy szoftvert, az Elizát, amely nemcsak akkor volt lenyűgöző;
még ma is az. A szoftver olyan írott párbeszédet
szimulál, amely egy pszichoterapeuta és a páciense
közt zajlik le. A pszichoterapeuta szerepét a számítógép
játssza. Álljon itt példaként az egyik párbeszéd:
a páciens válaszai, amelyeket emberi segédlettel rögzített
a számítógép, dőlt betűvel szerepelnek,
a pszichoterapeuta válaszai vastag betűvel.
- Jó napot, én vagyok az ön pszichoterapeutája.
Beszéljen, kérem, a problémáiról.
- Nagyon aggódom.
- Miért mondja, hogy aggódik?
- A feleségem miatt.
- Beszéljen a családjáról.
- Imádom a gyerekeimet.
- Szeretném, ha beszélne a gyerekeihez fűződő
kapcsolatáról.
- Engem senki se szeret.
- Zavarja, hogy önt senki sem szereti?
- Igen, magányosnak érzem magam.
- Ebben talán szerepe van az ön szexuális életének
is. Folytassa, ne féljen.
- ...
Alig hihető! A párbeszéd elképesztő!
Pedig a pszichoterapeuta-számítógép semmit
sem ért, abszolúte semmit a páciens válaszaiból.
Hogyan lehetséges ez? A pattern-matching technikával, amelyet
most röviden elmagyarázok az iménti párbeszédet
alapul véve.
"Jó napot, én vagyok az ön pszichoterapeutája.
Beszéljen, kérem, a problémáiról." Ez
az egyik előre felvett szöveg, amellyel a pszichoterapeuta-számítógép
elkezdi a beszélgetést. A szöveget véletlenszerűen
választották ki, számos hasonló tartalmú,
előre felvett szöveg közül.
"Nagyon aggódom." Ez a páciens szabadon adott válasza,
amely egy R1 változóban van elraktározva.
"Miért mondja, hogy aggódik?" A pszichoterapeuta kérdése
csak morfoszintaktikus illeszkedés a karakterek láncolatához:
miért mondja, hogy R1? A számítógépnek
nem kell megértenie az R1 értelmét, hogy a kérdést
feltehesse. Elég, ha az egyes szám első személyt
átalakítja magázó formára. Ha a páciens
azt mondja: "Teljesen fel vagyok dobva", a "pszichoterapeuta" nyugodtan
megkérdezte volna: "Miért mondja, hogy fel van dobva?"
"A feleségem miatt." Ez a páciens szabadon adott válasza,
amely tartalmazza a "feleség" szót.
"Beszéljen a családjáról." Ez a rendszerben
rejlő kérdése a pszichoterapeutának; ezt kell
választania, ha a páciens válasza tartalmazza a "feleség",
"férj", "apa", "anya" stb. szavakat.
"Igen, magányosnak érzem magam." A páciens szabadon
adott válasza, amely semmi speciálisat nem tartalmaz.
"Ebben talán szerepe van az ön szexuális életének
is. Folytassa, ne féljen." Ez a pszichoterapeuta válasza,
ha már végképp nem tudja, mit mondjon.
Összefoglalva: a pszichoterapeuta-számítógép
semmit sem ért páciense megszólalásaiból:
beéri azzal, hogy válaszokat generál az előre
rögzített több száz vagy több ezer válasz
valamelyikét aktiválva, miközben végrehajtja
a morfoszintaktikus átalakításokat (az egyes szám
általában magázás lesz).
Csaknem negyven évvel Eliza után J. Cassel és
MIT-s kollégái éppen egy szoftvert készítenek,
a Reát, amely a legfejlettebb kutatásokat és technológiát
testesíti meg. A szoftver lehetőséget ad szóbeli
párbeszédszimulációkra egy ingatlanügynök
és egy vevő közt. Az ingatlanügynök szerepét
egy humanoid robot játssza, azaz egy ember formájú
robot, amely gesztusokkal, tekintettel és szavakkal is képes
kommunikálni (ami "multimodális kommunikáció"
néven ismert). A fejlődés Eliza (1964) és Rea
(2000) közt tekintélyes: az írott dialógusról
áttértünk a szóbeli dialógusra (ami a
felismerésben és a beszéd szintézisében
bekövetkezett óriási haladásnak köszönhető),
a számítógépről a humanoid robotra (ami
a robotika óriási fejlődésének köszönhető),
végül áttértünk a multimodális
kommunikációra a különféle technológiák
sikeres integrációjának köszönhetően.
Mi a helyzet a megértéssel? A haladás itt csekély:
Rea nagyjából megérti, amit az ügyfele mond,
de csak akkor, ha az ügyfél beéri azzal, hogy az ingatlant
érintő kérdéseket tegyen fel. Ha a lakásvásárlásról
áttér az autóvásárlásra, Reának
vége. Ami annak tudható be, hogy a megértési
modulnak csak az ingatlanokra vonatkozó nyelvi vagy nyelven kívüli
ismeretei vannak. Mindenekelőtt a szótára korlátozódik
az ingatlanokkal kapcsolatos szókészletre. Általánosabban
fogalmazva szó sincs semmiféle generikus megértési
rendszerről, azaz olyanról, amely a hétköznapi
beszédben és számos körülhatárolható
területen (ingatlan, jog, orvoslás stb.) is működik.
Jelen pillanatban a számítógép csak akkor képes
megérteni egy szöveget (kiszámítani ennek a szövegnek
a kellőképpen elvont szemantikai megjelenítését,
hogy aztán ezt értelmezhesse), ha az valamely körülhatárolható
területről származik, azaz nyelvileg és fogalmilag
korlátozott. Ennek a korlátozásnak a technikai okait
az előadás második részében magyarázom
meg.
A humanoidok korlátozott értését gyakran
a következő szavakkal fordítják le a médiában:
"Rea észbeli képességei egy hároméves
gyerekének felelnek meg." Úgy gondoljuk, hogy minden ilyen
típusú állítás alapjaiban téves.
Nem azért, mert az életkort nem két vagy négy
évben jelöli meg, hanem egyszerűen azért, mert
megtévesztő összehasonlítani egy humanoid robot
mentális életkorát egy gyerekével. Ismereteink
szerint nincsen olyan gyerek, aki csak egy körülhatárolt
terület nyelvezetét (mondjuk a táplálkozásét)
volna képes megérteni, és az összes többi
területét (mondjuk a játékokét vagy a
kedveskedésekét) nem. Ez még azokra a gyerekekre is
igaz, akik nyelvi zavarokkal küszködnek. A nyelv elsajátítása
(és a világ észlelése) kisgyerekkorban olyan
mechanizmusok révén történik, amelyeket ma még
kevéssé ismerünk, de biztosra vehetjük, hogy semmi
közük azokhoz a mechanizmusokhoz, amelyeket egy Reához
hasonló humanoidba építenek be; nála ugyanis
a szókincset tudatosan az ingatlanok területére korlátozták,
és fel sem merült, hogy megpróbálják a
kört szélesíteni.
Gyakran halljuk azt is, hogy a humanoid robotok "lelkiállapotáról"
beszélnek. Így például azt mondják,
a humanoid "a lelkiállapotáról számol be",
amikor azt mondja: "Lemerültek az áramforrásaim". Akkor
viszont az autónk is a lelkiállapotáról értesít
bennünket, amikor kigyullad az üzemanyagjelző piros fénye.
Az elv tudniillik ugyanaz, csak a kommunikáció módja
és a "közlő" tárgy formája különböző.
Elegendő-e tehát az emberi forma és a vokális
közlésmód ahhoz, hogy valamely tárgynak lelkiállapota
legyen?
***Az automatikus fordítás
Az automatikus fordítás (a továbbiakban AF) rendszerében
a forrásnyelvi (a továbbiakban Fny, például
a francia) szöveget elektronikus formában viszik be az AF rendszerbe,
amely a szöveget a célnyelvre (Cny, például az
angol) ülteti át. Az elektronikus formában zajló
fordítás nyomtatásra kész, de továbbítható
a weben is.
Az AF a legrégebbi informatikai nyelvhez köthető
alkalmazás: az AF-kutatások az informatika kezdeteivel egyidősek
(az 1940-es évek vége). Igen értékes alkalmazásról
van szó, minthogy óriási szükség van rá.
Így például az Európa Tanács hozzávetőleg
egymillió oldalt fordíttat le évente, a multinacionális
cégeknél pedig ez a szám megközelíti az
évi egymilliárdot.
Az első AF rendszerek szó szerinti fordításon
alapultak, amit az 1. ábrán vázoltunk. A vezérszavak
beazonosítása az Fny-en abból áll, hogy a főneveket
egyes számúvá, az igéket főnévi
igenévvé alakítja át a program. Az áttétel
pedig nem más, mint hogy egy Fny-en megadott szóhoz a Cny-re
fordított szót társítja (például
"fekete" = black). A rendbetétel a Cny morfoszintaktikus szabályainak
alkalmazását jelenti (például a jelző
az angolban a szó elé kerül).
---------------
1. ábra - A szó szerinti fordítás
Le chat noir a mangé deux pommes (A fekete macska megevett két
almát)
A VEZÉRSZAVAK BEAZONOSÍTÁSA FNY-EN
Le chat noir manger deux pomme (A fekete macska megenni két alma)
SZÓ SZERINTI ÁTTÉTEL FNY-BŐl CNY-BE
the cat black eat two apple
RENDBETÉTEL A CNY-BEN
The black cat ate two apples
--------------------
Persze túlságosan is jól ismerjük a szó
szerinti fordítás korlátait, amely az adott mondatra
(1) téves fordítást ad (2) a helyes fordítás
(3) helyett.
1. Un pied-noir a mangé une pomme de terre. (Egy algériai
francia [fekete lábú] megevett egy krumplit [földi almát].)
2. A black foot ate an apple of earth.
3. An Algerian-born Frenchman ate a potato.
A szó szerinti fordítás kudarcra van ítélve,
hiszen tudjuk, hogy megértés nélkül lehetetlen
fordítani. Az AF rendszernek tehát (elvileg) tartalmaznia
kell egy elemző modult és egy generáló modult.
Az elemző modul feladata a szöveg megértése FNY-en
és a szöveg szemantikai megjelenítésének
kialakítása. Ez kerül át aztán a generáló
modulba, amely a szöveget a CNY-en létrehozza.
Csakhogy egy ilyen AF-rendszerarchitektúra inkább az
elmélet, mint a valóság világához tartozik,
mert nemigen sikerült eddig elemző és generáló
modulokat létrehozni. Miért? Mert a nyelvben végtelenül
sok kétértelműség van. Az értelem/forma
viszonyban nincs semmi egyértelműség: egyfelől
egy adott lingvisztikai formának több értelme is lehet
(ami az elemzésben vezet bizonytalan értelmezésekhez),
másfelől egy adott értelem többféle értelemmel
is kifejezhető (ami a generálásban okoz bizonytalanságokat).
A nyelvi kétértelműségeket kizárólag
az elemzésnél és kizárólag azonos alakú
szavakkal fogjuk illusztrálni. Így a francia "le" lehet névelő
(a, az) vagy névmás (őt), a "savoir" lehet ige (tud)
és főnév (tudás). Az "avocat" ugyan mindig
főnév, de jelenthet jogászt (és akkor lawyer-nek
fordítandó), és jelenthet gyümölcsöt
is (ami avocado-nak fordítandó). Az esetek többségében
az "avocat" kétféle értelme nem jelent valódi
kétértelműséget: az alább olvasható
4. és 5. példamondatban egy emberi lény könnyedén
egyértelműsíti a szót a kontextus alapján.
4. Zoé a mangé un avocat. (Zoé megevett egy avokádót)
5. Zoé a rendez-vous avec un avocat. (Zoénak egy ügyvéddel
van találkozója)
A számítógép esetében azonban virtuális
kétértelműség van, amelyet az elemző
modul hozott létre, hiszen az "avocat" szó mindkét
jelentését ismeri. Ezt a virtuális kétértelműséget
kötelező feloldani, hogy elkerülhetők legyenek
a 6. és 7. példamondatban szereplő hibás fordítások.
6. Zoe ate a lawyer.
7. Zoe has a meeting with an avocado.
Az azonos alakú szavak virtuális kétértelműségének
feloldása két feladat elvégzését kívánja
meg:
- el kell végezni a főnév szemantikai osztályba
sorolását (az osztályok nevét nagybetűvel
szerepeltetjük), például: az "avocat" GYÜMÖLCS,
tehát ÉTEL / az "avocat" EMBER;
- meg kell állapítani az igei kiegészítők
szemantikai kategóriáját, például: EMBER
eszik ÉTELT / EMBER találkozik EMBERREL.
A dolog azonban tovább bonyolódik, minthogy gyakran az
igék is azonos alakúak. Így a "manger" (enni) szónak
a 4. példamondatban említett értelmén túl
a következő jelentései lehetnek:
8. Ce poele mange beaucoup de charbon. (A kályha sok szenet
fogyaszt)
KÉSZÜLÉK eszik ÉTELT
This stove uses a lot of coal.
9. Les grosses entreprises mangent les petites. (A nagyvállalatok
lenyelik a kicsiket)
SZERVEZET eszik SZERVEZETET
Big firms swallow up smaller ones.
A 4. példa tehát kereszt-kétértelműséget
mutat: hogy egyértelműsítsük az "avocat"-t, egyértelműsíteni
kell a "manger"-t, hogy egyértelműsítsük a "manger"-t,
egyértelműsíteni kell az "avocat"-t. A kereszt-kétértelműségek
kombinatorikai robbanást okoznak, amelyet számszerűsítve
így írhatunk le: ha egy mondatban n szó van (sz1,
sz2... szi... szn), és ha az sz1 szónak k1 jelentése
van (tehát általában k1 fordítása),
akkor a számítógépnek K mennyiségű
hipotézis közül kell választania, ahol a K = k1
x k2 x ... x ki x ... x kn. Úgy mondjuk, hogy az elemző modell
"túlgenerál", azaz a hipotézisek burjánzását
idézi elő. Ráadásul az is megesik, hogy egy
azonos alakú szót nem lehet egyértelműsíteni
sem a közvetlen szövegkörnyezet alapján (a mondatban,
ahol megjelenik), sem tágabb kontextusban. Így a 10. példamondatban
nem egyértelműsíthető az "avocat" szó
sem az "aimer" (szeret), sem a "véreux" (romlott) alapján,
minthogy mindkét állítmány alkalmazható
a gyümölcsökre éppúgy, mint az emberekre.
10. Zoé a aimé cet avocat. Pourtant, il était
véreux. (Zoé szerette ezt a jogászt/avokádót.
Pedig az romlott volt)
Zoé loved/liked this lawyer/avocado. However, he/it was shady/worm-eaten.
Hangsúlyozzuk, hogy a 10. példamondat szövege valóban
kétértelmű, de beszédhelyzetben ritkán
észleljük annak, például két személy
párbeszédében, minthogy a beszélők pontosan
tudják, Zoé szerelmeiről van-e szó vagy arról,
hogy mit evett délben. Az AF-ben, vagy általánosabban
a megértésben, ezt a tudást azzal szimulálhatjuk,
ha az adott szövegek területét korlátozzuk: egy
elemző modullal ellátott rendszer csak akkor produkálhat
kielégítő eredményeket, ha a terület zárt
- például ha a jog, az informatika vagy ingatlan terepére
szűkítjük le. Ilyenkor az elemző modul, amelyet
a jog területére állítottak be, az "avocat" szónak
csak a "jogász" értelmét veszi majd figyelembe, azaz
korlátozza az azonos alakú szavakból következő
hipotézisburjánzást. Ez a módszer azonban,
amely azért hibáktól sem mentes, csak egy kötelező
közbülső állomás, mert ne feledjük,
hogy az azonos alakú szavak csak illusztrációk a nyelv
kétértelműségeire: szemantikai típusú
kétértelműség, csakhogy vannak más szemantikai
kétértelműségek is (általában
az igeidők használata, például a jövőidejűségre
alkalmazott jelen idő - "Zoé vient demain" [Zoé holnap
jön]), és a nyelv tele van más típusú
- morfológiai, szintaktika, gyakorlati - kétértelműségekkel
is. A kétértelműségek rendkívüli
bősége, amely egy szöveg esetében a kereszt-kétértelműségek
bonyolult hálóját adhatja, tényleges nagyságrendjében
nem kezelhető, azaz nem tudjuk szimulálni az emberi megértést,
amely a hétköznapi beszédet éppúgy érti,
mint a technikaibb jellegű beszédmódokat.
Ez azonban nem jelenti azt, hogy az automatikus fordítási
rendszerek lassacskán ne fejlődnének, ám ez
két tendencia mentén történik. A kutatólaboratóriumokban
olyan prototípusokat fejlesztenek ki, amelyek a körülhatárolt
területeken viszonylag kielégítő eredményeket
adnak. A piacon pedig virágzik a kereskedelemnek szánt termékek
forgalma. Ezek gyakran adnak téves fordításokat, de
legalább annak meghatározásában segítenek,
miről szól a szöveg. Az ilyen termékek nagy szókészlettel
rendelkeznek, PC-n működnek, és azonnal elkészítik
a fordítást. Úgy vélhetnénk, a számítógépek
teljesítményének növekedésével
a két tendencia közeledik majd egymáshoz. Természetesen
ez így lesz, de ennyi nem elég. Hatalmas munkát kell
még elvégezni, azaz formalizálni és rögzíteni
a számítógépben minden nyelvi és nyelven
kívüli ismeretet, amivel biztosan nem végzünk,
még 2002-re sem!
MIHANCSIK ZSÓFIA FORDÍTÁSA
Kérjük küldje el véleményét címünkre: lettre@c3.hu