Table Of ContentVYTAUTO DIDŽIOJO UNIVERSITETAS
MATEMATIKOS IR INFORMATIKOS INSTITUTAS
Daiva Šveikauskien
LIETUVI KALBOS SAKINI
AUTOMATIN SINTAKSIN ANALIZ
Daktaro disertacija
Fiziniai mokslai (P 000)
Informatika (09 P)
Dirbtinis intelektas (P 176)
Vilnius, 2007
Disertacija rengta 2000-2206 Matematikos ir informatikos institute
Disertacija ginama eksternu
Mokslinis konsultantas:
prof. habil. dr. Laimutis Telksnys (Matematikos ir informatikos instituttas, fiziniai mokslai,
informatika – 09 P)
2
Pad(cid:0) ka
Nuoširdžiai d koju Vytautui Zinkevi iui už suteikt galimyb naudotis jo sukurta lietuvi
(cid:1) (cid:2) (cid:3) (cid:4) (cid:5)
kalbos žodži morfologin s analiz s programine ranga.
(cid:5) (cid:1) (cid:1) (cid:6)
Taip pat noriu labai pad koti dr. Elenai Valiulytei už begalines konsultacijas lietuvi
(cid:1) (cid:5)
kalbos klausimais ir už lituanistini klaid ištaisym visuose mano spausdintuose darbuose.
(cid:5) (cid:5) (cid:3)
3
Santrauka
Darbas priklauso dirbtinio intelekto sri(cid:4)iai, jame nagrin(cid:1)jamas vienas iš žmogaus protinio
darbo automatizavimo uždavini(cid:7) – lietuvi(cid:7) kalbos automatin(cid:1)s sintaksin(cid:1)s analiz(cid:1)s suk(cid:9)rimas.
D(cid:1)l dideli(cid:7) skirtum(cid:7) tarp lietuvi(cid:7) kalbos ir kit(cid:7) indoeuropie(cid:4)i(cid:7) kalb(cid:7) negalima tiesiogiai
pasinaudoti jau sukurta kitose šalyse automatin(cid:1)s sintaksin(cid:1)s analiz(cid:1)s programine (cid:8)ranga ir b(cid:9)tina
sudaryti nauj(cid:5) savit(cid:5) metodik(cid:5), kuri gerai atspind(cid:1)t(cid:7) specifinius lietuvi(cid:7) kalbos bruožus – didel(cid:8)
kaitomum(cid:5) ir laisv(cid:5) žodži(cid:7) tvark(cid:5) sakinyje.
Darbe apžvelgtos trij(cid:7) kalb(cid:7) – angl(cid:7), vokie(cid:4)i(cid:7) ir rus(cid:7) – sintaksin(cid:1)s analiz(cid:1)s metodikos.
Visos šios kalbos priklauso tai pa(cid:4)iai kalb(cid:7) grupei (indoeuropie(cid:4)i(cid:7)), kaip ir lietuvi(cid:7) kalba, ir
skiriasi viena nuo kitos kaitomumo laipsniu bei žodži(cid:7) tvarkos sakinyje laisvumu.
Pagrindinis kriterijus, (cid:8) kur(cid:8) atsižvelgiama atliekant angl(cid:7) ir vokie(cid:4)i(cid:7) kalb(cid:7) sintaksin(cid:6)
analiz(cid:6), yra žodži(cid:7) tvarka, nes šiose kalbose beveik tik nuo jos ir priklauso, koki(cid:5) sintaksin(cid:6)
funkcij(cid:5) atlieka žodis. Lietuvi(cid:7) kalboje nesant griežtos, sugramatintos žodži(cid:7) tvarkos didžiausias
sintaksin(cid:1)s informacijos kiekis sukauptas žodži(cid:7) formose (j(cid:7) gal(cid:9)n(cid:1)se). Angl(cid:7) bei vokie(cid:4)i(cid:7)
kalboms sukurtose sintaksin(cid:1)s analiz(cid:1)s sistemose nenumatytas sintaksin s informacijos
(cid:0)
pa mimas iš žodži gal ni , tod(cid:1)l lietuvi(cid:7) kalbos sakini(cid:7) gerai išnagrin(cid:1)ti jos negal(cid:1)t(cid:7). Be to,
(cid:0) (cid:1) (cid:2) (cid:1)
ši(cid:7) kalb(cid:7) automatin(cid:1)s sintaksin(cid:1)s analiz(cid:1)s sistemose negalimais laikomi tokie atvejai, kai tarinys
yra toliau, nei antroje vietoje. Pvz., sakinio, turin(cid:4)io strukt(cid:9)r(cid:5) – papildinys, aplinkyb(cid:1), kitas
papildinys, veiksnys, tarinys – (Savo mažai sesutei praeit vasar jau tikr šuniuk jis
(cid:3) (cid:3) (cid:3) (cid:3)
padovanojo), negal(cid:1)t(cid:7) teisingai išanalizuoti n(cid:1) viena iš min(cid:1)t(cid:7) sistem(cid:7). Taigi, reik(cid:1)jo sukurti iš
principo nauj(cid:5), visiškai nesiremian(cid:4)i(cid:5) žodžio vieta sakinyje sintaksin(cid:1)s analiz(cid:1)s sistem(cid:5).
Rus(cid:7) kalba artimesn(cid:1) lietuvi(cid:7) kalbai kaitomumo poži(cid:9)riu, bet rus(cid:7) kalbos sintaksin(cid:6)
analiz(cid:6) atlieka grup(cid:1)s algoritm(cid:7) ir (cid:4)ia nesinaudojama formaliu sintaks(cid:1)s aprašu, kaip yra angl(cid:7) ir
vokie(cid:4)i(cid:7) kalboms sukurtose sistemose. Ta(cid:4)iau jei pavyksta sprendžiam(cid:5) uždavin(cid:8) aprašyti II tipo
formalia gramatika (pagal Chomskio klasifikacij(cid:5)), labai supaprast(cid:1)ja programavimas. Tod(cid:1)l
šiame darbe buvo siekiama lietuvi(cid:7) kalbos sintaks(cid:6) aprašyti nekontekstin(cid:1)s gramatikos
taisykl(cid:1)mis. Visoms sakinio dalims sudarytas aprašas BNF (Bekaus ir Nauro forma), nurodantis
kokios žodžio morfologin(cid:1)s formos gali atlikti kiekvien(cid:5) sintaksin(cid:6) funkcij(cid:5). Laisvai žodži(cid:7)
tvarkai lietuvi(cid:7) kalbos sakiniuose (cid:8)vertinti patekta informacija BNF apie tai, kokie žodžiai gali
b(cid:9)ti susij(cid:6) tiesioginiu sintaksiniu ryšiu ir kokie kiti žodžiai gali b(cid:9)ti tarp j(cid:7) (cid:8)siterp(cid:6).
Nauja lietuvi(cid:7) kalbos automatin(cid:1)je sintaksin(cid:1)je analiz(cid:1)je yra tai, kad visos trys
gramatikos sritys – morfologija, sintaks(cid:1) ir semantika – sujungiamos (cid:8) vien(cid:5) visum(cid:5). Kit(cid:7) kalb(cid:7)
sintaksin(cid:1)s analiz(cid:1)s sistemose darbo rezultat(cid:7) pagerinimui naudojama semantika (žodžio
reikšm(cid:1)), morfologini(cid:7) duomen(cid:7) apie žod(cid:8) šiam tikslui nenaudoja niekas.
Darbe pagrindžiama b(cid:9)tinyb(cid:1) lietuvi(cid:7) kalbos sintaksinei strukt(cid:9)rai naudoti graf(cid:5), nes
kitoms kalboms naudojamas medis negali atspind(cid:1)ti visos sintaksin(cid:1)s informacijos, esan(cid:4)ios
lietuviškame sakinyje. Pateikiamas apibendrintos lietuvi(cid:7) kalbos sakinio strukt(cid:9)ros grafas, kuris
apima bet kok(cid:8) vientisin(cid:8) lietuvi(cid:7) kalbos sakin(cid:8). Kiekvienas konkretus sakinys turi aktyvuoti tame
grafe vien(cid:5) keli(cid:5).
Programin(cid:1)s (cid:8)rangos veikimas patikrintas su 670 testini(cid:7) sakini(cid:7), kurie paimti iš (cid:8)vairi(cid:7)
r(cid:9)ši(cid:7) tekst(cid:7) ir gauti tokie rezultatai: 629 sakiniai (93,88%) išnagrin(cid:1)ti teisingai. Pasitaikiusias
klaidas galima suskirstyti (cid:8) 3 tipus:
a) klaidos, kurios atsirado d(cid:1)l semantin(cid:1)s informacijos tr(cid:9)kumo,t.y. d(cid:1)l to, kad kol kas
dar n(cid:1)ra kompiuterizuota lietuvi(cid:7) kalbos semantika;
b) klaidos d(cid:1)l morfologin(cid:1)s analiz(cid:1)s netobulumo t.y. kai sintaksin(cid:1)s analiz(cid:1)s
paprogramei pradiniai duomenys pateikiami ne pa(cid:4)iu geriausiu b(cid:9)du (pirmoje vietoje
kartais nurodomas itin retai vartojamas žodis);
c) klaidos, kurias daro pati sintaksin(cid:1)s analiz(cid:1)s programa: pagrindin(cid:1) priežastis –
sutampan(cid:4)ios žodži(cid:7) morfologin(cid:1)s formos – homonimai ir homografai.
4
Turinys
Sutrumpinimai ..................................................................................................................................... 7
0. PRATARM ................................................................................................................................................. 9
(cid:0)
1. ŽANGA ..................................................................................................................................................... 13
(cid:1)
2. VADAS ..................................................................................................................................................... 15
(cid:1)
2.1. Kalbinink darbai ................................................................................................................ 15
(cid:2)
2.2. Informatik darbai ............................................................................................................... 16
(cid:2)
3. ANALITIN APŽVALGA ....................................................................................................................... 18
(cid:0)
3.1. Automatinio vertimo sistemos ............................................................................................ 18
3.1.1. Vertimo strategij palyginimas ................................................................................. 21
(cid:2)
3.1.2. Automatinio vertimo etapai ...................................................................................... 24
3.2. Angl kalbos sintaksin analiz ......................................................................................... 26
(cid:2) (cid:3) (cid:3)
3.3. Vokie i kalbos sintaksin analiz .................................................................................... 36
(cid:4) (cid:2) (cid:3) (cid:3)
3.4. Rus kalbos sintaksin analiz ........................................................................................... 41
(cid:2) (cid:3) (cid:3)
3.5. Statistiniai metodai .............................................................................................................. 45
3.5.1. Sintaksin analiz ...................................................................................................... 45
(cid:3) (cid:3)
3.5.2. Automatinis vertimas ................................................................................................. 46
3.6. Lietuvoje atlikti automatizuoto vertimo darbai ................................................................. 49
3.6.1. Kauno technologijos universiteto darbai .................................................................. 49
3.6.2. Vytauto Didžiojo universiteto darbai ....................................................................... 50
3.7. Išvados ................................................................................................................................. 54
4. KAI KURIOS LIETUVI KALBOS YPATYB S ................................................................................ 55
(cid:5) (cid:0)
5. GRAFO PANAUDOJIMAS SAKINIO STRUKT RAI ........................................................................ 58
(cid:6)
5.1. Tarininio pažyminio problema ........................................................................................... 58
5.2. B tinumas panaudoti graf ................................................................................................. 59
(cid:7) (cid:8)
5.3. Apibendrinta lietuvi kalbos sakinio sintaksin strukt ra ................................................ 61
(cid:2) (cid:3) (cid:7)
5.3.1. Frazi metodo tr kumai ............................................................................................ 62
(cid:2) (cid:7)
5.3.2. Priklausomybi gramatikos tr kumai ....................................................................... 63
(cid:2) (cid:7)
5.3.3. Apibendrintos sakinio strukt ros formavimas ......................................................... 65
(cid:7)
5.4. Išvados ................................................................................................................................. 70
6. SINTAKS S TAISYKLI UŽRAŠYMAS BNF ................................................................................... 71
(cid:0) (cid:5)
6.1. Grafo virš n s ..................................................................................................................... 73
(cid:7) (cid:3)
6.1.1. Veiksnio aprašas ........................................................................................................ 74
6.1.2. Tarinio aprašas ........................................................................................................... 76
6.1.3. Pažyminio aprašas ..................................................................................................... 81
6.1.4. Papildinio aprašas ...................................................................................................... 88
6.1.5. Aplinkyb s aprašas .................................................................................................... 92
(cid:3)
6.2. Grafo lankai ......................................................................................................................... 95
6.2.1. Laisvos žodži tvarkos vertinimas .......................................................................... 99
(cid:2) (cid:9)
6.2.2. Intarpo vaidmuo formalioje gramatikoje ................................................................ 100
6.2.3. Dalinis morfologinio daugiareikšmiškumo panaikinimas ..................................... 102
6.3. Išvados ............................................................................................................................... 105
7. SINTAKSIN S ANALIZ S METODIKA ............................................................................................ 106
(cid:0) (cid:0)
8. SINTAKSIN S ANALIZ S ALGORITMAS ...................................................................................... 108
(cid:0) (cid:0)
8.1. Algoritmo blokin schema ................................................................................................ 109
(cid:3)
8.2. Morfologin analiz .......................................................................................................... 111
(cid:3) (cid:3)
8.3. Sakinio dali nustatymas naudojantis BNF aprašu ......................................................... 112
(cid:2)
8.4. Sakinio strukt ros grafinio vaizdo formavimas ekrane................................................... 113
(cid:7)
9. SINTAKSIN S ANALIZ S ALGORITMO PROGRAMIN RANGA ........................................... 115
(cid:0) (cid:0) (cid:0) (cid:1)
5
10. EKSPERIMENTIN DALIS ................................................................................................................ 129
(cid:0)
10.1. Test tipai ........................................................................................................................ 130
(cid:1)
10.2. Gauti rezultatai ................................................................................................................ 131
10.3 Išvados .............................................................................................................................. 136
11. SINTAKSIN S ANALIZ S TAIKYMAS ......................................................................................... 137
(cid:0) (cid:0)
12. BENDROSIOS IŠVADOS ................................................................................................................... 138
LITERAT ROS S RAŠAS ....................................................................................................................... 139
(cid:2) (cid:3)
PRIEDAS A .................................................................................................................................................. 142
PRIEDAS B .................................................................................................................................................. 157
PRIEDAS C .................................................................................................................................................. 160
PRIEDAS D .................................................................................................................................................. 168
6
Sutrumpinimai
Sutrumpinimas Sutrumpinimo iššifravimas Vertimas lietuvi kalb
(cid:0) (cid:1) (cid:2)
ADJ adjective (b dvardis)
(cid:3)
Automatic Language Processing automatinio kalbos apdorojimo
ALPAC
Advisory Committee konsultacinis komitetas
APLINKYB aplinkyb
(cid:4)
ART article artikelis
AUX auxiliary pagalbinis
BENDR bendratis
BENDRAT bendratis
BEVG bevard gimin
(cid:4) (cid:4)
BNF Bekaus ir Nauro forma
BS bazin strukt ra
(cid:4) (cid:3)
B DV b dvardis
(cid:5) (cid:3)
DAIKT daiktavardis
DALYV dalyvis
DERIN derinamasis
DET determiner apibr žiantis žodis
(cid:4)
DF daiktavardin fraz
(cid:4) (cid:4)
DGS daugiskaita
DLL dynamic link library dinamini sait biblioteka
(cid:1) (cid:1)
DUG dependency unification grammar unifikuota priklausomybi gramatika
(cid:1)
GAL galininkas
Groupe d’Etudes pour la Traduction
GETA automatinio vertimo tyrim grup
Automatique (cid:1) (cid:4)
(cid:6) NAG nagininkas
(cid:0)
(cid:6) VARD vardis
(cid:0)
JUNGT jungtis
KILM kilmininkas
KPI Kauno politechnikos institutas
MODALV modalinis veiksmažodis
MOTG moteriškoji gimin
(cid:4)
NAUD naudininkas
NEDERIN nederinamasis
NP noun phrase daiktavardin fraz
(cid:4) (cid:4)
PAPILD papildinys
PAŽYM pažyminys
PF prielinksnin fraz
(cid:4) (cid:4)
PP prepositional phrase prielinksnin fraz
(cid:4) (cid:4)
PRIEV prieveiksmis
SKAITV skaitvardis
SUSY Saarbrücken ÜbersetzungsSYstem Zarbriukeno vertimo sistema
TARIN tarinys
Traduction Automatique de l’Université Monrealio universiteto automatinis
TAUM
de Montréal vertimas
UNL Universal Networking Language universali tinklo kalba
VARD vardininkas
VEIKSM veiksmažodis
VEIKSN veiksnys
7
Sutrumpinimas Sutrumpinimo iššifravimas Vertimas lietuvi kalb
(cid:0) (cid:1) (cid:2)
VF veiksmažodin fraz
(cid:3) (cid:3)
VIET vietininkas
VYRG vyriškoji gimin
(cid:3)
VNS vienaskaita
VP verb phrase veiksmažodin fraz
(cid:3) (cid:3)
Testams naudot sakini nuorodos
(cid:4) (cid:4)
Sutrumpinimas Nuoroda
V.Z. Vanda Zaborskait . Literat ros mokslo vadas. Vilnius: mokslas, 1982.
(cid:5) (cid:6) (cid:7)
V.P. P. Vingis. Vilniaus padavimai. Vilnius: mintis, 1991.
L.J. Leonidas Jacinevi ius. Seni miesto medžiai. Vilnius: Vaga, 1983.
(cid:8)
S.K. Saulius Kanišauskas. Kur j s, ateiviai iš kosmoso. Vilnius: Mokslas, 1988.
(cid:6)
J.R. Jonas Remeika. Lietuvos praeities vaizdai. Kaunas: Spaudos fondas, 1990.
V.Ž. Vytaut Žilinskait . Vaiduokliai. Vilnius: Vaga, 1991.
(cid:5) (cid:5)
V.S.G. Vytautas Sirijos Gira. Kai neliepsnojo tik vanduo. Vilnius:Vaga, 1980.
J.P. Juozas Pož ra. Šalnos. Vilnius: Vaga, 1980.
(cid:5)
A.P.3. Aviacijos pasaulis, Nr. 3; 2006.
A.P.5. Aviacijos pasaulis, Nr. 5; 2006.
N. Namai, Nr. 1; 2002.
M.G. Nr. 12 Mokslas ir gyvenimas, Nr. 12; 1988.
M.G. Nr. 7-8 Mokslas ir gyvenimas, Nr. 7-8; 2005.
U.P. Už ir prieš, Nr. 2; 1990.
M.S. M s sodai, Nr. 6-7; 1991.
(cid:9) (cid:10)
V.N. Vakarin s naujienos, 1999.05.04
(cid:11)
B.K.13 Baltijos kelias, 2005.07.10.
B.K.19 Baltijos kelias, 2005.10.02.
Vil.Ž. 14 Vilniaus žinios, 2006.04.14.
Vil.Ž. 24 Vilniaus žinios, 2006.09.08.
R. Respublika, 2006.08.01.
15min. 136 15min, 2006.09.05.
15min. 130 15min, 2006.08.28.
15min. 187 15min, 2006.11.16
8
0. PRATARM
(cid:0)
Tyrim objektas
(cid:1)
Darbe nagrin jamas automatinio vertimo sistem pirmasis etapas – sakinio analiz . Ji
(cid:2) (cid:3) (cid:2)
susideda iš trij fazi : morfologin s, sintaksin s ir semantin s. Morfologin analiz lietuvi
(cid:3) (cid:3) (cid:2) (cid:2) (cid:2) (cid:2) (cid:2) (cid:3)
kalbai jau yra sukurta. Tod l šiame darbe visas d mesys skiriamas antrai fazei – sintaksinei
(cid:2) (cid:2)
lietuvi kalbos sakini analizei. Tyrin jamos galimyb s sakinio sintaksin strukt r sudaryti
(cid:3) (cid:3) (cid:2) (cid:2) (cid:4) (cid:5) (cid:6)
kompiuteriu.
Temos aktualumas
Daugeliui pasaulio kalb jau yra sukurtos automatinio vertimo sistemos, t.y. tekstus iš
(cid:3)
vienos kalbos kit ver ia kompiuteriai. Lietuvi kalba tokios sistemos kol kas dar neturi, ir
(cid:7) (cid:6) (cid:8) (cid:3)
pagrindin šio atsilikimo priežastis turb t b t ta, kad lietuvi kalba n ra pakankamai
(cid:2) (cid:5) (cid:5) (cid:3) (cid:3) (cid:2)
formalizuota bei paruošta kompiuteriniam apdorojimui.
Pastaruoju metu, nepaprastai spar iai did jant pasaulyje informacijos kiekiui, žmon s
(cid:8) (cid:2) (cid:2)
nebepaj gia išversti vis reikaling tekst . Tod l labai svarbu š žmogaus darb automatizuoti.
(cid:2) (cid:3) (cid:3) (cid:3) (cid:2) (cid:7) (cid:6)
Taigi, ir lietuvi kalbai b tina sukurti automatinio vertimo sistem . Tik tina, kad ateityje visa
(cid:3) (cid:5) (cid:6) (cid:2)
informacija tarp vairi taut kalb bus perduodama kompiuteriais. Netur dami priemoni tokiam
(cid:7) (cid:3) (cid:3) (cid:3) (cid:2) (cid:3)
pasikeitimui duomenimis, galime likti izoliuoti nuo pasaulio informaciniu poži riu.
(cid:5)
Naujausiose automatinio vertimo sistemose darbas susideda iš trij etap : analiz s,
(cid:3) (cid:3) (cid:2)
keitimo ir sintez s. Atliekant analiz , ver iamas tekstas gauna formalizuot pavidal . Keitimo
(cid:2) (cid:4) (cid:8) (cid:7) (cid:6) (cid:6)
etape jis transformuojamas analogišk kitos kalbos pavidal , iš kurio sintez s metu
(cid:7) (cid:6) (cid:6) (cid:2)
generuojamas išverstas tekstas. Sintez yra atvirkš ias procesas analizei ir turi tas pa ias dalis, tik
(cid:2) (cid:8) (cid:8)
išsid s iusias atvirkš ia tvarka: morfologin , sintaksin ir semantin . Lietuvi kalbos
(cid:2) (cid:8) (cid:8) (cid:4) (cid:4) (cid:4) (cid:3)
morfologin analiz bei sintez gali atlikti Vytauto Zinkevi iaus sukurta lemavimo programin
(cid:4) (cid:4) (cid:4) (cid:8) (cid:2)
ranga. Sintaksin analiz lietuvi kalbai kol kas dar n ra paruošta ir šio darbo tikslas b t
(cid:7) (cid:2) (cid:2) (cid:3) (cid:2) (cid:5) (cid:3)
užpildyti t sprag .
(cid:6) (cid:6)
Formalizuot pavidal keitimas tarp kalb vyksta dviem lygmenimis: leksiniu ir
(cid:3) (cid:3) (cid:3)
sintaksiniu. Leksiniame lygmenyje vienos kalbos žodžiai kei iami kitos kalbos žodžiais, o
(cid:8)
sintaksiniame lygmenyje kei iamos sakini sintaksin s strukt ros. Skirtingose kalbose to paties
(cid:8) (cid:3) (cid:2) (cid:5)
sakinio strukt ros kartais b na nevienodos, pvz., sakinyje He likes this book žodis he yra
(cid:5) (cid:5)
veiksnys, o žodis book – papildinys. Lietuviškame šio sakinio vertime Jam patinka ši knyga žodis
jam jau atlieka papildinio funkcij , o žodis knyga yra veiksnys.
(cid:6)
Ta iau, norint atlikti vienos kalbos sintaksin s strukt ros pakeitim kitos kalbos
(cid:8) (cid:2) (cid:5) (cid:6)
sintaksine strukt ra, vis pirma reikia t strukt r tur ti kompiuteryje. Tai reiškia, kad reikia
(cid:5) (cid:3) (cid:6) (cid:5) (cid:6) (cid:2)
tur ti formalizuot sintaks , nes kompiuteris negali pats pasiskaityti lituanist išleist knyg šia
(cid:2) (cid:6) (cid:4) (cid:3) (cid:3) (cid:3)
tema ir iš ten pasiimti informacijos apie sakinio dalis. Tai jam turi b ti pateikta formalizuotai.
(cid:5)
Taigi, toks ir b t šio darbo tikslas: pasakyti kompiuteriui jam suprantama kalba, kaip
(cid:5) (cid:3)
nustatomos sakinio dalys.
Darbo tikslas
Sukurti sistem , kuri gal t atlikti lietuvi kalbos vientisini sakini automatin
(cid:6) (cid:2) (cid:3) (cid:3) (cid:3) (cid:3) (cid:4)
sintaksin analiz , t.y. paruošti metodik bei jos programin realizacij vientisinio sakinio
(cid:4) (cid:4) (cid:6) (cid:4) (cid:6)
sintaksinei strukt rai sudaryti kompiuteriu.
(cid:5)
9
Uždaviniai
1. Išanalizuoti jau sukurtas pasaulyje sintaksin s analiz s sistemas ir išsiaiškinti j
(cid:0) (cid:0) (cid:1)
pritaikymo galimybes lietuvi kalbai.
(cid:1)
2. Išryškinti specifines lietuvi kalbos savybes ir paruošti metodik lietuvi kalbos
(cid:1) (cid:2) (cid:1)
sakini automatinei sintaksinei analizei atlikti.
(cid:1)
3. Sukurti formali gramatik lietuvi kalbos sintaksei aprašyti, pateikiant j BNF
(cid:2) (cid:2) (cid:1) (cid:2)
(Bekaus ir Nauro forma).
4. Sudaryti algoritm bei parengti programin rang , nustatan i žodži sintaksines
(cid:2) (cid:3) (cid:4) (cid:2) (cid:5) (cid:2) (cid:1)
funkcijas lietuvi kalbos vientisiniame sakinyje.
(cid:1)
5. Pasinaudojant informacija apie žodži sintaksines funkcijas, sudaryti lietuvi kalbos
(cid:1) (cid:1)
vientisinio sakinio sintaksin s strukt ros grafin vaizd kompiuterio ekrane.
(cid:0) (cid:6) (cid:4) (cid:2)
6. Sukurtos sistemos darb išbandyti su rinkiniu sakini .
(cid:2) (cid:1)
Tyrimo metodai
Teorini tyrim metu naudojamos kompiuterin s lingvistikos, automatinio vertimo bei
(cid:1) (cid:1) (cid:0)
sintaksin s analiz s, lituanistikos, programavimo kalb teorijos ir programavimo žinios bei
(cid:0) (cid:0) (cid:1)
metodai.
Eksperimentini tyrim metu buvo naudojamasi lietuvi kalbos morfologin s analiz s
(cid:1) (cid:1) (cid:1) (cid:0) (cid:0)
sistema, kuri suk r Vytautas Zinkevi ius; Visual Basic’6 programavimo kalba; lietuvi kalbos
(cid:2) (cid:6) (cid:0) (cid:5) (cid:1)
tekstynu.
Mokslinis naujumas
Pirm kart sakinio sintaksinei strukt rai pavaizduoti naudojamas grafas. Užsienio kalb
(cid:2) (cid:2) (cid:6) (cid:1)
automatinio vertimo sistemose šios strukt ros vaizduojamos medžiu. Darbe parodoma, kad,
(cid:6)
naudojant med lietuvi kalbai, prarandama informacija, nes medis iš principo negali atspind ti
(cid:4) (cid:1) (cid:0)
vis sintaksini ryši , esan i lietuviškame sakinyje.
(cid:1) (cid:1) (cid:1) (cid:5) (cid:1)
Sudaryta apibendrinta lietuvi kalbos sakini sintaksin strukt ra, apimanti bet kok
(cid:1) (cid:1) (cid:0) (cid:6) (cid:4)
vientisin sakin , t.y. apibr žianti visus leistinus lietuvi kalbos vientisinio sakinio atvejus.
(cid:4) (cid:4) (cid:0) (cid:1)
Analogiškos strukt ros kit taut kalboms literat roje nepateikiamos.
(cid:6) (cid:1) (cid:1) (cid:6)
Atsižvelgiant didel lietuvi kalbos kaitomum , sistemos darbui pagerinti žodži
(cid:4) (cid:4) (cid:1) (cid:2) (cid:1)
sintaksin s funkcijos diferencijuojamos pagal morfologines kategorijas. Toks atvejis n ra
(cid:0) (cid:0)
žinomas n vienoje iš jau sukurt automatinio vertimo sistem . Net rus kalbos sintaksin analiz
(cid:0) (cid:1) (cid:1) (cid:1) (cid:0) (cid:0)
neskaido sakinio dali pagal morfologinius požymius, nors rus kalba savo kaitomumo laipsniu
(cid:1) (cid:1)
yra gana artima lietuvi kalbai. Visos iki šiol sukurtos sistemos sintaksin s analiz s rezultatus
(cid:1) (cid:0) (cid:0)
bando pagerinti pasitelkdamos semantin (žodžio reikšm s) informacij . Morfologini duomen
(cid:3) (cid:0) (cid:2) (cid:1) (cid:1)
apie žod šiam tikslui nenaudoja niekas.
(cid:4)
vertinant kit specifin lietuvi kalbos bruož – laisv žodži tvark sakinyje, vedamas
(cid:7) (cid:2) (cid:4) (cid:1) (cid:2) (cid:2) (cid:1) (cid:2) (cid:4)
formalus parametras GIJA, kuris fiksuoja ryšius tarp žodži , nurodydamas j tarpusavio pad t .
(cid:1) (cid:1) (cid:0) (cid:4)
Gijos aprašas BNF susideda iš trij dali : pirmoje ir tre ioje pozicijoje nurodomi žodžiai (tiksliau
(cid:1) (cid:1) (cid:5)
sakinio dalys), tarp kuri ieškomas sintaksinis ryšys, o viduryje parašomas neterminalinis
(cid:1)
simbolis INTARPAS, kuris atspindi informacij apie tai, kas gali b ti siterp tarp Gijos žodži .
(cid:2) (cid:6) (cid:4) (cid:3) (cid:1)
Tokiu principu žodži tvarka neapdorojama n vienoje iš jau sukurt automatinio vertimo
(cid:1) (cid:0) (cid:1)
sistem .
(cid:1)
10
Description:Pateikiamas apibendrintos lietuvių kalbos sakinio struktūros grafas, kuris apima bet kokį vientisinį lietuvių kalbos sakinį. Kiekvienas konkretus sakinys