Komputery a język naturalny
Niemal od początku istnienia komputerów
rozważano również takie ich zastosowania, które wiązały się z językiem
naturalnym; z czasem prace te stawały się coraz bardziej intensywne i konkretne.
Obecnie daje się w nich wyróżnić cztery główne nurty. Pierwszy z. nich wywodzi
się z mechanizacji obliczeń wykonywanych ręcznie na potrzeby badań
filologicznych. Za jego reprezentanta można uznać Stowarzyszenie Obliczeń
Literackich i Lingwistycznych (ALLC), jego imprezy i wydawnictwa (m.in.
kwartalnik Literary and Linguistic Computing). Drugi nurt zapoczątkowały
wczesne próby maszy nowego tłumaczenia; choć zakończone
niepowodzeniem, doprowadziły do sformułowania wielu problemów badawczych i zadań
cząstkowych, które później ewoluowały już w sposób niezależny od pierwotnej
motywacji. Nurt ten jest reprezentowany przez odbywające się co dwa lata
konferencje COLING i Stowarzyszenie Lingwistyki Obliczeniowej (ACL) z jego
wydawnictwami (w szczególności kwartalnikiem noszącym obecnie tytuł
Computational Linguistic) i wieloma imprezami. Trzeci nurt, obecnie
bardzo modny, to sztuczna inteligencja; jest on bardzo niejednorodny, ale z
interesującego nas punktu widzenia charakteryzuje się głównie
traktowaniem jeżyka naturalnego jako jednego z wielu aspektów aktywności
intelektualnej człowieka, którą usiłuje się opisywać w sposób całościowy —
niestety, odbywa się to przeważnie kosztem weryfikalności formułowanych hipotez.
Imprezy i wydawnictwa z tej dziedziny są bardzo liczne, ale najlepszą renomą
cieszą się konferencje IJCAI (International Joint Conference on Artificial
Intelligence), odbywające się na przemian z konferencjami COLING, i kwartalnik
Artificial Intelligence. Czwarty nurt, który dopiero ostatnio nabrał
dużego znaczenia, grupuje różnorodne prace o czysto utylitarnym przeznaczeniu;
chodzi tu np. o wykorzystanie komputera do redagowania tekstów, wykrywania w
nich błędów ortograficznych i stylistycznych, generowania jako tako zrozumiałej
mowy, rozpoznawania izolowanych słów języka mówionego itd. Granice między
obliczeniami lingwistycznymi, lingwistyką obliczeniową, sztuczną inteligencją i
różnymi formami utylitarnego przetwarzania tekstów są płynne i ulegają zmianom,
dlatego, osobiście wolę używać wprowadzonego przez siebie terminu lingwistyka
informatyczna, zdefiniowanego jako badanie języka naturalnego z punktu
widzenia potrzeb i możliwości automatycznego przetwarzania
tekstów.
Poniżej podam kilka przykładów prac
prowadzonych dla języka polskiego, ilustrujących różne aspekty wykorzystania
komputerów. Zacznę od komputerowego składania tekstów, które dla lingwistów i
filologów ma podwójne znaczenie. Z jednej strony większość wyników w tych
dziedzinach ma postać publikacji, z drugiej strony — teksty dostępne na
komputerowym nośniku informacji mogą stanowić cenny materiał do badań. W roku
1987 został przygotowany do reprodukcji --w całości za pomocą komputera --
prawie 400-stronicowy tom [8], co - - ukazując zalety tej metody - - uświadomiło
kłopoty organizacyjne i techniczne pojawiające się przy większej skali tego typu
przedsięwzięć. Typowym narzędziem pracy filologa, a niekiedy i lingwisty, są
konkor-dancje (w informatyce lepiej znane jako Key Words-In-Contexts) i różnego
rodzaju indeksy. Cennym doświadczeniem było więc wykonanie konkordancji na
potrzeby działającej na UW Pracowni Słownika Języka C. K. Norwida, chociaż
napotkane trudności sprawiły, że otrzymane wyniki nie mają charakteru końcowego
[6]. Dla sporządzania konkordancji i wielu innych prac istotnym zagadnieniem
jest analiza i synteza morfologiczna, tj. przejście od konkretnego napisu (np.
kaszy, straszy) do jego własności morfologicznych (np. dopełniacz liczby
pojedynczej rzeczownika KASZA, trzecia osoba czasu teraźniejszego
czasownika STRASZYĆ) i odwrotnie. Stan techniki obliczeniowej pozwala na
rozwiązanie tego problemu — przynajmniej w pierwszym przybliżeniu — za pomocą
odpowiedniej bazy danych, co wymaga jednak ujęcia polskiej morfologii w
odpowiedni schemat pojęciowy; jeden z etapów pracy nad tym
zagadnieniem opisano w artykule [3]. Dużą pomocą jest tutaj m.in. dysponowanie
obszernym i ścisłym opisem składniowym, zapoczątkowanym pracami Szpakowicza [9];
założenia tego opisu — sformułowane przez Saloniego — w aktualnej postaci są
dostępne w podręczniku [7]. Dzięki wykorzystaniu w opisie gramatyk
metamorficznych [4] było możliwe testowanie jego fragmentów za pomocą komputera
na kilkuset przykładach poprawnych i niepoprawnych zdań polskich [1]. Niestety,
semantyka języka polskiego nie daje się opisać w sposób równie systematyczny, co
wynika z faktu, że mechanizmy wielu zjawisk językowych są jeszcze całkowicie
nieznane — jeden z takich problemów opisano w pracy [2]. W związku z tym jest
konieczne bardzo drastyczne zawężenie problematyki — przykładem takiego
podejścia będą eksperymenty z Interakcyjno-Konwersacyjnym Systemów Informacji
Kolejowej [5], który charakteryzuje się uwzględnianiem — oczywiście tylko w
pewnym zakresie — wpływu kontekstu na znaczenie sformułowanej w języku polskim
kwerendy użytkownika.
Powyższe przykłady były wybrane w sposób
dość arbitralny spośród prac znanych mi bezpośrednio, wykonanych w nieformalnym
zespole skupionym wokół odbywającego się w Instytucie Informatyki Uniwersytetu
Warszawskiego seminarium doc. dra hab. Zygmunta Saloniego. Chętnie przeczytam w
Biuletynie PTI informacje o działalności innych zespołów zajmujących się
zbliżoną problematyką.
Prace cytowane
[1] Bańko M.: Analiza polskich fraz
rzeczownikowych testem adekwatności i efektywności parsera Szpakowicza. Praca
magisterska, Instytut Informatyki UW, Warszawa 1985.
[2] Bień J.S.: Articles, word order and
resource control hypothesis. In: Language and discourse: test and protest. A
festschrift for Petr Sgall. Ed. J.L. Mey. Amsterdam, J. Benjamins 1986, s.
433-454.
[3] Bień J.S., Saloni Z.: Pojęcie wyrazu
morfologicznego i jego zastosowanie do opisu fleksji polskiej (wersja wstępna).
Prace Filologiczne 1982, XXXI, s. 31-45.
[4] Kluźniak F., Szpakowicz S.:
Prolog. Warszawa, WNT 1983.
[5] Luboński P.: Natural language
interface for a Polish railway expert system. In: Natural language
understanding and logic programming. Eds. V. Dahl, P. Saint-Dizier. Amsterdam,
North-Holland 1985, s. 21-31.
[6] Miłkowska M., Puzynina J., Saloni Z.:
The concordance of „Vade-mecum" — the Polish poetic cycle by C.K. Norwid.
Literary and Linguistic Computing 1987, 2, 3 (w druku).
[7] Saloni Z., Swidziński M.: Składnia
współczesnego jeżyka polskiego. Wyd. 3. Warszawa, PWN 1987.
[8] Studia z polskiej leksykografii
współczesnej II. Red. Z. Saloni. Wydawnictwa Filii UW w Białymstoku (w
druku).
[9] Szpakowicz S.: Formalny opis
składniowy zdań polskich. Wyd. 2. Warszawa, Wydawnictwa UW
1986.
Janusz S. Bień