PTI

Komputery a język naturalny

Niemal od początku istnienia komputerów rozważano również takie ich zastosowania, które wiązały się z językiem naturalnym; z czasem prace te stawały się coraz bardziej intensywne i konkretne. Obecnie daje się w nich wyróżnić cztery główne nurty. Pierwszy z. nich wywodzi się z mechanizacji obliczeń wykonywanych ręcznie na potrzeby badań filologicznych. Za jego reprezentanta można uznać Stowarzyszenie Obliczeń Literackich i Lingwistycznych (ALLC), jego imprezy i wydawnictwa (m.in. kwartalnik Literary and Linguistic Computing). Drugi nurt zapoczątkowały wczesne próby maszy nowego tłumaczenia; choć zakończone niepowodzeniem, doprowadziły do sformułowania wielu problemów badawczych i zadań cząstkowych, które później ewoluowały już w sposób niezależny od pierwotnej motywacji. Nurt ten jest reprezentowany przez odbywające się co dwa lata konferencje COLING i Stowarzyszenie Lingwistyki Obliczeniowej (ACL) z jego wydawnictwami (w szczególności kwartalnikiem noszącym obecnie tytuł Computational Linguistic) i wieloma imprezami. Trzeci nurt, obecnie bardzo modny, to sztuczna inteligencja; jest on bardzo niejednorodny, ale z interesującego nas punktu widzenia charakteryzuje się głównie traktowaniem jeżyka naturalnego jako jednego z wielu aspektów aktywności intelektualnej człowieka, którą usiłuje się opisywać w sposób całościowy — niestety, odbywa się to przeważnie kosztem weryfikalności formułowanych hipotez. Imprezy i wydawnictwa z tej dziedziny są bardzo liczne, ale najlepszą renomą cieszą się konferencje IJCAI (International Joint Conference on Artificial Intelligence), odbywające się na przemian z konferencjami COLING, i kwartalnik Artificial Intelligence. Czwarty nurt, który dopiero ostatnio nabrał dużego znaczenia, grupuje różnorodne prace o czysto utylitarnym przeznaczeniu; chodzi tu np. o wykorzystanie komputera do redagowania tekstów, wykrywania w nich błędów ortograficznych i stylistycznych, generowania jako tako zrozumiałej mowy, rozpoznawania izolowanych słów języka mówionego itd. Granice między obliczeniami lingwistycznymi, lingwistyką obliczeniową, sztuczną inteligencją i różnymi formami utylitarnego przetwarzania tekstów są płynne i ulegają zmianom, dlatego, osobiście wolę używać wprowadzonego przez siebie terminu lingwistyka informatyczna, zdefiniowanego jako badanie języka naturalnego z punktu widzenia potrzeb i możliwości automatycznego przetwarzania tekstów.

Poniżej podam kilka przykładów prac prowadzonych dla języka polskiego, ilustrujących różne aspekty wykorzystania komputerów. Zacznę od komputerowego składania tekstów, które dla lingwistów i filologów ma podwójne znaczenie. Z jednej strony większość wyników w tych dziedzinach ma postać publikacji, z drugiej strony — teksty dostępne na komputerowym nośniku informacji mogą stanowić cenny materiał do badań. W roku 1987 został przygotowany do reprodukcji --w całości za pomocą komputera -- prawie 400-stronicowy tom [8], co - - ukazując zalety tej metody - - uświadomiło kłopoty organizacyjne i techniczne pojawiające się przy większej skali tego typu przedsięwzięć. Typowym narzędziem pracy filologa, a niekiedy i lingwisty, są konkor-dancje (w informatyce lepiej znane jako Key Words-In-Contexts) i różnego rodzaju indeksy. Cennym doświadczeniem było więc wykonanie konkordancji na potrzeby działającej na UW Pracowni Słownika Języka C. K. Norwida, chociaż napotkane trudności sprawiły, że otrzymane wyniki nie mają charakteru końcowego [6]. Dla sporządzania konkordancji i wielu innych prac istotnym zagadnieniem jest analiza i synteza morfologiczna, tj. przejście od konkretnego napisu (np. kaszy, straszy) do jego własności morfologicznych (np. dopełniacz liczby pojedynczej rzeczownika KASZA, trzecia osoba czasu teraźniejszego czasownika STRASZYĆ) i odwrotnie. Stan techniki obliczeniowej pozwala na rozwiązanie tego problemu — przynajmniej w pierwszym przybliżeniu — za pomocą odpowiedniej bazy danych, co wymaga jednak ujęcia polskiej morfologii w odpowiedni schemat pojęciowy; jeden z etapów pracy nad tym zagadnieniem opisano w artykule [3]. Dużą pomocą jest tutaj m.in. dysponowanie obszernym i ścisłym opisem składniowym, zapoczątkowanym pracami Szpakowicza [9]; założenia tego opisu — sformułowane przez Saloniego — w aktualnej postaci są dostępne w podręczniku [7]. Dzięki wykorzystaniu w opisie gramatyk metamorficznych [4] było możliwe testowanie jego fragmentów za pomocą komputera na kilkuset przykładach poprawnych i niepoprawnych zdań polskich [1]. Niestety, semantyka języka polskiego nie daje się opisać w sposób równie systematyczny, co wynika z faktu, że mechanizmy wielu zjawisk językowych są jeszcze całkowicie nieznane — jeden z takich problemów opisano w pracy [2]. W związku z tym jest konieczne bardzo drastyczne zawężenie problematyki — przykładem takiego podejścia będą eksperymenty z Interakcyjno-Konwersacyjnym Systemów Informacji Kolejowej [5], który charakteryzuje się uwzględnianiem — oczywiście tylko w pewnym zakresie — wpływu kontekstu na znaczenie sformułowanej w języku polskim kwerendy użytkownika.

Powyższe przykłady były wybrane w sposób dość arbitralny spośród prac znanych mi bezpośrednio, wykonanych w nieformalnym zespole skupionym wokół odbywającego się w Instytucie Informatyki Uniwersytetu Warszawskiego seminarium doc. dra hab. Zygmunta Saloniego. Chętnie przeczytam w Biuletynie PTI informacje o działalności innych zespołów zajmujących się zbliżoną problematyką.

Prace cytowane

[1] Bańko M.: Analiza polskich fraz rzeczownikowych testem adekwatności i efektywności parsera Szpakowicza. Praca magisterska, Instytut Informatyki UW, Warszawa 1985.

[2] Bień J.S.: Articles, word order and resource control hypothesis. In: Language and discourse: test and protest. A festschrift for Petr Sgall. Ed. J.L. Mey. Amsterdam, J. Benjamins 1986, s. 433-454.

[3] Bień J.S., Saloni Z.: Pojęcie wyrazu morfologicznego i jego zastosowanie do opisu fleksji polskiej (wersja wstępna). Prace Filologiczne 1982, XXXI, s. 31-45.

[4] Kluźniak F., Szpakowicz S.: Prolog. Warszawa, WNT 1983.

[5] Luboński P.: Natural language interface for a Polish railway expert system. In: Natural language understanding and logic programming. Eds. V. Dahl, P. Saint-Dizier. Amsterdam, North-Holland 1985, s. 21-31.

[6] Miłkowska M., Puzynina J., Saloni Z.: The concordance of „Vade-mecum" — the Polish poetic cycle by C.K. Norwid. Literary and Linguistic Computing 1987, 2, 3 (w druku).

[7] Saloni Z., Swidziński M.: Składnia współczesnego jeżyka polskiego. Wyd. 3. Warszawa, PWN 1987.

[8] Studia z polskiej leksykografii współczesnej II. Red. Z. Saloni. Wydawnictwa Filii UW w Białymstoku (w druku).

[9] Szpakowicz S.: Formalny opis składniowy zdań polskich. Wyd. 2. Warszawa, Wydawnictwa UW 1986.

Janusz S. Bień