|
Członkowie Zespołu
Profesorowie zagraniczni
Staż podoktorski
 |
dr Jakub Piskorski |
|
|
Tematyka badawcza
Zespół Inżynierii Lingwistycznej (ZIL) zajmuje się wieloma aspektami
automatycznego przetwarzania języka naturalnego.
Tradycyjnym obszarem zainteresowań ZIL jest głębokie przetwarzanie
języka polskiego na poziomie składniowym, z wykorzystaniem gramatyk
metamorficznych (DCG) i generatywnych formalizmów Head-driven Phrase
Structure Grammar (HPSG) i Lexical Functional Grammar (LFG). Dla
każdego z tych podejść stworzono implementację gramatyki obszernego
podzbioru języka polskiego, przy czym nadal rozwijane są podejścia DCG
i LFG.
Drugim ważnym obszarem działalności Zespołu jest szeroko rozumiana
ekstrakcja informacji: liczne prace dotyczą wydobywania informacji z
tekstów dziedzinowych, znajdowania w tekstach jednostek nazewniczych
oraz, ogólniej, powierzchniowego parsowania języka. Do nurtu tego
zaliczyć można także prace dotyczące wydobywania wiedzy lingwistycznej
- w tym ram walencyjnych - na podstawie danych korpusowych.
Nowsze prace ZIL związane są z przetwarzaniem tekstów na poziomie
semantycznym. Wymienić tu należy przede wszystkim ujednoznacznianie
sensów słów, znajdowanie nawiązań w tekstach (ang. Coreference
Resolution) i analizę wydźwięku (ang. Sentiment Analysis). Pewne
elementy przetwarzania semantycznego zawarte są także w rozwijanym
obecnie parserze LFG. Bardziej aplikacyjne prace związane z tym
nurtem dotyczą automatycznego streszczania i tematycznej kategoryzacji
dokumentów.
Zespół prowadzi także intensywne prace korpusowe. Pod kierunkiem ZIL
powstał liczący 1,5 miliarda słów Narodowy Korpus Języka Polskiego
(NKJP; oparty m.in. na wcześniejszym Korpusie IPI PAN), stworzone
zostały także liczne narzędzia do ręcznego i automatycznego znakowania
korpusów na wielu poziomach lingwistycznych, schemat anotacji XML oraz
ręcznie znakowany podkorpus wielkości 1 miliona słów. Na bazie NKJP
tworzony jest obecnie bank drzew składniowych Składnica, którego
wstępne wersje zostały wykorzystane do wytrenowania parsera
zależnościowego dla języka polskiego.
Narzędzia tworzone w Zespole są publicznie dostępne na licencjach
swobodnych (ang. Open Source). Wśród nich wymienić należy: tagery
morfosyntaktyczne, parser powierzchniowy Spejd, parser głęboki Świgra,
narzędzie do rozpoznawania jednostek nazewniczych Nerf, system
ujednoznaczniania sensów słów WSDDE, narzędzia korpusowe Poliqarp i
Anotatornia itp. W ZIL trwają także prace nad stworzeniem - m.in. na
potrzeby głębokiego przetwarzania składniowego - otwartego słownika
morfologicznego PoliMorf, opartego na wcześniejszych słownikach tego
typu. Narzędzia te są wykorzystywane w aplikacjach współtworzonych
przez ZIL, m.in. w wielojęzycznym systemie zarządzania treścią.
ZIL aktywnie uczestniczy w licznych projektach krajowych i
międzynarodowych. Więcej informacji znaleźć można na stronie Zespołu:
http://zil.ipipan.waw.pl/.
|
|
 |
 |