IIS'99

VIII Międzynarodowe Sympozjum
INTELIGENTNE SYSTEMY INFORMACYJNE
Ustroń, 14-18 czerwca 1999

Tutorial

Automatyzacja odkryc w bazach danych: kombinacja sztucznej inteligencji, statystyki i teorii wiedzy

Jan Zytkow

Univ. of North Carolina, Charlotte and IPI PAN
http://www.cs.uncc.edu/faculty/zytkow.html

Streszczenie

Z perspektywy odkrywcy bazy danych moga byc "duze" na wiele sposobow. Baza danych moze zawierac wiele tablic, wiele atrybutow, duza ilosc wartosci dla poszczegolnych atrybutow, duza ilosc rekordow przypadajacych an tablice. Przeanalizujemy wplyw kazdego z tych czynnikow zlozonosci danych na proces poszukiwania wiedzy. Przedstawimy tez wplyw jaki na proces odkrycia wywiera potencjalna roznorodnosc form wiedzy, ktore mozna wydobyc z danych oraz zwiazana z tym zlozonosc przestrzeni hipotez rozwazanych w KDD (Knowledge Discovery in Databases).

Jako motywacje dla automatyzacji i integracji procesu odkrycia przedstawimy klopoty z uzyciem jednostronnych narzedzi do maszynowego uczenia sie i odkrywania, ktorych wizja wiedzy jest ograniczona do drzew decyzyjnych lub zbiorow regul, badz rownan, czy sieci Bayesowskich. Przeanalizujemy zalety i ograniczenia roznych form wiedzy. Kazda z form wiedzy przedstawimy z punktu widzenia zakresu zastosowan i funkcji takich jak przewidywanie, wyjasnianie i modelowanie rzeczywistosci wykraczajacej poza dane.

Jednostronne narzedzia nie zauwazaja wiedzy, ktora wykracza poza ich przestrzenie hipotez. Rzadko rozwazaja tez, czy najlepsza hipoteza w zakresie ich zastosowan jest na tyle dobra, ze moze byc zaakceptowana, czy tez inne formy wiedzy sa bardziej odpowiednie dla okreslonych danych.

Po umotywowaniu potrzeby automatyzacji i integracji technik odkryc, w centralnej czesci tutorialu skoncentrujemy sie na technicznych rozwiazaniach pochodzacych z szeregu dziedzin: sztucznej inteligencji, automatyzacji odkryc naukowych, statystyki i logicznej teorii wiedzy. Przedstawimy uzyteczne techniki integracji pochodzace z kazdej z tych dziedzin a takze techniki specyficzne dla KDD. Jednym z problemow jest ewaluacja duzej liczby roznorodnych hipotez w konfrontacji z roznych rozmiarow danymi. W szczegolnosci, przeanalizujemy statystyczna istotnosc i overfit, rozpoczynajac od prostych sytuacji i przechodzac do wplywu wielkiej liczby danych i wielkich przestrzeni hipotez. Zaprezentujemy sposoby, w ktore statystyczne zalozenia robione przy analizie danych moga byc weryfikowane w konfrontacji z danymi i z generowana wiedza. Przeanalizujemy tez metody kombinowania ewaluacji statystycznej z ewaluacja pochodzaca z innych paradygmatow, takich jak uczenie sie maszynowe i metodologia nauki.

Innym waznym problemem jest konstrukcja procesu poszukiwania. Poszukiwanie musi dac sie dopasowac do roznorodnych dziedzin, z ktorych pochodza dane, oczekiwan uzytkownikow, rozmiarow danych i srodkow obliczeniowych. Jednoczesnie musi ono byc na tyle proste, ze wlasnosci poszukiwania sa zrozumiale, a poszukiwanie moze byc latwo modyfikowane i ulepszane.

Na zakonczenie przedstawimy szereg architektur do automatyzacji i integracji odkrycia. Analiza konkretnych przykladow zademonstruje zalety zintegrowanego procesu odkryc.


O wykladowcy:

Jan Zytkow otrzymal doktorat na Uniwersytecie Warszawskim w dziedzinie filozofii nauki w 1972 roku a habilitacje w 1979. Do roku 1982 pracowal na Uniwersytecie Warszawskim, prowadzac badania naukowe i wyklady w dziedzinie logiki, metodologii nauki i filozofii. W roku 1980-81 byl wice-dyrektorem Instytutu Filozofii. W latach 1982-4 pracowal jako Visiting Professor na uniwersytecie Carnegie-Mellon w dziedzinie odkryc maszynowych, wspolpracujac z Herbertem Simonem i Patem Langley'em. W 1984 rozpoczal prace w Wichita State University jako profesor Computer Science (a jako Chair od 1996). Kontynuowal badania nad odkryciami, a dodatkowo nad autonomicznym podejmowaniem decyzji i uczeniem sie przez automatycznego pilota oraz wizja komputerowa. Zbudowal laboratorium do badan nad odkryciami, w ktorym systemy komputerowe w polaczeniu z robotami dokonuja eksperymentow w dziedzinie chemii, fizyki i eksploracji otoczenia. Inne rezultaty to systemy do odkryc ukrytej struktury, odkryc w bazach danych, czy w dziedzinie geometrii. Od roku 1997 jest profesorem w computer science na University of North Carolina w Charlotte, dokad przeniosl swoje laboratorium.

Jest autorem ponad 160 prac, wspolautorem ksiazki "Scientific Discovery: Computational Explorations of the Creative Processes" wydanej przez MIT Press, edytorem wielu ksiazek, proceedings i specjalnych numerow pism naukowych. Dzialal jako program chair lub czlonek komitetow programowych kilkudziesieciu konferencji, jako czlonek rady naukowek kilku pism i zaproszony byl na wiele wykladow na konferencjach i innych zgromadzeniach. Odwiedzal jako visiting professor, na okres od kilku tygodni do dwoch lat, wiele uczelni (Carnegie-Mellon (jesien 1992), George Mason University (1988-1990), Uniwersytet Humboldta (Berlin), Uniwersytet Moskiewski, University of Salzburg (Austria), London School of Economics, i Inter-University Center (Dubrovnik, Jugoslawia).


IIS'99.