IIS'99

VIII Międzynarodowe Sympozjum
INTELIGENTNE SYSTEMY INFORMACYJNE
Ustroń, 14-18 czerwca 1999

Tutorial

Najnowsze kierunki w rozwoju metod regresji i klasyfikacji: Statystyczny punkt widzenia

Jacek Koronacki

Institute of Computer Science, Polish Acad. Sci.
and
Polish-Japanese Inst. of Computer Technologies
http://www.ipipan.waw.pl/~korona

Streszczenie

Rozwoj mocy obliczeniowych zmienil w ciagu ostatniego dziesieciolecia nasze podejscie do rozwiazywania problemow statystycznych. W statystycznej analizie danych, bardzo mocno zwiazanej z uczeniem maszynowym, w tym lub obok tego z odkrywaniem wiedzy, ogromnie rozwiniete zostaly metody oparte na intensywnym wykorzystaniu obliczen komputerowych. Jedna z dziedzin gdzie rozwoj ow okazal sie szczegolnie interesujacy sa metody analizy regresji i klasyfikacji.

Dobrze dzis wiadomo, ze zarowno estymatory funkcji regresji, rozwiazujace zadanie odkrywania zaleznosci funkcyjnych w obecnosci szumow znieksztalcajacych dane, jak i klasyfikatory, rozwiazujace zadanie klasyfikacji w oparciu o probe uczaca, wymagaja stabilizacji. Bez stosownej stabilizacji, otrzymywane estymatory zbyt mocno zaleza od proby uczacej i w rezultacie ich blad predykcji jest zbyt duzy.

Metodologiczne podstawy stabilizacji estymatorow fukcji regresji oraz, szerzej, stabilizacji wyboru najlepszego modelu (tzw. regularyzacji wyboru) sa juz dobrze znane, glownie dzieki pracom Breimana. Najogolniej mowiac, stabilizacja opiera sie na generacji wielu pseudoprob uczacych z proby oryginalnej, konstrukcji estymatorow na podstawie pseudoprob i nastepnie stosownej agregacji otrzymanych estymatorow. Zagadnienie to przedstawimy na przykladzie stabilizacji wyboru modelu w systemie EF (Equation Finder) Zembowicza i Zytkowa.

Idea generacji wielu pseudoprob uczacych, konstrukcji rozwiazan odpowiadajacych pseudoprobom oraz stosownej agregacji otrzymywanych rozwiazan jest jeszcze bardziej interesujaca w przypadku zadania klasyfikacji. Opracowane metody - "bagging" Breimana i, zwlaszcza, "boosting" Freunda i Schapire'a - z reguly przynosza znaczna poprawe jakosci klasyfikacji, ale wyjasnienie przyczyn ich sukcesu jest nielatwe. W drugiej czesci wykladu przedstawimy krotka ale pasjonujaca historie badan nad wymienionymi metodami oraz wspomnimy o metodologiach im pokrewnych.

W trzeciej, najkrotszej, czesci wykladu odniesiemy sie do problemu klasyfikacji, gdy zarowno licznosc proby uczacej jak i wymiarowosc wektora obserwacji jest duza. W szczegolnosci, wspomnimy o zaproponowanych przez Vapnika klasyfikatorach opartych na konstrukcji wektorow podpierajacych.

O wykladowcy:

WYKSZTALCENIE I STOPNIE NAUKOWE:

OSTATNIE LATA PRACY ZAWODOWEJ:

DZIALALNOSC DYDAKTYCZNA:

  1. Politechnika Warszawska (razem 6 semestrow),
  2. Uniwersytet Warszawski (2 sem.),
  3. Szkola Nauk Scislych (1 sem),
  4. Polsko-Japonska Wyzsza Szkola Technik Komputerowych (od poczatku roku akademickiego 1998/99),
  5. PAN-owskie Kursy Zast. Mat. (8 sem);
  6. za granica (razem 9 sem):
    • National Univ. of San Luis (Argentyna),
    • Rice Univ. (Houston),
    • Univ. of New South Wales (Sydney),
    • Ohio State Univ. (Columbus).

AKTUALNA PRACA W MIEDZYNAROD. ORGANIZACJACH NAUKOWYCH
(bez pracy w konferencyjnych komitetach programowych):

  1. Przewodniczacy Europejskiego Komitetu Regionalnego Towarzystwa im. Bernoulliego (Bernoulli Society for Mathematical Statistics and Probability)

KSIAZKI:

  1. Aproksymacja stochastyczna: Metody optymalizacji w warunkach losowych, WNT, Warszawa 1989, 220 stron
  2. wspolna z J. R. Thompsonem: Statistical Process Control for Quality Improvement, Chapman and Hall, New York - London 1993, 391 stron
    (polskie wydanie ksiazki, zmienione: Statystyczne sterowanie procesem: Metoda Deminga etapowej optymalizacji jakosci, Akademicka Oficyna Wydawnicza PLJ, Warszawa 1994, 285 stron)

IIS'99.