Automatyczne wyznaczanie zależności pomiędzy atrybutami (zwanymi również cechami, wymiarami, zmiennymi, kolumnami, etc.) stanowi ważną część wielu podejść z zakresu systemów uczących się, czy też odkrywania wiedzy z danych. Przejrzysta reprezentacja zależności pozwala użytkownikom na zrozumienie danych bez wnikania w szczegóły, na przykład, definicji funkcji stosowanych przy obliczaniu stopni spełniania zależności, czy też sposobów analitycznego wyrażania kryteriów praktycznej przydatności zależności. Z drugiej strony, matematyczne podstawy używanych funkcji i kryteriów pozostają rzecz jasna kluczowe dla oceny poprawności, jakości i stosowalności wyników algorytmów poszukujących (sub-)optymalnych reprezentacji zależności w oparciu o dostępne dane.
Referat obejmuje przykładowe metody reprezentacji i wyznaczania zależności pomiędzy atrybutami, w szczególności:
- znajdowanie reprezentatywnych kolekcji przybliżonych zależności funkcyjnych pomiędzy zbiorami atrybutów, a także
- teoretyczne podstawy dla sieci Bayesowskich reprezentujących występujące w danych warunkowe niezależności pomiędzy zbiorami atrybutów.
W pierwszym powyższym przypadku podamy teoretyczne wyniki dotyczące złożoności problemów znajdowania optymalnych zależności przybliżonych, algorytmiczne metody ich wyznaczania, a także zastosowania w budowie klasyfikatorów i selekcji atrybutów podczas odkrywania wiedzy z danych. W drugim przypadku uogólnimy dotychczasowe twierdzenia o reprezentacji warunkowych niezależności w języku skierowanych grafów acyklicznych na potrzeby szerszej klasy funkcji modelujących stopnie warunkowych niezależności pomiędzy atrybutami. Ponadto, przeprowadzimy dyskusję o możliwości hybrydyzacji różnych podejść do reprezentacji zależności i niezależności atrybutów, a także zaproponujemy możliwie ogólne i spójne podstawy dla funkcji stosowanych przy obliczaniu stopni spełniania różnych rodzajów zależności i niezależności w danych.
|