Nowe metody klasyfikacji dla danych z niepełną obserwowalnością

Zespół Analizy i Modelowania Statystycznego osiągnął istotne wyniki dotyczące dwóch nowych metod uczenia maszynowego dla danych z niepełną dostępnością etykiet (dane typu Positive Unlabeled) w istotnym dla zastosowań przypadku, gdy ich dostępność jest zależna od charakterystyk badanych jednostek.

Praca "Double logistic regression approach to biased positive-unlabeled data" dotyczy metod wnioskowania w problemie klasyfikacji z niepełną obserwowalnością (positive-unlabeld data), w której tylko część obserwacji z klasy pozytywnej jest etykietowana, pozostałe natomiast nie są etykietowane. Tego typu dane są często spotykane w biologii, medycynie, systemach rekomendacyjnych oraz problemie tagowania stron internetowych. W zastosowaniach szczególne znaczenie ma sytuacja rozważana w pracy, gdy etykietowanie zależy od charakterystyk obiektu. Koncepcja wykorzystuje podejście parametryczne do problemu, w którym zarówno prawdopodobieństwo aposteriori klasy dodatniej jak i funkcja skłonności do etykietowania są modelowane przy użyciu modelu logistycznego. W pracy rozstrzygnięto kwestię identyfikowalności parametrów takiego modelu, zaproponowano metodę ich estymacji oraz pokazano, że jest ona skuteczna w praktyce.

W pracy "One-class classification approach to variational learning from biased positive unlabelled data" rozważano inne podejście do tego samego problemu oparte na minimalizacji ryzyka empirycznego i nie wymagające jawnego modelowania funkcji skłonności do etykietowania. Metoda opiera się na wykorzystaniu uczenia wariacyjnych autoenkoderów w połączeniu z metodami detekcji obserwacji odstających, co pozwala wyróżnić w grupie obserwacji nietykietowanych obserwacje, które z dużym prawdopodobieństwem pochodzą z klasy dodatniej. Zaimplementowana metoda daje dużą poprawę działania wynikowych klasyfikatorów w stosunku do poprzednio zaproponowanych metod, szczególnie dla niskich prawdopodobieństw etykietowania.

Obie metody zostały przedstawione na międzynarodowej konferencji European Conference on Artificial Intelligence (ECAI) i opublikowane w jej materiałach:

K. Furmańczyk, J. Mielniczuk, W. Rejchel, P. Teisseyre (2023), Double logistic regression approach to biased positive-unlabeled data, Proceedings of the European Conference on Artificial Intelligence ECAI’23,
A. Wawrzeńczyk, J. Mielniczuk (2023), One-class classification approach to variational learning from biased positive unlabelled data, Proceedings of the European Conference on Artificial Intelligence ECAI’23.

Aktualności Instytutu Podstaw Informatyki PAN

Nowe metody klasyfikacji dla danych z niepełną obserwowalnością