25.03.2024 - Seminarium "Przetwarzania Języka Naturalnego" - Instytut Podstaw Informatyki Polskiej Akademii Nauk

25.03.2024 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Piotr Przybyła ((Uniwersytet Pompeu Fabry i Instytut Podstaw Informatyki PAN))

Odnośnik do spotkania w MS Teams (nowe okno)

+ - Czy klasyfikatory wiarygodności tekstu są odporne na działania antagonistyczne? Click to collapse

Streszczenie (autorskie):

Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024.

Seminaria w Instytucie Podstaw Informatyki PAN

Seminarium Instytutowe (Poniedziałki, o godz 12:00)

Inne seminaria:

Najbliższe seminaria:

25.03.2024 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Piotr Przybyła ((Uniwersytet Pompeu Fabry i Instytut Podstaw Informatyki PAN))