• Aktualności

Aktualności Instytutu Podstaw Informatyki PAN

Zapytanie ofertowe nr EZ.26.6.2024
Prace nad rozszerzeniem narzędzia Korpusomat o moduł do wykrywania wyrażeń i relacji temporalnych w tekście w projekcie CLARIN-PL 5


Przedmiot zamówienie finansowany z projektu CLARIN 5 (Quintus),
pt. "Wniesienie wkładu własnego do europejskiej infrastruktury badawczej “CLARIN ERIC – European Research Infrastructure Consortium:
Common Language Resources and Technology Infrastructure – Wspólne Zasoby Językowe i Infrastruktura Technologiczna” na lata 2024-2026".

Czytaj więcej: Zapytanie ofertowe nr EZ.26.6.2024

28.03.2024 (czwartek) — Seminarium "Przetwarzania Języka Naturalnego" — godz. 11:00

Krzysztof Węcel (Uniwersytet Ekonomiczny w Poznaniu)

Odnośnik do spotkania w MS Teams (nowe okno)


Streszczenie (autorskie):

Prezentacja będzie skupiała się na tematyce projektu OpenFact, który jest odpowiedzią na problem fake newsów. W ramach projektu opracowujemy metody, które pozwalają na weryfikację wiarygodności informacji. W celu zapewnienia poprawności metodycznej bazujemy na procesie stosowanym przez agencje fact-checkingowe. Działania te opierają się na złożonych zbiorach danych, pozyskiwanych m.in. z ClaimReview, Common Crawl czy poprzez monitoring mediów społecznościowych i ekstrakcję stwierdzeń z tekstów. Istotne jest również ocenianie informacji pod kątem jej wartości do weryfikacji (checkworthiness) oraz wiarygodności źródeł, których reputacja może wynikać z publikacji z OpenAlex lub Crossref. Analiza stylometryczna pozwala na określenie autorstwa, a porównanie ludzkiej i maszynowej pracy otwiera nowe możliwości w wykrywaniu użycia sztucznej inteligencji. Używamy zarówno małych modeli językowych, jak i LLM uruchamianych zdalnie w różnych wariantach. Zbudowaliśmy duże zbiory stwierdzeń, które mogą służyć do weryfikacji nowych tekstów poprzez badanie podobieństwa semantycznego. Opisane są one dodatkowymi wciąż rozbudowywanymi metadanymi pozwalającymi na realizację różnych scenariuszy użycia.

Czytaj więcej: 28.03.2024 - Seminarium "Przetwarzania Języka Naturalnego"

25.03.2024 — Seminarium "Przetwarzania Języka Naturalnego" — godz. 10:15

Piotr Przybyła ((Uniwersytet Pompeu Fabry i Instytut Podstaw Informatyki PAN))

Odnośnik do spotkania w MS Teams (nowe okno)


Streszczenie (autorskie):

Automatyczne klasyfikatory tekstu wykorzystuje się szeroko do pomocy w moderowaniu platform udostępniających treści generowane przez użytkowników, szczególnie sieci społecznościowych. Mogą być one używane do odsiewania treści nieprzyjaznych, dezinformujących, manipulujących lub wprost nielegalnych. Jednak trzeba wziąć pod uwagę, że autorzy takich tekstów często mają silną motywację do ich rozpowszechniania i mogą próbować modyfikować oryginalną treść, aż znajdą takie sformułowanie, które przedostanie się przez automatyczny filtr. Takie zmodyfikowane wersje oryginalnych danych, nazywane przykładami antagonistycznymi, odgrywają kluczową rolę w badaniu odporności modeli ML na ataki zmotywowanych aktorów. Wystąpienie będzie poświęcone systematycznej analizie tego problemu w kontekście wykrywania dezinformacji. Pokażę konkretne przykłady, gdzie podmiana pozornie nieistotnych słów powoduje zmianę decyzji klasyfikatora, jak również framework BODEGA do systematycznej oceny odporności modeli, wykorzystany również w zadaniu InCrediblAE na warsztatach ewaluacyjnych CheckThat! na konferencji CLEF 2024.

Czytaj więcej: 25.03.2024 - Seminarium "Przetwarzania Języka Naturalnego"

Warsztat „Analiza danych parlamentarnych” w Sejmie RP




29 lutego 2024 r. odbył się w Sejmie RP zorganizowany przez Instytut Podstaw Informatyki PAN warsztat naukowy „Analiza danych parlamentarnych”, który stanowił podsumowanie zorganizowanego na jesieni ubiegłego roku konkursu na analizę stenogramów Sejmu i Senatu. Celem konkursu, adresowanego do studentów, doktorantów i młodych naukowców, było stworzenie oryginalnego opracowania ciekawego problemu badawczego z dowolnej dyscypliny nauki.

Korpus Dyskursu Parlamentarnego i korpus ParlaMint

Wydarzenie rozpoczęło wystąpienie prof. Macieja Ogrodniczuka z Instytutu Podstaw Informatyki PAN, który zaprezentował dwa wykorzystywane w konkursie zbiory danych parlamentarnych. Najważniejszym z nich jest polskojęzyczny Korpus Dyskursu Parlamentarnego (KDP), liczący ponad 800 mln słów zestaw stenogramów z posiedzeń plenarnych, sprawozdań z posiedzeń komisji oraz interpelacji, zapytań i odpowiedzi od roku 1919 aż do dnia dzisiejszego. Jego współczesną część (od roku 2015) zawiera natomiast wielojęzyczny korpus ParlaMint, gromadzący podobne dane z parlamentów prawie wszystkich krajów europejskich, a także ich tłumaczenia na język angielski.

Dane wykorzystywane w konkursie są dostępne bezpłatnie dla wszystkich. Co ważne – żeby z nich korzystać, nie trzeba umieć programować. Zarówno KDP, jak i ParlaMint zostały udostępnione w sieci w prostych w obsłudze interfejsach.

Czytaj więcej: Warsztat „Analiza danych parlamentarnych” w Sejmie RP

Nowa publikacja w IEEE Transactions on Reliability




31 stycznia b.r. w czasopiśmie IEEE Transactions on Reliability został opublikowany artykuł pracowników IPI PAN: prof. Wojciecha Penczka, dr Łukasza Maśko i mgr Teofila Sidoruka, napisany we współpracy z prof. Laure Petrucci, dr Carlosem Olarte i dr Jaime Ariasem z Université Sorbonne Paris Nord. Praca "Optimal Scheduling of Agents in ADTrees: Specialized Algorithm and Declarative Models" stanowi kontynuację wcześniejszej linii badań [1], w której zaproponowano reprezentowanie drzew ataku/obrony (ADTrees) jako systemów wieloagentowych. ADTrees są popularnym formalizmem, pozwalającym na analizowanie scenariuszy bezpieczeństwa, w których dwie grupy agentów próbują albo wykonać podzadania (poszczególne węzły drzewa) składające się na główny cel (korzeń drzewa), albo dążą do uniemożliwienia tego przeciwnej grupie. Dzięki translacji do formalizmu wieloagentowego, możliwe staje się rozważanie tych dwóch grup jako koalicji, charakteryzujących się nie tylko pewną liczbą agentów, ale również konkretnym ich przydziałem do poszczególnych podzadań. To z kolei determinuje zarówno możliwość skutecznego ataku lub obrony przeciwko drugiej koalicji, ale także wpływa na rozważane cechy kwantytatywne, np. czas ataku/obrony lub związany z nimi koszt finansowy.

Czytaj więcej: Nowa publikacja w IEEE Transactions on Reliability


© 2021 INSTYTUT PODSTAW INFORMATYKI PAN | Polityka prywatności | Deklaracja dostępności