Zapraszamy serdecznie na pierwsze w nowym roku seminarium naukowe IJP UW Czwartkowe spotkania lingwistyczne, które odbędzie się 25.01.2024 r. (czwartek) w godz. 13.15-14.45 na platformie Zoom. Link do spotkania:
https://uw-edu-pl.zoom.us/j/95139516648
Prezentujące: dr Anna Kołos (NASK), dr Agnieszka Karlińska (NASK)
Język obraźliwy i mowa nienawiści w serwisie Wykop.pl – wstępne wnioski z analizy korpusu BAN-PL
W związku ze stałym wzrostem treści udostępnianych w internetowych serwisach społecznościowych i rozprzestrzenianiem się negatywnych zjawisk komunikacyjnych, takich jak mowa nienawiści, istnieje silna potrzeba zrozumienia i analizy struktur językowych wykorzystywanych do szerzenia wrogości i pogardy. Na podstawie analizy BAN-PL (https://github.com/ZILiAT-NASK/BAN-PL), pierwszego otwartego korpusu w języku polskim, który obejmuje teksty oznaczone jako szkodliwe, a następnie usunięte przez profesjonalnych moderatorów, w wystąpieniu dokonamy rekonstrukcji leksykalnych i gramatyczno-stylistycznych wyznaczników języka obraźliwego i mowy nienawiści. BAN-PL zawiera składa się łącznie z 691 662 postów oraz komentarzy (ok. 26 milionów słów) z serwisu Wykop.pl i jest podzielony na dwie klasy: treści „szkodliwe” i „neutralne”. W wystąpieniu omówimy procesy zbierania i opracowania danych. Następnie przedstawimy wyniki analizy porównawczej tekstów „szkodliwych” i „neutralnych” z wykorzystaniem metod korpusowych (m.in. analiza kluczowości i kolokacji) oraz stylometrycznych. Zwrócimy również uwagę na strategie słowotwórcze wykorzystywane przez użytkowników serwisu. Do analizy stylometrycznej zastosowałyśmy narzędzie StyloMetrix, rozwijane w Zakładzie Inżynierii Lingwistycznej i Analizy Tekstu NASK PIB (https://github.com/ZILiAT-NASK/StyloMetrix), które obejmuje 172 metryki, m.in. fleksyjne, syntaktyczne i psycholingwistyczne. Każda z nich przekłada się na znormalizowaną statystykę występowania danej cechy językowej w próbce tekstu. Mamy nadzieję, że prowadzone przez nas badania wniosą wkład do dyskusji na temat języka obraźliwego i mowy nienawiści w badaniach językoznawczych, w szczególności socjolingwistycznych, podkreślając potrzebę uwzględnienia treści tworzonych przez użytkowników online.