Un nou sistem bazat pe algoritmi care identifică indicii lingvistice în povești false ar putea oferi agregator de știri și site-uri de social media precum Google News o nouă armă în lupta împotriva dezinformării, potrivit unor noi cercetări.
Cercetătorii care au dezvoltat sistemul au demonstrat că este comparabil și uneori mai bun decât oamenii, la identificarea corectă a poveștilor false.
Într-un studiu recent, sistemul a găsit cu succes falsuri de până la 76 la sută din timp, comparativ cu o rată de succes umană de 70 la sută. În plus, abordarea lor de analiză lingvistică ar putea fi folosită pentru a identifica articole de știri false care sunt prea noi pentru a putea fi debranșate prin referire încrucișată a faptelor lor cu alte povești.
Rada Mihalcea, profesor de informatică și inginerie la Universitatea din Michigan, care se află în spatele proiectului, spune că o soluție automatizată ar putea fi un instrument important pentru site-urile care se luptă să facă față unei atacuri de știri false, pe care oamenii le creează adesea pentru a genera clicuri sau să manipuleze opinia publică.
Poziția poveștilor false înainte de a avea consecințe reale poate fi dificilă, întrucât site-urile de agregare și social media se bazează astăzi foarte mult pe editorii umani, care adesea nu pot fi în pas cu fluxul de știri. În plus, tehnicile actuale de depanare depind adesea de verificarea externă a faptelor, care poate fi dificilă cu cele mai noi povești. Adesea, până când o poveste este dovedită falsă, paguba a fost deja făcută.
Analiza lingvistică ia o abordare diferită, analizând atribute cuantificabile precum structura gramaticală, alegerea cuvintelor, punctuația și complexitatea. Funcționează mai repede decât oamenii și poate fi folosit cu o varietate de tipuri de știri diferite.
„Vă puteți imagina orice număr de aplicații pentru acest lucru pe partea din față sau din spate a unei știri sau a unui site de socializare”, spune Mihalcea. „Ar putea oferi utilizatorilor o estimare a încrederii în povești individuale sau a unui întreg site de știri. Sau ar putea fi o primă linie de apărare în partea din spate a unui site de știri, care semnalează povești suspecte pentru revizuire ulterioară. O rată de succes 76 la sută lasă o marjă de eroare destul de mare, dar poate oferi informații valoroase atunci când este folosită alături de oameni. ”
Algoritmi lingvistici care analizează vorbirea scrisă sunt destul de frecvente astăzi, spune Mihalcea. Provocarea construirii unui detector de știri false nu constă în construirea algoritmului în sine, ci în găsirea datelor corecte cu care să se antreneze algoritmul respectiv.
Fake news apare și dispare rapid, ceea ce îngreunează colectarea. De asemenea, vine în mai multe genuri, complicând și mai mult procesul de colectare. Știrile satirice, de exemplu, sunt ușor de colectat, însă folosirea ironiei și a absurdului îl fac mai puțin util pentru instruirea unui algoritm pentru a detecta știri false care sunt menite să inducă în eroare.
În cele din urmă, echipa lui Mihalcea și-a creat propriile date, aglomerarea unei echipe online care a modificat versiunile de știri autentice în falsuri. Așa se creează cele mai multe știri false, de către indivizi care le scriu rapid în schimbul unei recompense monetare, spune Mihalcea.
Cercetătorii au recrutat participanții cu ajutorul Amazon Mechanical Turk și i-au plătit pentru a transforma știrile scurte și reale în știri similare, dar false, mimând stilul jurnalistic al articolelor. La sfârșitul procesului, echipa de cercetare avea un set de date cu 500 povești reale și false.
Apoi au alimentat aceste perechi de povești etichetate cu un algoritm care a efectuat o analiză lingvistică, învățându-se să distingă între știri reale și false. În cele din urmă, echipa a transformat algoritmii într-un set de date de știri reale și false extrase direct de pe web, egalând rata de succes 76 la sută.
Detaliile noului sistem și setul de date pe care echipa l-a folosit pentru a-l construi sunt disponibile în mod liber, iar Mihalcea spune că site-urile de știri sau alte entități le-ar putea folosi pentru a-și construi propriile sisteme de detectare de știri false. Ea spune că încorporarea de metadate, precum link-urile și comentariile asociate cu o anumită știre online, ar putea îngreuna sistemele viitoare.
Cercetătorii vor detalia sistemul într-o lucrare pe care o vor prezenta la 27th International Conference on Computational Linguistics in Santa Fe, New Mexico.