Antrenamentul AI: Datele false sunt mai ieftine decât datele reale

Mural of Flight Science, Aeroportul Sky Harbor
Vă rugăm să împărtășiți această poveste!
Tehnocrații au fost întotdeauna dependenți de date, dar acum nu există suficiente date din lumea reală pentru a satisface pofta de mai multe. Răspunsul? Creați date false care sunt „sintetizate” de alte programe AI pentru a fi introduse în alți algoritmi AI de prim rang care sunt „antrenați” pentru anumite rezultate. Deci, datele false sunt cu adevărat mai bune decât datele reale? Tu decizi. ⁃ TN Editor

Bebelușii învață să vorbească auzind alți oameni – în special părinții lor – producând în mod repetat sunete. Încet, prin repetare și descoperirea tiparelor, bebelușii încep să conecteze aceste sunete la sens. Prin multă practică, ei reușesc în cele din urmă să producă sunete similare pe care oamenii din jurul lor le pot înțelege.

Invatare mecanica algoritmii funcționează aproape în același mod, dar, în loc să aibă câțiva părinți de care să copieze, ei folosesc date, clasificate cu grijă de mii de oameni care trebuie să revizuiască manual de date și spuneți mașinii ce înseamnă.

Cu toate acestea, acest proces obositor și consumator de timp nu este singura problemă cu datele din lumea reală utilizate pentru a antrena algoritmi de învățare automată.

Luați în considerare detectarea fraudelor în cererile de asigurare. Pentru ca un algoritm să poată identifica cu exactitate un caz de fraudă în afară de afirmațiile legitime, trebuie să le vadă pe ambele. Mii și mii din ambele. Și pentru că AI sistemele sunt adesea furnizate de terți – deci nu sunt gestionate de compania de asigurări în sine – acelor terți trebuie să li se ofere acces la toate acele date sensibile. Ajungeți unde se îndreaptă acest lucru, deoarece același lucru este valabil și pentru înregistrările medicale și datele financiare.

Mai ezoterice, dar la fel de îngrijorătoare sunt toți algoritmii antrenați pe text, imagini și videoclipuri. In afara de probleme de drepturi de autor, mulți creatorii și-au exprimat dezacordul cu munca lor fiind absorbită într-un set de date pentru antrenament o mașină care, în cele din urmă, le-ar putea lua (o parte din) locul de muncă. Și asta presupunând că creațiile lor nu sunt rasiste sau problematice în alte moduri – ceea ce, la rândul său, ar putea duce la rezultate problematice.

De asemenea, ce se întâmplă dacă pur și simplu nu sunt suficiente date disponibile pentru a instrui un AI cu privire la toate eventualitățile? Într-o Raport 2016 RAND Corporation, autorii au calculat câți mile, „o flotă de 100 de vehicule autonome care circulă 24 de ore pe zi, 365 de zile pe an, cu o viteză medie de 25 mile pe oră”, ar trebui să conducă pentru a arăta că rata lor de eșec (rezultând în decese sau răni), a fost în mod sigur mai mică decât cea a oamenilor. Răspunsul lor? 500 de ani și 11 miliarde de mile.

Nu trebuie să fii un geniu super-creier pentru a-ți da seama că procesul actual nu este ideal. Deci ce putem face? Cum putem crea date suficiente, care să respecte confidențialitatea, fără probleme, care să acopere toate eventualitățile, etichetate cu acuratețe? Ai ghicit: mai mult AI.

Datele false pot ajuta AI să se ocupe de date reale

Chiar și înainte de raportul RAND, pentru companiile care lucrau la conducerea autonomă era total clar că erau îngrozitor de insuficient echipate pentru a colecta suficiente date pentru a antrena în mod fiabil algoritmii pentru a conduce în siguranță în orice condiție sau circumstanță.

Luați Waymo, compania de conducere autonomă a Alphabet. În loc să se bazeze doar pe vehiculele lor reale, au creat o lume complet simulată, în care mașinile simulate cu senzori simulați puteau circula la nesfârșit, colectând date reale pe drumul lor simulat. Potrivit companiei, până în 2020 a colectat date despre 15 miliarde de mile de condus simulat - comparativ cu 20 de milioane de mile de condus în lumea reală.

În limbajul AI, acestea se numesc date sintetice sau „date aplicabile unei situații date care nu sunt obținute prin măsurare directă”, dacă doriți să obțineți tehnică. Sau mai puțin din punct de vedere tehnic: IA-urile produc date false, astfel încât alte IA-uri să poată învăța despre lumea reală într-un ritm mai rapid.

Un exemplu este Task2Sim, un model AI construit de MIT-IBM Watson AI Lab care creează date sintetice pentru formarea clasificatorilor. În loc să-l învețe pe clasificator să recunoască un obiect odată, modelul creează imagini care pot fi folosite pentru a preda mai multe sarcini. The scalabilitatea acestui tip de model face ca colectarea datelor să consume mai puțin timp și să fie mai puțin costisitoare pentru întreprinderile avide de date.

Adăugând la acestea, Rogerio Feris, an IBM cercetătorul care a fost coautor al lucrării despre Task2Sim a spus:

Frumusețea imaginilor sintetice este că le puteți controla parametrii — fundalul, iluminarea și modul în care sunt pozate obiectele.

Datorită tuturor preocupărilor enumerate mai sus, producția de tot felul de date sintetice a crescut în ultimii ani, cu zeci de startup-uri din domeniu înfloresc și adunând sute de milioane de dolari în investiții.

Datele sintetice generate variază de la „date umane”, cum ar fi înregistrările de sănătate sau financiare, până la imagini sintetizate ale unei game variate de fețe umane – până la seturi de date mai abstracte, cum ar fi datele genomice, care imită structura ADN-ului.

Cum să faci date cu adevărat false

Există câteva moduri în care se produce această generare de date sintetice, dintre care cea mai comună și bine stabilită este numită GAN sau rețele adverse generative.

Într-un GAN, două IA sunt puse unul împotriva celuilalt. Un AI produce un set de date sintetice, în timp ce celălalt încearcă să stabilească dacă datele generate sunt autentice. Feedback-ul de la acesta din urmă trece înapoi în „antrenamentul” anterior pentru a deveni mai precis în producerea de date false convingătoare. Probabil ai văzut unul dintre multe acest-X-nu-există site-uri web – de la oameni la pisici la clădiri – care își generează imaginile pe baza GAN-urilor.

În ultimul timp, mai multe metode de producere a datelor sintetice au câștigat teren. Primele sunt cunoscute ca modele de difuzie, în care AI-urile sunt antrenate pentru a reconstrui anumite tipuri de date în timp ce din ce în ce mai mult zgomot - date care corupe treptat datele de antrenament - este adăugat la datele din lumea reală. În cele din urmă, AI poate fi alimentat cu date aleatorii, pe care le lucrează înapoi într-un format pe care a fost antrenat inițial.

Datele false sunt ca datele reale fără, ei bine, realitatea

Datele sintetice, oricum sunt produse, oferă o serie de avantaje foarte concrete față de utilizarea datelor din lumea reală. În primul rând, este mai ușor să colectezi mult mai mult, pentru că nu trebuie să te bazezi pe oameni care îl creează. În al doilea rând, datele sintetice sunt etichetate perfect, astfel încât nu este nevoie să vă bazați pe centrele de date care necesită forță de muncă pentru a eticheta (uneori incorect) datele. În al treilea rând, poate proteja confidențialitatea și drepturile de autor, deoarece datele sunt, ei bine, sintetice. Și, în sfârșit, și poate cel mai important, poate reduce rezultatele părtinitoare.

Cu inteligența artificială jucând un rol din ce în ce mai mare în tehnologie și societate, așteptările cu privire la datele sintetice sunt destul de optimiste. Gartner a estimat acest lucru 60% din datele de antrenament vor fi date sintetice până în 2024. Analist de piata Cognilytica a apreciat piața generarea de date sintetice la 110 milioane USD în 2021 și va crește la 1.15 miliarde USD până în 2027.

Datele au fost numite cea mai valoroasă marfă din era digitală. Tehnologia mare s-a așezat pe munți de date despre utilizatori care i-au oferit un avantaj față de concurenții mai mici din spațiul AI. Datele sintetice le pot oferi jucătorilor mai mici oportunitatea de a întoarce jocul.

După cum ați putea bănui, marea întrebare cu privire la datele sintetice este în jurul așa-numitei fidelități - sau cât de aproape se potrivește cu datele din lumea reală. Juriul este încă în discuție, dar cercetări pare să arate că combinarea datelor sintetice cu datele reale oferă rezultate solide din punct de vedere statistic. Anul acesta, cercetătorii de la MIT și MIT-IBM AI Watson Lab au arătat că un clasificator de imagini care a fost antrenat în prealabil pe date sintetice în combinație cu date reale, efectuate precum și un clasificator de imagini antrenat exclusiv pe date reale.

Una peste alta, semafoarele sintetice și din lumea reală par a fi verzi pentru dominația în viitorul apropiat a datelor sintetice în antrenamentul modelelor AI mai sigure și prietenoase cu confidențialitatea și, odată cu aceasta, un posibil viitor al AI mai inteligente pentru noi este doar peste orizont. .

Citește povestea completă aici ...

Despre editor

Patrick Wood
Patrick Wood este un lider important și critic în dezvoltarea durabilă, economia ecologică, agenda 21, agenda 2030 și tehnocrația istorică. Este autorul revistei Technocracy Rising: The Trojan Horse of Global Transformation (2015) și co-autor al Trilaterals Over Washington, Volumes I and II (1978-1980) cu regretatul Antony C. Sutton.
Mă abonez
Anunță-mă
oaspete

3 Comentarii
Cele mai vechi
Cele mai noi Cele mai votate
Feedback-uri în linie
Vezi toate comentariile

[…] Technocracy.news […]

[…] Antrenament AI: Datele false sunt mai ieftine decât datele reale […]