De ce un cercetător de date avertizează împotriva încrederii mereu în descoperirile științifice ale AI

WASHINGTON – Trăim într-o epocă de aur a datelor științifice, cu stocuri mai mari de informații genetice, imagini medicale și observații astronomice decât oricând. Inteligența artificială poate cerceta cu atenție aceste descoperiri pentru a descoperi potențiale noi descoperiri științifice mult mai repede decât ar putea oamenii vreodată. Dar nu ar trebui să avem încredere orbește în cunoștințele științifice ale inteligenței artificiale, susține cercetătorul Genevera Allen, până când aceste programe de calculator nu pot evalua mai bine cât de sigure sunt în propriile rezultate.

Sistemele AI care utilizează învățarea automată – programe care învață ce să facă studiind datele mai degrabă decât urmând instrucțiuni explicite – pot fi încredințate cu unele decizii, spune Allen, de la Universitatea Rice din Houston. Și anume, AI este de încredere pentru a lua decizii în zonele în care oamenii își pot verifica cu ușurință munca, cum ar fi numărarea craterelor de pe Lună sau prezicerea replicilor cutremurelor (SN: 22/12/18, str. 25).

Dar algoritmi mai exploratori care caută în seturi de date mari pentru a identifica modele sau relații necunoscute anterior între diferite caracteristici „sunt foarte greu de verificat”, a declarat Allen pe 15 februarie, la o conferință de presă la reuniunea anuală a Asociației Americane pentru Progresul Științei. Amânarea judecății către astfel de sisteme autonome de sondare a datelor poate duce la concluzii greșite, a avertizat ea.

SISTEME AUTOCONSTIENTE Genevera Allen (foto) și colegii ei elaborează noi scheme de măsurare a incertitudinii pentru a ajuta programele AI să estimeze acuratețea și reproductibilitatea descoperirilor lor. Tommy LaVergne/Universitatea Rice

Luați medicina de precizie, unde cercetătorii își propun adesea să găsească grupuri de pacienți care sunt similari genetic pentru a ajuta la adaptarea tratamentelor. Programele de inteligență artificială care cercetează datele genetice au identificat cu succes grupuri de pacienți pentru unele boli, cum ar fi cancerul de sân. Dar nu a funcționat la fel de bine pentru multe alte afecțiuni, cum ar fi cancerul colorectal. Algoritmii care examinează diferite seturi de date au grupat clasificări diferite, conflictuale ale pacienților. Asta îi lasă pe oamenii de știință să se întrebe în ce AI, dacă există, să aibă încredere.

Aceste contradicții apar deoarece algoritmii de extragere a datelor sunt proiectați să urmeze instrucțiunile exacte ale unui programator, fără loc pentru indecizie, a explicat Allen. „Dacă îi spui unui algoritm de grupare „Găsiți grupuri în setul meu de date”, acesta revine și spune „Am găsit câteva grupuri”. ” Spune-i să găsească trei grupuri și găsește trei. Cereți patru și vă va oferi patru.

Ceea ce AI ar trebui să facă cu adevărat, a spus Allen, este să raporteze ceva de genul: „Chiar cred că aceste grupuri de pacienți sunt într-adevăr, într-adevăr grupate în mod similar… dar despre aceștia ceilalți de aici sunt mai puțin sigur.”

Oamenii de știință nu sunt străini să facă față incertitudinii. Dar tehnicile tradiționale de măsurare a incertitudinii sunt concepute pentru cazurile în care un om de știință a analizat date care au fost colectate în mod special pentru a evalua o ipoteză predeterminată. Nu așa funcționează, în general, programele AI de data mining. Aceste sisteme nu au ipoteze directoare și se încurcă prin seturi de date masive care sunt în general colectate fără un scop unic. Cercetători precum Allen, totuși, elaborează protocoale pentru a ajuta AI de generație următoare să estimeze acuratețea și reproductibilitatea descoperirilor sale.

Una dintre aceste tehnici se bazează pe ideea că, dacă un program de inteligență artificială a făcut o descoperire reală – cum ar fi identificarea unui set de grupuri de pacienți semnificative din punct de vedere clinic – atunci această descoperire ar trebui să rămână valabilă în alte seturi de date. În general, este prea costisitor pentru oamenii de știință să colecteze seturi de date noi, uriașe, pentru a testa ceea ce a descoperit un AI. Dar, a spus Allen, „putem lua datele curente pe care le avem și putem perturba datele și le putem randomiza într-un mod care să imită [collecting] seturi de date viitoare.” Dacă AI găsește mereu aceleași tipuri de clasificări ale pacienților, de exemplu, „probabil că aveți o descoperire destul de bună pe mâini”, a spus ea.