O inteligență artificială poate decoda vorbirea din activitatea cerebrală cu o acuratețe surprinzătoare

O inteligență artificială poate decoda cuvinte și propoziții din activitatea creierului cu o precizie surprinzătoare – dar încă limitată. Folosind doar câteva secunde de date privind activitatea cerebrală, AI ghicește ce a auzit o persoană. Ea enumeră răspunsul corect în primele 10 posibilități până la 73% din timp, au constatat cercetătorii într-un studiu preliminar.

„Performanța IA a fost peste ceea ce mulți oameni au crezut că este posibil în acest stadiu”, spune Giovanni Di Liberto, un informatician de la Trinity College Dublin, care nu a fost implicat în cercetare.

Dezvoltată la compania mamă a Facebook, Meta, AI ar putea fi folosită în cele din urmă pentru a ajuta mii de persoane din întreaga lume care nu pot comunica prin vorbire, tastare sau gesturi, au raportat cercetătorii la 25 august la arXiv.org. Printre aceștia se numără mulți pacienți aflați în stare de minimă conștiință, blocați sau „stări vegetative” – ceea ce este acum cunoscut în general sub numele de sindromul de veghe fără răspuns (SN: 2/8/19).

Majoritatea tehnologiilor existente pentru a ajuta astfel de pacienți să comunice necesită intervenții chirurgicale riscante pe creier pentru a implanta electrozi. Această nouă abordare „ar putea oferi o cale viabilă pentru a ajuta pacienții cu deficiențe de comunicare … fără a utiliza metode invazive”, spune neuroștiințificul Jean-Rémi King, cercetător Meta AI, care lucrează în prezent la École Normale Supérieure din Paris.

King și colegii săi au antrenat un instrument computațional pentru a detecta cuvinte și propoziții pe 56.000 de ore de înregistrări de vorbire din 53 de limbi. Instrumentul, cunoscut și sub numele de model lingvistic, a învățat cum să recunoască caracteristici specifice ale limbii atât la un nivel fin – gândiți-vă la litere sau silabe – cât și la un nivel mai larg, cum ar fi un cuvânt sau o propoziție.

Echipa a aplicat o inteligență artificială cu acest model de limbaj la baze de date de la patru instituții care au inclus activitatea cerebrală de la 169 de voluntari. În aceste baze de date, participanții au ascultat diverse povești și propoziții din, de exemplu, Ernest Hemingway’s Bătrânul și marea și a lui Lewis Carroll Alices Aventuri în Țara Minunilor în timp ce creierele oamenilor au fost scanate folosind fie magnetoencefalografia, fie electroencefalografia. Aceste tehnici măsoară componenta magnetică sau electrică a semnalelor cerebrale.

Apoi, cu ajutorul unei metode de calcul care ajută la luarea în considerare a diferențelor fizice dintre creierele reale, echipa a încercat să decodifice ceea ce au auzit participanții folosind doar trei secunde de date de activitate cerebrală de la fiecare persoană. Echipa a instruit inteligența artificială să alinieze sunetele de vorbire din înregistrările poveștilor la modelele de activitate cerebrală pe care inteligența artificială le-a calculat ca fiind corespunzătoare cu ceea ce auzeau oamenii. Apoi a făcut predicții despre ceea ce ar fi putut auzi persoana respectivă în acel scurt timp, având în vedere peste 1.000 de posibilități.

Folosind magnetoencefalografia sau MEG, răspunsul corect a fost în primele 10 presupuneri ale AI până la 73% din timp, au constatat cercetătorii. Cu electroencefalografia, această valoare a scăzut la nu mai mult de 30 la sută. „[That MEG] performanța este foarte bună”, spune Di Liberto, dar el este mai puțin optimist în ceea ce privește utilizarea sa practică. „Ce putem face cu el? Nimic. Absolut nimic”.

Motivul, spune el, este că MEG necesită un aparat voluminos și scump. Aducerea acestei tehnologii în clinici va necesita inovații științifice care să facă aparatele mai ieftine și mai ușor de utilizat.

De asemenea, este important să înțelegem ce înseamnă cu adevărat „decodare” în acest studiu, spune Jonathan Brennan, lingvist la Universitatea din Michigan din Ann Arbor. Cuvântul este adesea folosit pentru a descrie procesul de descifrare a informațiilor direct dintr-o sursă – în acest caz, vorbirea din activitatea cerebrală. Dar IA a putut face acest lucru doar pentru că i s-a pus la dispoziție o listă finită de posibile răspunsuri corecte pentru a-și face presupunerile.

„În cazul limbajului, acest lucru nu va fi suficient dacă vrem să ne extindem la o utilizare practică, deoarece limbajul este infinit”, spune Brennan.

Mai mult, spune Di Liberto, AI a decodificat informațiile participanților care ascultau pasiv audio, ceea ce nu este direct relevant pentru pacienții nonverbali. Pentru ca acesta să devină un instrument de comunicare semnificativ, oamenii de știință vor trebui să învețe cum să decripteze din activitatea cerebrală ceea ce intenționează să spună acești pacienți, inclusiv expresii de foame, disconfort sau un simplu „da” sau „nu”.

Noul studiu este „decodificarea percepției vorbirii, nu a producției”, este de acord King. Deși producția de vorbire este scopul final, deocamdată, „suntem destul de departe”.