Anshumali Shrivastava folosește inteligența artificială pentru a lupta cu torenții de date

Anshumali Shrivastava, 33 de ani
Informatică
Universitatea Rice

Lumea este plină de date, iar Anshumali Shrivastava ne poate salva de a ne îneca în ele.

În fiecare zi, peste 1 miliard de fotografii sunt postate online. Într-o singură secundă, Large Hadron Collider poate produce un milion de gigaocteți de observații. Datele mari cresc mai repede decât le pot analiza programele de calculator actuale.

„Avem acest ocean imens de date”, spune inginerul electric și informatic Richard Baraniuk de la Universitatea Rice din Houston, „și trebuie să-l aspiram printr-un furtun de grădină.”

Așadar, informaticianul Anshumali Shrivastava, 33 de ani, proiectează o nouă generație de programe de inteligență artificială pentru a procesa eficient inundațiile de informații.

„Este foarte creativ” în strategiile sale de a discuta seturi de date greoaie, spune Piotr Indyk, inginer electrician și informatician la MIT. „Unele dintre aceste lucruri le spun: „Aș vrea să fi venit cu asta”. Sunt clare, frumoase și funcționează.”

Shrivastava a intrat în inteligența artificială, deoarece algoritmii de strângere a numerelor care rezolvă problemele din lumea reală sunt „unde vezi matematica în acțiune”, spune el. Dar ca doctorand. student în informatică la Universitatea Cornell, Shrivastava și-a dat seama cât de ineficiente sunt rețelele neuronale artificiale, programele AI de premieră de astăzi.

Rețelele neuronale sunt formate din bucăți de cod numite neuroni artificiali. Pentru a învăța o sarcină precum recunoașterea imaginilor, o rețea AI ar putea studia imaginile etichetate, fiecare dintre neuronii artificiali din rețea dobândind expertiză în recunoașterea anumitor modele.

Dar chiar dacă se specializează, toți neuronii dintr-o rețea tipică continuă să studieze toate informațiile primite. Când rețeaua vede o fotografie a unei pisici, de exemplu, chiar și neuronii responsabili de observarea camioanelor sunt atenți. Acest lucru consumă inutil timp și energie, spune Shrivastava.

În școala absolventă, Shrivastava a găsit o modalitate de a identifica și activa doar neuronii cei mai relevanți pentru fiecare intrare. El a folosit funcții hash, instrumente de calcul care organizează înregistrările în baze de date, așa cum Dewey Decimal System organizează cărțile într-o bibliotecă.

Shrivastava a creat un set de funcții hash pentru a organiza și localiza rapid neuronii virtuali într-o rețea pe baza relevanței lor pentru o anumită intrare – astfel încât să puteți găsi toți neuronii pisicii și să ignorați neuronii camionului.

„M-am gândit la această problemă de mai bine de doi ani”, spune el. „Îți ții toate problemele grele în fundul capului.” Se întorcea la acesta când avea ceva timp și de obicei nu ajungea nicăieri. Dar în ziua în care i-a venit calea către un răspuns, a rezolvat-o în câteva ore. Își amintește că stătea în dormitorul lui, citea și recitise soluția pentru a se convinge că va funcționa cu adevărat.


De la astronomie la zoologie

Abonați-vă la Știri Științe pentru a vă satisface apetitul omnivor pentru cunoașterea universală.

Abonati-va

Sistemul pe care l-a inventat poate fi considerat „cea mai bună muncă de cercetare în domeniul învățării automate în acel an”, spune Moshe Vardi, de asemenea, informatician la Rice. A câștigat premiul pentru lucrări excepționale la Conferința din 2014 privind sistemele de procesare a informațiilor neuronale.

De atunci, Shrivastava a construit o rețea neuronală de clasificare a imaginilor care funcționează la fel de bine ca rețelele standard, dar utilizează cu 95% mai puține calcule. O astfel de eficiență ar putea elibera timp și energie pentru ca un program AI să proceseze alte informații, de exemplu, audio pentru recunoașterea vorbirii, deschizând calea pentru o inteligență artificială mai versatilă.

El a dezvoltat, de asemenea, alte modalități de a eficientiza calculul de când s-a alăturat facultății Rice în 2015. El este „incredibil de strălucitor și incredibil de rapid”, spune Vardi. „Uneori trebuie să alergăm după el, pentru că mintea lui merge înainte.”

Shrivastava și colegii de la Universitatea Rice și Duke au aplicat recent hashing în bazele de date cu victime ale războiului civil sirian. Obținerea unui număr precis de decese pentru conflictul sirian, pentru a ajuta la urmărirea penală a autorilor crimelor împotriva umanității s-a dovedit dificilă. Bazele de date ale victimelor raportate de membrii familiei, mass-media și alte surse conțin înregistrări duplicat; Un computer ar dura mai mult de o săptămână pentru a compara toate cele 354.000 de înregistrări între ele pentru a găsi repetări.

Odată ce programul de calculator al lui Shrivastava a atribuit fiecărei înregistrări din patru baze de date cu victime un cod hash, a folosit acele coduri pentru a identifica probabil duplicate în doar câteva minute. Programul, raportat în iunie în Analele statisticii aplicateapoi a verificat numai acele înregistrări pentru potriviri.

Mai aproape de casă, Shrivastava și colegii au creat o aplicație pentru smartphone pentru a naviga prin centre comerciale sau alte clădiri mari, pe baza fotografiilor din împrejurimile unei persoane. Aplicația a distilat fotografiile realizate de utilizatori în coduri hash pentru a le compara cu codurile foto de referință, identificând locațiile în două secunde.

Odată cu creșterea fluxului de date mari, Shrivastava ar fi ușor să fie copleșită și descurajată. Din fericire, „nu există nici un os mohorât în ​​corpul lui”, spune Baraniuk.

Shrivastava s-ar putea bloca cu o anumită problemă luni sau ani înainte de a primi genul de explozie cerebrală care a dus la momentul eureka bazat pe hash. Dar când poate pune un sistem de computer care se mișcă lentă într-o viteză mare, el spune: „merită”.