Inteligența artificială capătă o perspectivă mai bună. La fel ca o persoană care poate citi caligrafia altcuiva fără a studia o mulțime de mostre de scris de mână, IA de recunoaștere a imaginii de nouă generație poate identifica mai ușor obiectivele familiare în situații noi.
Realizate dintr-un nou tip de bloc virtual numit capsule, aceste programe pot reduce cantitatea enormă de date necesare pentru a antrena AI actuală de identificare a imaginilor. Și asta ar putea stimula o tehnologie precum diagnosticele medicale realizate de mașini, în care imaginile de exemplu pot fi rare, sau capacitatea de răspuns a mașinilor cu conducere autonomă, unde vederea este în continuă schimbare. Cercetătorii de la Google vor prezenta această nouă versiune a unei rețele neuronale artificiale la conferința Neural Information Processing Systems din Long Beach, California, pe 5 decembrie.
Rețelele neuronale sunt rețele de celule nervoase virtuale individuale, sau neuroni, care învață să identifice obiecte din imagini studiind imagini exemple etichetate. Aceste rețele clasifică în mare măsură imaginile în funcție de faptul dacă acestea conțin anumite caracteristici. De exemplu, un program antrenat pe o serie de lovituri de cap ar putea concluziona că o față are doi ochi, un nas și o gură. Arată programului respectiv o față de profil, cu un singur ochi vizibil, totuși, și este posibil să nu recunoască fotografia ca față, explică Roland Memisevic, un informatician la Universitatea din Montreal care nu a fost implicat în lucrare.
Pentru a depăși această limitare, cercetătorii pot antrena o rețea neuronală pe milioane de fotografii din nenumărate unghiuri, iar programul memorează toate felurile în care ar putea arăta o față. În comparație cu creierul uman, care nu are nevoie de aproape un milion de exemple pentru a ști cum arată o față, acest sistem este extrem de ineficient. „Este un dezastru”, spune Memisevic. „Capsulele încearcă să remedieze asta.”
În loc de rețele de neuroni artificiali individuali, aceste noi programe au rețele de grupuri de neuroni, numite capsule. Aceste echipe de neuroni pot furniza mai multe informații decât un neuron în sine. Fiecare capsulă este concepută pentru a urmări nu numai dacă o anumită caracteristică este într-o imagine, ci și proprietățile acelei caracteristici – să zicem, dimensiunea, orientarea și poziția unui nas. Această conștientizare spațială ajută programul să recunoască mai bine obiectele în scenarii nevăzute anterior.
O rețea care conține capsulă antrenată pe lovituri cu capul ar putea vedea o față în profil și ar putea deduce – pe baza aspectului ochiului, nasului și gurii vizibile – că celălalt ochi este pur și simplu ascuns, iar imaginea înfățișează o față. Deoarece rețelele de capsule sunt mai bune în aplicarea a ceea ce știu în situații noi, aceste rețele neuronale au nevoie de mai puține date de antrenament pentru a obține aceeași performanță ca predecesorii lor, spune Sara Sabour, un informatician la Google Brain din Toronto.
De la astronomie la zoologie
Abonați-vă la Știri Științe pentru a vă satisface apetitul omnivor pentru cunoașterea universală.
Sabour și colegii ei au instruit o rețea de capsulă pe imagini cu numere scrise de mână și au testat-o pe imagini în care fiecare număr a fost ușor distorsionat. Rețeaua de capsule a recunoscut imaginile deformate cu o acuratețe de 79%; o rețea neuronală tipică antrenată pe aceeași cantitate de date a avut dreptate doar în proporție de 66%.
Într-un alt experiment, Sabour și colegii au antrenat o rețea de capsule similară pe zeci de mii de fotografii cu jucării, apoi i-au cerut să recunoască jucăriile din noi puncte de vedere. În această provocare, raportată într-o lucrare înaintată la Conferința internațională din 2018 privind reprezentările învățării din Vancouver, rețeaua de capsule a greșit doar aproximativ 1,4 la sută din timp. O rețea neuronală convențională a făcut aproape de două ori mai multe erori.