În timp ce oamenii din întreaga lume se minunau în iulie de cele mai detaliate imagini ale cosmosului surprinse de telescopul spațial James Webb, biologii au avut parte de primele imagini diferite, care ar putea revoluționa cercetarea în domeniul științelor vieții.
Imaginile sunt formele 3D preconizate a peste 200 de milioane de proteine, redate de un sistem de inteligență artificială numit AlphaFold. „Vă puteți gândi la el ca acoperind întregul univers al proteinelor”, a declarat Demis Hassabis la o informare de presă din 26 iulie. Hassabis este cofondator și director executiv al DeepMind, compania cu sediul la Londra care a creat sistemul. Combinând mai multe tehnici de învățare profundă, programul informatic este antrenat să prezică formele proteinelor prin recunoașterea modelelor din structurile care au fost deja rezolvate prin decenii de muncă experimentală cu ajutorul microscoapelor electronice și al altor metode.
Primul splash al IA a venit în 2021, cu predicții pentru 350.000 de structuri proteice – inclusiv aproape toate proteinele umane cunoscute. DeepMind a încheiat un parteneriat cu Institutul European de Bioinformatică din cadrul Laboratorului European de Biologie Moleculară pentru a face structurile disponibile într-o bază de date publică.
Noua versiune masivă din iulie a extins biblioteca la „aproape toate organismele de pe planetă care au avut genomul secvențiat”, a declarat Hassabis. „Puteți căuta o structură 3D a unei proteine aproape la fel de ușor ca și cum ați face o căutare pe Google cu un cuvânt cheie”.
Acestea sunt predicții, nu structuri reale. Cu toate acestea, cercetătorii au folosit unele dintre predicțiile din 2021 pentru a dezvolta potențiale noi vaccinuri împotriva malariei, pentru a îmbunătăți înțelegerea bolii Parkinson, pentru a afla cum să protejeze sănătatea albinelor, pentru a obține informații despre evoluția umană și multe altele. De asemenea, DeepMind a concentrat AlphaFold asupra bolilor tropicale neglijate, inclusiv boala Chagas și leishmanioza, care pot fi debilitante sau letale dacă nu sunt tratate.
Publicarea vastului set de date a fost întâmpinată cu entuziasm de mulți oameni de știință. Dar alții se tem că cercetătorii vor lua structurile prezise ca fiind adevăratele forme ale proteinelor. Există încă lucruri pe care AlphaFold nu le poate face – și pentru care nu a fost conceput – care trebuie abordate înainte ca cosmosul proteinelor să fie complet pus în evidență.
Faptul că noul catalog este deschis pentru toată lumea este „un beneficiu imens”, spune Julie Forman-Kay, biofizician de proteine la Spitalul pentru copii bolnavi și la Universitatea din Toronto. În multe cazuri, AlphaFold și RoseTTAFold, o altă inteligență artificială de care cercetătorii sunt încântați, prezic forme care se potrivesc bine cu profilurile de proteine din experimente. Dar, avertizează ea, „nu este așa în toate cazurile”.
Predicțiile sunt mai precise pentru unele proteine decât pentru altele. Predicțiile eronate ar putea să-i facă pe unii oameni de știință să creadă că înțeleg cum funcționează o proteină, când în realitate, nu înțeleg. Experimentele minuțioase rămân cruciale pentru a înțelege cum se pliază proteinele, spune Forman-Kay. „Există acum sentimentul că oamenii nu mai trebuie să facă determinarea experimentală a structurii, ceea ce nu este adevărat.”
Progrese lente
Proteinele pornesc ca lanțuri lungi de aminoacizi și se pliază într-o serie de curburi și alte forme tridimensionale. Unele seamănă cu buclele strânse în formă de tirbușon ale unui permanent din anii 1980 sau cu pliurile unui acordeon. Altele ar putea fi confundate cu mâzgăliturile în spirală ale unui copil.
Arhitectura unei proteine este mai mult decât un simplu aspect estetic; ea poate determina modul în care funcționează acea proteină. De exemplu, proteinele numite enzime au nevoie de un buzunar în care să poată capta molecule mici și să efectueze reacții chimice. Iar proteinele care funcționează într-un complex proteic, două sau mai multe proteine care interacționează ca piesele unei mașini, au nevoie de formele potrivite pentru a se forma cu partenerii lor.
Cunoașterea pliurilor, spiralelor și buclelor formei unei proteine îi poate ajuta pe oamenii de știință să descifreze cum, de exemplu, o mutație modifică această formă pentru a provoca o boală. Aceste cunoștințe ar putea ajuta, de asemenea, cercetătorii să creeze vaccinuri și medicamente mai bune.
Timp de ani de zile, oamenii de știință au bombardat cristale de proteine cu raze X, au congelat instantaneu celule și le-au examinat la microscoape electronice de mare putere și au folosit alte metode pentru a descoperi secretele formelor proteinelor. Astfel de metode experimentale necesită „mult timp de personal, mult efort și mulți bani. Așa că a fost lent”, spune Tamir Gonen, biofizician de membrană și cercetător al Institutului Medical Howard Hughes de la Școala de Medicină David Geffen de la UCLA.
O astfel de muncă experimentală meticuloasă și costisitoare a scos la iveală structurile tridimensionale a peste 194.000 de proteine, fișierele de date ale acestora fiind stocate în Banca de date a proteinelor, susținută de un consorțiu de organizații de cercetare. Dar ritmul accelerat în care geneticienii descifrează instrucțiunile ADN pentru fabricarea proteinelor a depășit cu mult capacitatea biologilor structurali de a ține pasul, spune biologul de sisteme Nazim Bouatta de la Harvard Medical School. „Întrebarea pentru biologii structurali a fost: cum putem reduce decalajul?”, spune el.
Pentru mulți cercetători, visul a fost de a avea programe de calculator care să poată examina ADN-ul unei gene și să prezică modul în care proteina pe care o codifică se va plia într-o formă tridimensională.
Iată că vine AlphaFold
De-a lungul mai multor decenii, oamenii de știință au făcut progrese către acest obiectiv al inteligenței artificiale. Dar „până acum doi ani, eram foarte departe de o soluție bună”, spune John Moult, biolog computaționalist la Universitatea din Maryland, campusul Rockville.
Moult este unul dintre organizatorii unei competiții: Critical Assessment of protein Structure Prediction, sau CASP. Organizatorii oferă concurenților un set de proteine pentru ca algoritmii lor să le plieze și compară predicțiile mașinilor cu structurile determinate experimental. Majoritatea AI-urilor nu au reușit să se apropie de formele reale ale proteinelor.
„Structura nu spune totul despre cum funcționează o proteină.”
Jane Dyson
Apoi, în 2020, AlphaFold a apărut într-un mod deosebit, prezicând structurile a 90% din proteinele de test cu o precizie ridicată, inclusiv două treimi cu o precizie care rivalizează cu metodele experimentale.
Descifrarea structurii proteinelor unice a fost nucleul competiției CASP încă de la înființarea sa în 1994. Cu performanța AlphaFold, „dintr-o dată, acest lucru a fost realizat în esență”, spune Moult.
De la lansarea AlphaFold în 2021, peste o jumătate de milion de oameni de știință au accesat baza sa de date, a declarat Hassabis în cadrul briefingului de presă. Unii cercetători, de exemplu, au folosit predicțiile lui AlphaFold pentru a-i ajuta să se apropie de finalizarea unui puzzle biologic masiv: complexul porilor nucleari. Porii nucleari sunt portaluri cheie care permit moleculelor să intre și să iasă din nucleele celulelor. Fără pori, celulele nu ar funcționa corect. Fiecare por este uriaș, relativ vorbind, compus din aproximativ 1.000 de bucăți din aproximativ 30 de proteine diferite. Cercetătorii reușiseră anterior să plaseze aproximativ 30% din piesele din puzzle.
Acest puzzle este acum aproape 60 la sută complet, după ce a combinat predicțiile AlphaFold cu tehnici experimentale pentru a înțelege cum se potrivesc piesele, cercetătorii au raportat în iunie 10 Science.
Acum că AlphaFold a rezolvat practic modul de pliere a proteinelor unice, organizatorii CASP din acest an cer echipelor să lucreze la următoarele provocări: Să prezică structurile moleculelor de ARN și să modeleze modul în care proteinele interacționează între ele și cu alte molecule.
Pentru aceste tipuri de sarcini, spune Moult, metodele de inteligență artificială cu învățare profundă „par promițătoare, dar încă nu au dat rezultate”.
Unde nu reușește IA
A fi capabil să modelezi interacțiunile dintre proteine ar fi un mare avantaj, deoarece majoritatea proteinelor nu funcționează în mod izolat. Ele lucrează cu alte proteine sau cu alte molecule din celule. Dar acuratețea lui AlphaFold în prezicerea modului în care formele a două proteine s-ar putea schimba atunci când proteinele interacționează nu este „nici pe departe” de cea a proiecțiilor sale punctuale pentru o serie de proteine individuale, spune Forman-Kay, biofizicianul de proteine de la Universitatea din Toronto. Este un lucru pe care îl recunosc și creatorii AlphaFold.
Inteligența artificială a fost antrenată să plieze proteine prin examinarea contururilor structurilor cunoscute. Și mult mai puține complexe multiproteice decât proteine individuale au fost rezolvate experimental.
Forman-Kay studiază proteinele care refuză să se limiteze la o anumită formă. Aceste proteine cu dezordine intrinsecă sunt de obicei la fel de flexibile ca niște tăiței umezi (SN: 2/9/13, p. 26). Unele se vor plia în forme definite atunci când interacționează cu alte proteine sau molecule. Și se pot plia în forme noi atunci când se împerechează cu diferite proteine sau molecule pentru a îndeplini diverse sarcini.
Formele prezise de AlphaFold ating un nivel de încredere ridicat pentru aproximativ 60% din proteinele ondulate pe care Forman-Kay și colegii le-au examinat, a raportat echipa într-un studiu preliminar postat în februarie la bioRxiv.org. Adesea, programul descrie formele schimbătoare ca fiind niște tirbușoane lungi numite elice alfa.
Grupul lui Forman-Kay a comparat predicțiile lui AlphaFold pentru trei proteine dezordonate cu datele experimentale. Echipa a constatat că structura pe care AI a atribuit-o unei proteine numite alfa-sinucleină seamănă cu forma pe care o ia proteina atunci când interacționează cu lipidele. Dar nu așa arată proteina tot timpul.
Pentru o altă proteină, numită proteina 2 de legare a factorului de inițiere a traducerii eucariote 4E, AlphaFold a prezis o amestecătură a celor două forme ale proteinei atunci când lucrează cu doi parteneri diferiți. Această structură Frankenstein, care nu există în organismele actuale, ar putea induce în eroare cercetătorii cu privire la modul în care funcționează proteina, spun Forman-Kay și colegii săi.
Este posibil ca AlphaFold să fie, de asemenea, un pic prea rigid în predicțiile sale. O „structură statică nu spune totul despre modul în care funcționează o proteină”, spune Jane Dyson, biolog structuralist la Scripps Research Institute din La Jolla, California. Chiar și proteinele unice cu structuri în general bine definite nu sunt înghețate în spațiu. Enzimele, de exemplu, suferă mici modificări de formă atunci când dirijează reacții chimice.
Dacă îi cereți lui AlphaFold să prezică structura unei enzime, acesta va arăta o imagine fixă care poate semăna foarte mult cu ceea ce oamenii de știință au determinat prin cristalografie cu raze X, spune Dyson. „Dar [it will] nu vă va arăta niciuna dintre subtilitățile care se schimbă pe măsură ce diferiți parteneri” interacționează cu enzima.
„Dinamica este ceea ce domnul AlphaFold nu vă poate oferi”, spune Dyson.
O revoluție în devenire
Reprezentările computerizate le oferă biologilor un avans în rezolvarea unor probleme precum modul în care un medicament ar putea interacționa cu o proteină. Dar oamenii de știință ar trebui să-și amintească un lucru: „Acestea sunt modele”, nu structuri descifrate experimental, spune Gonen, de la UCLA.
El folosește predicțiile proteice ale AlphaFold pentru a ajuta la înțelegerea datelor experimentale, dar se teme că cercetătorii vor accepta predicțiile AI ca fiind evanghelice. Dacă se întâmplă acest lucru, „riscul este că va deveni din ce în ce mai greu și mai greu să justifici de ce trebuie să rezolvi o structură experimentală”. Acest lucru ar putea duce la reducerea finanțării, a talentelor și a altor resurse pentru tipurile de experimente necesare pentru a verifica activitatea computerului și pentru a forja noi terenuri, spune el.
Bouatta de la Harvard Medical School este mai optimist. El crede că, probabil, cercetătorii nu au nevoie să investească resurse experimentale în tipurile de proteine pe care AlphaFold le prezice bine, ceea ce ar trebui să ajute biologii structurali să trieze unde să își investească timpul și banii.
„Există proteine pentru care AlphaFold încă se luptă”, este de acord Bouatta. Cercetătorii ar trebui să-și cheltuiască capitalul acolo, spune el. „Poate că dacă vom genera mai multe [experimental] date pentru aceste proteine dificile, le-am putea folosi pentru reantrenarea unui alt sistem de inteligență artificială” care ar putea face predicții și mai bune.
El și colegii săi au făcut deja o inginerie inversă a lui AlphaFold pentru a crea o versiune numită OpenFold pe care cercetătorii o pot antrena pentru a rezolva alte probleme, cum ar fi acele complexe proteice noduroase, dar importante.
Cantitățile masive de ADN generate de Proiectul Genomului uman au făcut posibilă o gamă largă de descoperiri biologice și au deschis noi domenii de cercetare (SN: 2/12/22, p. 22). A avea informații structurale despre 200 de milioane de proteine ar putea fi la fel de revoluționar, spune Bouatta.
În viitor, datorită AlphaFold și rudelor sale de inteligență artificială, spune el, „nici măcar nu știm ce fel de întrebări am putea pune”.