Scienza

DeepMind, l’IA di Alphabet, ha pubblicato la struttura 3D di (quasi) tutte le proteine esistenti: perché è importante

La struttura 3D di una delle proteine nel database AlphaFold.
La struttura 3D di una delle proteine nel database AlphaFold. 
L’IA della famiglia Google ha ricostruito e svelato le strutture di 200 milioni di molecole. E le ha rese pubbliche in un database aperto a tutti
2 minuti di lettura

È nato appena quattro anni fa. E da allora ha lavorato senza posa, giungendo oggi all'incredibile risultato di aver svelato la struttura molecolare di circa 200 milioni di proteine, quasi tutte quelle note alla scienza. Il protagonista di questa impresa è AlphaFold, sistema di intelligenza artificiale sviluppato da Deepmind di Alphabet (ovvero la grande famiglia Google) e dallo European Molecular Biology Laboratory (Embl), il cui database è passato dalle 350mila molecole di un anno fa, per l'appunto, ai 200 milioni di oggi. Un'enorme banca dati che è consultabile gratuitamente da tutti gli scienziati del mondo, e che sta dando contributi fondamentali nei campi della farmacologia, della biologia, della medicina e molto altro: "Solo nell'ultimo anno", ha commentato in proposito Sameer Velankar, team leader della Embl-Ebi Protein data bank europea, "sono stati pubblicati oltre mille articoli scientifici su un'ampia gamma di argomenti di ricerca che utilizzano le strutture di AlphaFold. E questo è solo l'impatto di un milione di previsioni: immaginate quale può essere quello di 200 milioni, tutte apertamente accessibili nel nostro database".

Per capire la portata del lavoro di AlphaFold e il suo funzionamento bisogna anzitutto ricordare cosa sono e come sono fatte le proteine. Si tratta di molecole che costituiscono uno dei principali "ingredienti" di tutte le forme viventi, composte da singole unità - gli amminoacidi - disposti tridimensionalmente nello spazio. Sebbene esistano solo venti amminoacidi, i loro possibili arrangiamenti spaziali sono tantissimi, e a ciascun arrangiamento corrisponde una proteina diversa, e a ciascuna proteina delle caratteristiche biologiche e delle funzioni diverse. La conoscenza della struttura tridimensionale di una proteina è determinante, perché oltre a fornirci indicazioni sulla sua funzione, ci dà istruzioni anche su come modificarla, bloccarla o regolarla. È un po' come se avessimo venti mattoncini da costruzione da poter assemblare in milioni di configurazioni differenti per ottenere un'infinità di oggetti differenti, e AlphaFold ci avesse appena fornito il libretto di istruzioni per costruire duecento milioni di questi oggetti.

Fino al perfezionamento degli algoritmi di intelligenza artificiale, svelare la struttura di una proteina era estremamente complicato: lo si faceva, sostanzialmente, cercando di osservare le molecole al microscopio o ai raggi X. AlphaFold, invece, funziona in modo completamente diverso, sfruttando tecniche di machine learning, bioinformatica e biologia strutturali: il suo "cervello" ha studiato la struttura di migliaia di proteine note, e in base a questa ha imparato a prevedere la forma delle altre. E lo ha imparato molto bene: al momento, ricevendo in input un elenco di amminoacidi, è in grado di prevedere la struttura tridimensionale di una proteina con un'accuratezza che due terzi delle volte è comparabile a quella degli esperimenti con microscopio e raggi X. Ed è solo l'inizio, fanno sapere da DeepMind: "AlphaFold è uno sguardo al futuro, e a quello che potrebbe essere possibile applicando alla biologia le tecniche computazionali dell'intelligenza artificiale. Proprio come la matematica è il linguaggio descrittivo perfetto per la fisica, pensiamo che l'intelligenza artificiale sia la tecnica giusta per far fronte alla complessità dinamica della biologia. Ci sentiamo pionieri nel campo della 'biologia digitale', e non vediamo l'ora che questi strumenti ci aiutino a comprendere i meccanismi fondamentali della vita".