0
(0)

La sfârșitul anului 2025, am relatat despre dezvoltarea unui sistem AI denumit Evo, antrenat pe un număr impresionant de genomuri bacteriene. Numărul acestora era atât de mare încât, când i se prezentau secvențe dintr-un cluster de gene înrudite, sistemul putea identifica corect următoarea genă sau putea sugera o proteină complet nouă.

Această metodologie a avut succes deoarece la bacterii genele înrudite tind să fie grupate împreună – un aspect care nu se regăsește la organismele cu celule complexe, care au structuri genomice la fel de complexe. Având în vedere aceasta, am menționat în articolul nostru că „nu este clar dacă această abordare va funcționa și pentru genomurile mai complexe”.

Se pare că echipa din spatele Evo a privit această incertitudine ca pe o provocare, deoarece astăzi ne prezintă Evo 2, un AI open source antrenat pe genomuri din toate cele trei domenii ale vieții (bacterii, archaea și eucariote). După antrenarea pe trilioane de perechi de baze de ADN, Evo 2 a dezvoltat reprezentări interne ale caracteristicilor cheie din genomuri complexe, cum ar fi ale noastre, incluzând elemente precum ADN-ul regulator și situsurile de splicing, care pot fi dificil de identificat de către oameni.

Genomurile bacteriene sunt organizate după principii relativ simple. Orice gene care codifică proteine sau ARN sunt contigue, fără întreruperi în secvența de codificare. Genele care îndeplinesc funcții înrudite, precum metabolizarea unei zaharuri sau producerea unui aminoacid, sunt adesea grupate împreună, ceea ce le permite să fie controlate de un sistem regulator compact. Totul este eficient și simplu.

Eucariotele nu funcționează astfel. Secțiunile codante ale genelor sunt întrerupte de introni, care nu codifică nimic. Acestea sunt reglementate de secvențe care pot fi împrăștiate pe sute de mii de perechi de baze. Secvențele care definesc marginile intronilor sau situsurile de legare ale proteinelor regulatorii sunt toate slab definite – deși au câteva baze absolut necesare, multe baze au doar o tendință peste medie de a prezenta o bază specifică (ceva de genul „45% din timp este un T”). În jurul tuturor acestor elemente, în majoritatea genomurilor eucariotice, există o cantitate enormă de ADN denumită adesea “gunoi”: virusuri inactive, gene deteriorate iremediabil, și așa mai departe.

Această complexitate a făcut ca genomurile eucariote să fie mai dificil de interpretat. Și, deși au fost dezvoltate multe unelte specializate pentru identificarea elementelor precum situsurile de splicing, acestea sunt suficient de predispuse la erori încât devine o problemă când analizezi ceva la scara unui genom de 3 miliarde de baze. Putem învăța mult mai mult prin compararea evolutivă și căutarea secvențelor conservate, dar există limite pentru acest proces, și adesea suntem interesati și de diferențele dintre specii.

Aceste tipuri de probabilități statistice, totuși, sunt foarte potrivite pentru rețelele neuronale, care sunt excelente în recunoașterea modelor subtile ce pot fi imposibil de detectat cu ochiul liber. Dar ai nevoie de cantități masive de date și timp de procesare pentru a

Sursa: Ars Technica

Poll: Care dintre următoarele opțiuni credeți că va fi mai eficientă pentru identificarea genelor și a proteinelor în genomurile eucariote, având în vedere complexitatea acestora?





Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?

Modelul revoluționar de inteligență artificială în genomica extinsă: Evo 2, deschizător de drumuri în biotehnologie

Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România

Leave a Reply

Your email address will not be published. Required fields are marked *

  • Rating