Recent, sistemele de inteligență artificială (IA) au înregistrat progrese remarcabile într-o zonă vitală a biologiei: relația dintre structura unei proteine și funcția acesteia. Aceste eforturi au inclus capacitatea de a prezice structura majorității proteinelor și de a proiecta proteine astfel încât să îndeplinească funcții utile. Totuși, aceste eforturi s-au concentrat exclusiv pe proteine și aminoacizii care le compun.
În biologie, noi proteine nu sunt create direct la acest nivel. Modificările trebuie să aibă loc mai întâi la nivelul acizilor nucleici, pentru ca apoi să se manifeste la nivelul proteinelor. Și, deoarece nivelul ADN-ului este destul de îndepărtat de proteine, având multe secvențe necodante critice, redundanțe și un grad considerabil de flexibilitate, nu este neapărat evident că înțelegerea organizării unui genom ar ajuta un sistem de IA să figureze cum să producă proteine funcționale.
Totuși, se pare că folosirea genomurilor bacteriene pentru antrenament poate ajuta la dezvoltarea unui sistem care poate prezice proteine, unele dintre ele fiind complet noi și nevăzute anterior.
Cercetarea recentă a fost realizată de o echipă restrânsă de la Universitatea Stanford și se bazează pe o caracteristică comună în genomurile bacteriene: gruparea genelor cu funcții similare. Adesea, bacteriile au toate genele necesare pentru o anumită funcție – importul și digestia unei zaharuri, sintetizarea unui aminoacid, etc. – situate una lângă alta în genom. În multe cazuri, toate aceste gene sunt transcrise într-un singur ARN mesager mare. Aceasta oferă bacteriilor o modalitate simplă de a controla activitatea întregilor căi biochimice deodată, sporind eficiența metabolismelor bacteriene.
Așadar, cercetătorii au dezvoltat ceea ce ei numesc un „model lingvistic genomic” pe care l-au denumit Evo, bazat pe o colecție enormă de genomuri bacteriene. Antrenamentul a fost similar cu cel al unui model lingvistic mare, în care Evo a fost solicitat să ofere predicții ale următoarei baze dintr-o secvență, fiind recompensat atunci când a răspuns corect. Este de asemenea un model generativ, în sensul că poate lua un prompt și poate produce secvențe noi cu un grad de aleatoriu, în sensul că același prompt poate produce o gamă variată de rezultate.
Cercetătorii susțin că această configurare permite lui Evo să „coreleze modelele la nivel de nucleotid cu contextul genomic la scară de kilobaze”. În alte cuvinte, dacă îi oferiți o bucată mare de ADN genomic, Evo poate interpreta aceasta așa cum un model lingvistic interpretează o interogare și poate produce un răspuns care, în sens genomic, este adecvat acelei interpretări.
Pornind de la antrenamentul pe genomuri bacteriene, cercetătorii au presupus că ar putea folosi un gen cunoscut ca prompt, iar Evo ar trebui să producă un răspuns care include regiuni ce codifică proteine cu funcții asemănătoare. Întrebarea cheie este dacă ar reproduce doar secvențele pentru proteinele deja cunoscute sau dacă ar produce rezultate mai puțin previzibile.
Pentru a începe testarea sistemului, cercetătorii l-au solicitat cu fragmente de gene.
Poll: Care este cel mai mare beneficiu al folosirii genomurilor bacteriene pentru antrenamentul unui sistem de IA în predicția și producția de proteine noi?


Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România





























Leave a Reply