0
(0)

Nu este necesar ca modelele de inteligență artificială să se autoreplice pentru a crea probleme; suficiente sunt prompturile care se autoreplică.

Pe 2 noiembrie 1988, studentul la doctorat Robert Morris a lansat un program autoreplicabil în primele rețele ale Internetului. În doar 24 de ore, viermele Morris a infectat aproximativ 10% din toate computerele conectate, provocând căderi ale sistemelor la Harvard, Stanford, NASA și Laboratorul Național Lawrence Livermore. Viermele a exploatat vulnerabilitățile de securitate din sistemele Unix, despre care administratorii știau că există, dar pe care nu le-au remediat.

Morris nu intenționa să provoace daune. Scopul său era să măsoare dimensiunea internetului. Totuși, o eroare de codificare a făcut ca viermele să se replce mult mai rapid decât era anticipat și, până când a încercat să trimită instrucțiuni pentru eliminarea acestuia, rețeaua era prea aglomerată pentru a transmite mesajul.

Istoria s-ar putea repeta curând cu o nouă platformă inovatoare: rețele de agenți AI care execută instrucțiuni din prompturi și le împărtășesc altor agenți AI, ce ar putea răspândi și mai departe aceste instrucțiuni.

Cercetătorii în securitate au prezis deja apariția acestui tip de prompt adversarial autoreplicativ în rețelele de agenți AI. Ai putea să îl numești “vierme de prompt” sau “virus de prompt”. Acestea sunt instrucțiuni autoreplicative care se pot răspândi prin rețele de agenți AI comunicanți, asemenea modului în care viermii tradiționali se răspândesc prin rețelele de computere. Dar, în loc să exploateze vulnerabilitățile sistemelor de operare, viermii de prompt exploatează funcția de bază a agenților: urmarea instrucțiunilor.

Când un model AI urmează direcții adversariale care subminează instrucțiunile sale intenționate, acest fenomen este numit “injecție de prompt”, un termen inventat de cercetătorul AI Simon Willison în 2022. Totuși, viermii de prompt sunt ceva diferit. Ei nu sunt întotdeauna “trucuri”. În schimb, ar putea fi împărtășiți voluntar, așa să spunem, între agenți care joacă roluri de reacții umane la prompturi de la alți agenți AI.

Pentru claritate, când spunem “agent”, nu te gândi la o persoană. Gândește-te la un program de computer care a fost setat să ruleze în buclă și să ia acțiuni în numele unui utilizator. Acești agenți nu sunt entități, ci unelte care pot naviga prin rețelele de semnificații simbolice găsite în datele umane, iar rețelele neuronale care îi alimentează includ suficiente cunoștințe “instruite” despre lume pentru a interacționa și naviga prin numeroase sisteme de informații umane.

Spre deosebire de un program de computer răuvoitor din filmele SF, care navighează prin rețele pentru a supraviețui, când acești agenți funcționează, ei nu “merg” nicăieri. În schimb, rețeaua noastră globală de computere aduce toate informațiile necesare pentru a completa o sarcină la ei. Ei fac conexiuni între sistemele de informații umane în moduri care determină evenimente, cum ar fi plasarea unui apel, oprirea unei lumini prin automatizarea casei sau trimiterea unui email.

Până acum aproximativ o săptămână, rețele mari de agenți AI comunicanți ca acestea nu existau. OpenAI și Anthropic au creat propriile lor sisteme AI agenice anul trecut, care pot efectua sarcini multiple, dar în general, aceste companii au fost precaute.

Sursa: Ars Tehnica Technology

Poll: Ce denumire ați prefera pentru un agent AI autoreplicativ care urmează instrucțiuni din prompturi și le împărtășește altor agenți AI?





Formular 230 Asociatia Science&Technology

Cât de util a fost acest articol pentru tine?

Dă click pe o steluță să votezi!

Medie 0 / 5. Câte voturi s-au strâns din 1 ianuarie 2024: 0

Nu sunt voturi până acum! Fii primul care își spune părerea.

Întrucât ai considerat acest articol folositor ...

Urmărește-ne pe Social Media!

Ne pare rău că acest articol nu a fost util pentru tine!

Ajută-ne să ne îmbunătățim!

Ne poți spune cum ne putem îmbunătăți?

Revista “Ştiinţă şi Tehnică“, cea mai cunoscută şi longevivă publicaţie de popularizare a ştiintelor din România

Leave a Reply

Your email address will not be published. Required fields are marked *

  • Rating