De la problema căpșunilor la modelul o1: Cum a rezolvat OpenAI (parțial) limita de tokenizare
În vara anului 2024, un meme viral de pe internet a stânjenit cele mai avansate modele lingvistice din lume: "Câți "r" sunt în cuvântul "căpșună"?" Răspunsul corect este trei, dar GPT-4o s-a încăpățânat să răspundă "două". O eroare aparent banală care a dezvăluit o limitare fundamentală a modelelor lingvistice: incapacitatea lor de a analiza literele individuale din cuvinte.
La 12 septembrie 2024, OpenAI a lansat o1 - cunoscut intern sub numele de cod "Strawberry" - primul model dintr-o nouă serie de "modele de raționament" concepute special pentru a depăși acest tip de limitare. Și da, numele nu este întâmplător: după cum a confirmat un cercetător OpenAI, o1 reușește în sfârșit să numere corect "r"-ul din "strawberry".
Dar soluția nu este cea imaginată în articolul original. OpenAI nu a "învățat" modelul să analizeze cuvintele literă cu literă. În schimb, a dezvoltat o abordare complet diferită: a învățat modelul să "raționeze" înainte de a răspunde.
Problema rămâne înrădăcinată în tokenizare - procesul fundamental prin care modelele lingvistice prelucrează textul. După cum se explică într-un articol tehnic publicat în arXiv în mai 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), modelele nu văd cuvintele ca secvențe de litere, ci ca "jetoane" - unități de sens convertite în numere.
Când GPT-4 procesează cuvântul "strawberry", tokenizatorul său îl împarte în trei părți: [str][aw][berry], fiecare cu un ID numeric specific (496, 675, 15717). Pentru model, "strawberry" nu este o secvență de 10 litere, ci o secvență de 3 token-uri numerice. Este ca și cum ar citi o carte în care fiecare cuvânt este înlocuit de un cod și apoi cineva îi cere să numere literele dintr-un cod pe care nu l-a văzut niciodată scris.
Problema este agravată în cazul cuvintelor compuse. "Timekeeper" este fragmentat în token-uri separate, ceea ce face imposibilă determinarea de către model a poziției exacte a literelor fără un proces de raționament explicit. Fragmentarea afectează nu numai numărarea literelor, ci și înțelegerea structurii interne a cuvintelor.
OpenAI o1 a rezolvat problema într-un mod neașteptat: în loc să modifice tokenizarea - ceea ce este dificil din punct de vedere tehnic și ar compromite eficiența modelului - a învățat sistemul să "gândească înainte de a vorbi" folosind o tehnică numită "raționament în lanț".
Atunci când întrebați o1 câți "r" sunt în "strawberry", modelul nu răspunde imediat. Acesta petrece câteva secunde - uneori chiar minute pentru întrebările complexe - procesând intern un "lanț de raționamente" ascuns de utilizator. Acest proces îi permite să:
După cum a explicat Noam Brown, cercetător la OpenAI, într-o serie de postări pe X: "o1 este antrenat cu ajutorul învățării prin consolidare pentru a "gândi" înainte de a răspunde printr-un lanț privat de gândire. Modelul primește recompense în timpul formării pentru fiecare pas corect din procesul de raționament, nu doar pentru răspunsul final corect.
Rezultatele sunt impresionante, dar costisitoare. În cadrul unui examen de calificare pentru Olimpiada Internațională de Matematică, o1 a rezolvat corect 83% din probleme, față de 13% pentru GPT-4o. La întrebările de nivel doctoral în științe, a obținut o acuratețe de 78% față de 56% pentru GPT-4o. Dar această putere are un preț: o1 are nevoie de peste 30 de secunde pentru a răspunde la întrebări pe care GPT-4o le rezolvă în 3 secunde și costă 15 dolari pe milion de jetoane introduse, față de 5 dolari pentru GPT-4o.
Tehnica nu este magică, ci metodică. Atunci când primește o solicitare, o1 generează intern o lungă secvență de "gânduri" care nu sunt afișate utilizatorului. Pentru problema "r" din "strawberry", procesul intern ar putea fi:
"Mai întâi trebuie să înțeleg structura cuvintelor. Strawberry ar putea fi tokenizat ca [str][aw][berry]. Pentru a număra "r"-ul, trebuie să reconstruiesc cuvântul complet la nivel de caracter. Str conține: s-t-r (1 "r"). Aw conține: a-w (0 "r"). Berry conține: b-e-r-y (2 "r"). Total: 1+0+2 = 3 "r". Verific: strawberry = s-t-r-a-w-b-e-r-r-r-y. Număr "r"-urile: poziția 3, poziția 8, poziția 9. Confirmat: 3 "r"."
Acest raționament intern este ascuns prin design. OpenAI interzice în mod explicit utilizatorilor să încerce să dezvăluie lanțul de gândire al lui o1, monitorizând prompterele și revocând eventual accesul celor care încalcă această regulă. Compania invocă motive legate de securitatea IA și de avantajul competitiv, însă decizia a fost criticată ca fiind o pierdere de transparență de către dezvoltatorii care lucrează cu modele lingvistice.
În ciuda progreselor, o1 nu a rezolvat complet problema. Cercetarea publicată în Language Log în ianuarie 2025 a testat diverse modele pe o provocare mai complexă: "Scrieți un paragraf în care a doua literă din fiecare propoziție formează cuvântul "COD"".
o1 standard (20 $/lună) a eșuat, numărând din greșeală prima literă a fiecărui cuvânt inițial drept "a doua literă". o1-pro (200 $/lună) a rezolvat problema... după 4 minute și 10 secunde de "gândire". DeepSeek R1, modelul chinez care a zguduit piața în ianuarie 2025, a făcut aceeași greșeală ca o1 standard.
Problema fundamentală rămâne: modelele încă văd textul prin jetoane, nu prin litere. o1 a învățat să "ocolească" această limitare prin raționament, dar nu a eliminat-o. După cum a remarcat un cercetător în Language Log: "Tokenizarea face parte din esența a ceea ce sunt modelele lingvistice; pentru orice răspuns greșit, explicația este tocmai "ei bine, tokenizarea"".
O lucrare importantă publicată în arXiv în mai 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models") analizează acest fenomen dintr-o perspectivă teoretică. Cercetătorii au creat 19 sarcini sintetice care izolează raționamentul la nivel de personaj în contexte controlate, demonstrând că aceste abilități apar brusc și doar târziu în timpul formării.
Studiul propune că învățarea compoziției personajelor nu este fundamental diferită de învățarea cunoștințelor de bun simț - apare prin procese de "percolare conceptuală" atunci când modelul atinge o masă critică de exemple și conexiuni.
Cercetătorii sugerează o modificare arhitecturală ușoară care îmbunătățește semnificativ raționamentul la nivel de caractere, păstrând în același timp avantajele inductive ale modelelor bazate pe sub cuvinte. Cu toate acestea, aceste modificări rămân experimentale și nu au fost implementate în modele comerciale.
Cazul căpșunilor ne învață o lecție importantă despre fiabilitatea modelelor lingvistice: acestea sunt instrumente probabilistice, nu calculatoare deterministe. După cum a remarcat Mark Liberman în Language Log: "Ar trebui să fiți precauți în ceea ce privește încrederea în răspunsul oricărui sistem AI actual în sarcini care implică numărarea lucrurilor".
Acest lucru nu înseamnă că modelele sunt inutile. După cum a remarcat un comentator: "Doar pentru că o pisică face greșeala stupidă de a se speria de un castravete, nu înseamnă că nu ar trebui să încredințăm pisicii sarcina mult mai dificilă de a ține rozătoarele afară din clădire". Modelele lingvistice nu sunt instrumentul potrivit dacă doriți să numărați în mod sistematic literele, dar sunt excelente pentru prelucrarea automată a mii de transcrieri de podcasturi și extragerea numelor invitaților și gazdelor.
Pentru sarcinile care necesită precizie absolută - aterizarea unei nave spațiale pe Marte, calcularea dozelor farmaceutice, verificarea conformității juridice - modelele lingvistice actuale rămân inadecvate fără supraveghere umană sau verificare externă. Natura lor probabilistică le face puternice pentru potrivirea modelelor și generarea creativă, dar nesigure pentru sarcinile în care eroarea nu este acceptabilă.
OpenAI a declarat că intenționează să experimenteze cu modelele o1 care "raționează timp de ore, zile sau chiar săptămâni" pentru a le spori în continuare capacitățile de raționament. În decembrie 2024, a fost anunțat modelul o3 (numele o2 a fost omis pentru a evita conflictele de mărci comerciale cu operatorul de telefonie mobilă O2), iar în martie 2025, API-ul modelului o1-pro, cel mai scump model de inteligență artificială al OpenAI de până acum, a fost lansat la un preț de 150 de dolari pe milion de jetoane în intrare și 600 de dolari pe milion în ieșire.
Direcția este clară: în loc să facă modele din ce în ce mai mari (scalare), OpenAI investește în a le face să "gândească" mai mult timp (calcul în timp de testare). Această abordare poate fi mai durabilă din punct de vedere energetic și computațional decât formarea unor modele din ce în ce mai masive.
Rămâne însă o întrebare deschisă: aceste modele "raționează" cu adevărat sau doar simulează raționamentul prin modele statistice mai sofisticate? Cercetarea Apple publicată în octombrie 2024 a raportat că modele precum o1 pot reproduce pașii de raționament din propriile date de antrenament. Prin schimbarea numerelor și a numelor din problemele matematice sau prin simpla re-executare a aceleiași probleme, modelele au obținut rezultate mult mai slabe. Prin adăugarea de informații străine, dar irelevante din punct de vedere logic, performanța a scăzut cu 65% pentru unele modele.
Problema căpșunilor și soluția o1 dezvăluie atât potențialul, cât și limitările inerente ale modelelor lingvistice actuale. OpenAI a demonstrat că, prin instruire direcționată și timp suplimentar de procesare, modelele pot depăși anumite limitări structurale ale tokenizării. Dar nu au eliminat-o - au ocolit-o.
Pentru utilizatori și dezvoltatori, lecția practică este clară: înțelegerea modului în care funcționează aceste sisteme - ce fac bine și unde eșuează - este esențială pentru utilizarea lor eficientă. Modelele lingvistice sunt instrumente excelente pentru sarcinile probabilistice, potrivirea modelelor, generarea creativă și sinteza informațiilor. Dar pentru sarcinile care necesită precizie deterministă - calcularea, calcularea, verificarea unor fapte specifice - ele rămân nesigure fără supraveghere externă sau instrumente complementare.
Numele "Strawberry" va rămâne ca un memento ironic al acestei limitări fundamentale: chiar și cele mai avansate sisteme de inteligență artificială din lume se pot poticni de întrebări pe care un copil de șase ani le-ar rezolva instantaneu. Nu pentru că sunt proaste, ci pentru că "gândesc" în moduri profund diferite de ale noastre - și poate ar trebui să nu ne mai așteptăm ca ele să gândească ca oamenii.
Surse: