
Jailbreaking la Chatbot-urile AI: Tehnici, Exemple și Apărări
Jailbreaking-ul chatbot-urilor AI ocolește barierele de securitate pentru a face modelul să se comporte în afara limitelor sale intenționate. Aflați cele mai co...
Project Glasswing de la Anthropic utilizează cel mai puternic model AI pentru a descoperi mii de vulnerabilități zero-day în software-ul critic. Iată tot ce trebuie să știe dezvoltatorii și profesioniștii în securitate.
Anthropic tocmai a lansat Project Glasswing — o inițiativă de securitate cibernetică care asociază cele mai mari companii tech din lume cu un model AI suficient de puternic pentru a descoperi vulnerabilități ascunse în software-ul critic de decenii. Modelul a descoperit deja mii de vulnerabilități zero-day, inclusiv erori în fiecare sistem de operare și browser web major.
Aceasta nu este o lansare de produs sau o nouă funcționalitate API. Este un efort defensiv coordonat bazat pe premisa că atacurile cibernetice alimentate de AI vor veni, iar cea mai bună apărare este să descoperi vulnerabilitățile mai întâi.
Project Glasswing este o inițiativă inter-industrială de securitate cibernetică lansată de Anthropic pe 7 aprilie 2026. Misiunea sa principală: utilizarea AI pentru a descoperi și remedia vulnerabilitățile din infrastructura software critică înainte ca atacatorii să le poată exploata.
Inițiativa este alimentată de Claude Mythos Preview, cel mai avansat model frontier nelansat al Anthropic. Spre deosebire de modelele Claude anterioare, Mythos are capacități emergente în descoperirea vulnerabilităților și dezvoltarea de exploit-uri care reprezintă un salt calitativ — nu din antrenament explicit pe securitate, ci din îmbunătățiri generale ale raționamentului pe cod.
Argumentul Anthropic este simplu: modelele AI au atins un nivel de capacitate la care depășesc majoritatea oamenilor în descoperirea și exploatarea vulnerabilităților software. Pe măsură ce aceste capabilități se proliferează, actorii rău intenționați vor obține inevitabil acces. Consecințele — pentru economii, siguranță publică și securitate națională — ar putea fi severe. Project Glasswing este răspunsul preventiv: folosește aceeași putere în mod defensiv.
Rezultatele sunt remarcabile. Claude Mythos Preview a descoperit deja mii de vulnerabilități zero-day — erori care au trecut nedetectate ani, uneori decenii:
| Vulnerabilitate | Software | Vechime | Detalii |
|---|---|---|---|
| Overflow de întreg cu semn în implementarea SACK | OpenBSD | 27 de ani | Vulnerabilitate în stiva de rețea |
| Exploit codec H.264 prin coliziunea sentinelei de slice | FFmpeg | 16 ani | Vulnerabilitate în procesarea media |
| Corupere de memorie guest-to-host | VMM production memory-safe | — | Evadare din hypervisor |
| Vulnerabilități multiple | Fiecare OS și browser major | Diverse | Pe întreaga stivă |
Și nu doar descoperă erori — dezvoltă exploit-uri funcționale:
Mai puțin de 1% din vulnerabilitățile descoperite au fost remediate până acum. Anthropic folosește o cronologie de divulgare responsabilă de 90+45 de zile și hash-uri de angajament SHA-3 pentru a demonstra posesia detaliilor despre vulnerabilități fără a le dezvălui.
Claude Mythos Preview nu este doar incrementar mai bun — reprezintă un salt de capacitate în analiza securității codului.
| Benchmark | Mythos Preview | Opus 4.6 | Diferență |
|---|---|---|---|
| CyberGym (analiză de vulnerabilități) | 83,1% | 66,6% | +16,5 |
| SWE-bench Pro | 77,8% | 53,4% | +24,4 |
| SWE-bench Verified | 93,9% | 80,8% | +13,1 |
| BrowseComp | 86,9% | 83,7% | +3,2 |
| GPQA Diamond (raționament științific) | 94,6% | 91,3% | +3,3 |
| Humanity’s Last Exam (fără instrumente) | 56,8% | 40,0% | +16,8 |
| Humanity’s Last Exam (cu instrumente) | 64,7% | 53,1% | +11,6 |
Diferența de securitate este dramatică. Într-un test pe corpusul OSS-Fuzz cu 7.000 de puncte de intrare, Mythos a obținut 595 de crash-uri la nivelurile 1-2, cu 10 preluări complete ale fluxului de control. Împotriva motorului JavaScript al Firefox 147, a dezvoltat 181 de exploit-uri funcționale — comparativ cu doar 2 de la Opus 4.6.
Echipa de red team a Anthropic notează că „Opus 4.6 a avut o rată de succes aproape de 0% la dezvoltarea autonomă de exploit-uri." Mythos nu a obținut aceste capabilități din antrenament specializat pe securitate — au apărut din îmbunătățiri generale ale raționamentului pe cod. Asta face totul atât puternic, cât și îngrijorător.
Modelul operează într-un scaffold agentic:
Acesta nu este un scanner static. Este un agent autonom care raționează despre comportamentul codului, distinge între funcționalitatea intenționată și cea reală și identifică vulnerabilități logice precum bypass-urile de autentificare — nu doar pattern-uri de corupere a memoriei.
Project Glasswing nu este un instrument de dezvoltare de uz general. Accesul este deliberat restricționat:
Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA și Palo Alto Networks.
Aproximativ 40 de organizații suplimentare responsabile de infrastructura software critică au, de asemenea, acces.
Dacă întreții un depozit public cu peste 5.000 de stele pe GitHub sau peste 1M de descărcări lunare NPM, poți aplica prin programul Claude for Open Source .
Aceasta este calea cea mai accesibilă pentru dezvoltatorii individuali. Programul oferă acces la Claude special pentru analiza de securitate a proiectelor open-source.
Un viitor Cyber Verification Program va permite profesioniștilor legitimi în securitate să aplice pentru acces. Detaliile nu au fost încă anunțate, dar probabil va necesita acreditări profesionale sau afiliere organizațională.
Claude Mythos Preview este disponibil în previzualizare de cercetare restricționată prin Amazon Bedrock cu controale de securitate enterprise — criptare gestionată de client, izolare VPC și logare detaliată.
După previzualizarea de cercetare, prețul API va fi de 25$ / 125$ per milion de tokenuri de intrare/ieșire prin Claude API, Amazon Bedrock, Google Vertex AI și Microsoft Foundry.
Chiar dacă nu ai acces direct la Project Glasswing, implicațiile sunt semnificative:
Dependențele tale vor deveni mai sigure. Project Glasswing scanează software-ul pe care totul este construit — sisteme de operare, browsere, codecuri media, stive de rețea, hypervisoare. Patch-urile rezultate din această inițiativă vor îmbunătăți securitatea întregului ecosistem.
Peisajul vulnerabilităților se schimbă. AI poate acum să descopere erori pe care decenii de revizuire umană le-au ratat. Asta ridică ștacheta pentru ceea ce înseamnă „cod securizat" și accelerează cronologia în care clasele de vulnerabilități cunoscute sunt descoperite și remediate.
Instrumentele de securitate alimentate de AI vin. Ceea ce Mythos poate face astăzi într-un cadru restricționat, alte modele se vor apropia în anii următori. Practicile de dezvoltare conștiente de securitate și instrumentele asociate vor deveni cerințe de bază.
Open-source beneficiază disproporționat. Anthropic s-a angajat cu 2,5 milioane de dolari pentru Alpha-Omega și OpenSSF prin Linux Foundation, plus 1,5 milioane de dolari pentru Apache Software Foundation. Combinat cu 100 de milioane de dolari în credite de utilizare a modelelor pentru participanți, aceasta este o investiție substanțială în securitatea open-source.
Nu toți sunt entuziaști. Reacțiile comunității au fost mixte:
Preocupări legate de accesul selectiv. Criticii argumentează că restricționarea accesului la marile companii tech creează o asimetrie — organizațiile mari obțin securitate mai bună, în timp ce proiectele și companiile mai mici sunt lăsate pe dinafară. Unii văd aceasta ca o contradicție a statutului de corporație cu beneficiu public al Anthropic.
Întrebări despre siguranță. Au fost suficiente 24 de ore de revizuire internă înainte de a anunța un model atât de capabil? Anthropic argumentează că se pregătesc de luni de zile, dar cronologia publică comprimată a atras atenția.
Scepticismul de marketing. Unii observatori se întreabă dacă aceasta este parțial un exercițiu de marketing înaintea potențialului IPO al Anthropic, poziționând compania ca un administrator responsabil al AI-ului puternic.
Dinamica „damnat oricum ai face". Atât lansarea largă a modelului, cât și restricționarea lui au dezavantaje. Lansarea largă riscă să împuternicească atacatorii. Lansarea restricționată riscă să creeze o diviziune permanentă de securitate. Nu există un răspuns curat.
Anthropic plănuiește să transfere în cele din urmă guvernanța Project Glasswing către „un organism independent, terț" care să coordoneze proiectele de securitate cibernetică în sectoarele privat și public.
Iată căile concrete disponibile astăzi:
| Cale | Cerințe | Cum să aplici |
|---|---|---|
| Claude for Open Source | Peste 5.000 de stele pe GitHub sau peste 1M de descărcări NPM | Aplică aici |
| Cyber Verification Program | Acreditări de profesionist în securitate | În curând |
| Enterprise (Amazon Bedrock) | Contract enterprise | Prin AWS |
| Partener de lansare | Organizație de infrastructură critică | Prin invitație |
Pentru majoritatea dezvoltatorilor, programul Claude for Open Source este punctul de intrare realist. Dacă întreții un proiect care se califică, aplică acum — programul oferă acces la Claude pentru analiza de securitate a codului tău sursă.
Project Glasswing este cea mai ambițioasă inițiativă de securitate cibernetică alimentată de AI de până acum. Asociază un model AI care poate descoperi autonom vulnerabilități zero-day vechi de decenii cu organizațiile responsabile de cel mai critic software din lume.
Modelul de acces restricționat este controversat, dar probabil necesar — aceleași capabilități care fac din Mythos un apărător excepțional l-ar face un atacator excepțional în mâinile greșite. Deocamdată, beneficiile se propagă prin divulgarea coordonată și remediere către întregul ecosistem.
Pentru dezvoltatori, concluzia practică este: dependențele software-ului tău sunt pe cale să primească mai multă atenție de securitate decât au avut vreodată. Vulnerabilitățile pe care Mythos le descoperă astăzi vor deveni patch-uri în lunile următoare. Menține-ți dependențele actualizate, urmărește avertizările de securitate și, dacă întreții un proiect open-source care se califică, aplică pentru programul Claude for Open Source.
Era descoperirii vulnerabilităților alimentată de AI a sosit. Project Glasswing este prima încercare coordonată de a se asigura că apărătorii se mișcă primii.
Construit cu FlowHunt . Fii la curent cu ultimele evoluții din AI și securitate cibernetică pe blogul nostru .
Viktor Zeman este co-proprietar al QualityUnit. Chiar și după 20 de ani de conducere a companiei, rămâne în primul rând un inginer software, specializat în AI, SEO programatic și dezvoltare backend. A contribuit la numeroase proiecte, inclusiv LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab și multe altele.

FlowHunt te ajută să construiești pipeline-uri AI automatizate cu securitate de nivel enterprise — folosind cele mai bune modele disponibile, inclusiv Claude.

Jailbreaking-ul chatbot-urilor AI ocolește barierele de securitate pentru a face modelul să se comporte în afara limitelor sale intenționate. Aflați cele mai co...

Jailbreaking AI se referă la tehnici care ocolesc barierele de siguranță și constrângerile comportamentale ale modelelor lingvistice mari, determinându-le să pr...

Explorați îngrijorările cofondatorului Anthropic, Jack Clark, despre siguranța AI, conștientizarea situațională în modelele lingvistice mari și peisajul de regl...
Consimțământ Cookie
Folosim cookie-uri pentru a vă îmbunătăți experiența de navigare și a analiza traficul nostru. See our privacy policy.