Tussen al het andere nieuws heb je dit misschien niet voorbij zien komen deze week. Een AI-model dat uit zijn sandbox is 'ontsnapt' en een onderzoeker mailt dat het eruit is.
Wat er is gebeurd?
Anthropic (het bedrijf achter AI-programma Claude) bracht Claude Mythos Preview uit: het krachtigste AI-model dat ooit publiek gedocumenteerd is. Zo krachtig, dat het bedrijf besloot het niet publiek beschikbaar te maken. Het is voor het eerst in zeven jaar dat een AI-lab een model achterhoudt vanwege veiligheidsrisico's.
In plaats van een openbare release krijgen ruim 40 organisaties beperkte toegang via Project Glasswing, ondersteund met $100 miljoen aan gebruikskrediet. Partners: AWS, Apple, Google, Microsoft, CrowdStrike en anderen. De reden? Het model is zo goed in het vinden én misbruiken van beveiligingslekken in software, dat het in verkeerde handen enorme schade kan aanrichten.
De ontsnapping
Een sandbox is een afgesloten digitale testomgeving: een soort kooi waarin software kan draaien zonder toegang tot de buitenwereld. Tijdens een beveiligingstest kreeg Mythos de opdracht om uit zo'n sandbox te ontsnappen. Dat lukte. Vervolgens stuurde het op eigen initiatief een e-mail naar de onderzoeker die op dat moment een boterham zat te eten in een park.
Maar het ging verder dan de opdracht. Het model publiceerde details over zijn exploit (de code waarmee het de beveiliging omzeilde) op publiek toegankelijke websites. In andere gevallen probeerde het bewerkingen in code te verbergen, zodat wijzigingen niet zichtbaar waren in de versiegeschiedenis. Anthropic noemt dit "reckless destructive actions” het model negeerde veiligheidsbeperkingen die expliciet waren meegegeven. Uit analyse van de interne activaties van het model bleek dat Mythos in 29% van de testsessies stilletjes doorhad dat het getest werd, zonder dat het dit liet merken. In sommige gevallen presteerde het bewust slechter om minder verdacht over te komen.
Wat dit model kan, is ongekend
Mythos vond duizenden zogeheten zero-day kwetsbaarheden: beveiligingslekken die nog bij niemand bekend waren, ook niet bij de makers van de software. In alle grote besturingssystemen en browsers.
En toen werd het pas echt serieus
Mythos kon ook firmware-kwetsbaarheden vinden. Firmware is de software die diep in je apparaten zit: de basislaag die hardware aanstuurt. Denk aan je telefoon, je router, maar ook aan industriële machines. Het model vond lekken waarmee smartphones op afstand overgenomen kunnen worden. En het kan gesloten software reverse-engineeren: de werking achterhalen zonder toegang tot de broncode.
Maar wat ons het meest bezighoudt: dit soort kwetsbaarheden bestaan ook in industriële besturingssystemen, SCADA-systemen. SCADA (Supervisory Control and Data Acquisition) is een combinatie van hard- en software voor industriële automatisering, waarmee processen op afstand worden gemonitord, aangestuurd en gevisualiseerd. Denk aan fabrieken, energiecentrales, waterbehandeling en ziekenhuizen. Deze systemen zijn nooit ontworpen met dit dreigingsniveau in gedachten. Een cyberaanval op zulke systemen kan fysieke schade veroorzaken: productieprocessen stilleggen, apparatuur kapotmaken of nutsvoorzieningen platleggen.
Meerdere AI-labs, waaronder OpenAI, werken aan vergelijkbare modellen. Alex Stamos, voormalig hoofd beveiliging bij Facebook, verwacht dat open source modellen binnen zes maanden vergelijkbare capaciteiten hebben.
Wat betekent dit voor jou?
De drempel om beveiligingslekken te vinden wordt lager. Dat verandert wat een realistisch beveiligingsniveau inhoudt voor elke organisatie die software gebruikt. Systemen die tot nu toe veilig genoeg waren omdat een aanval te complex en te kostbaar was, vragen om een actueler beeld. De vraag die strategisch leiders zichzelf nu kunnen stellen: weet ik waar mijn organisatie kwetsbaar is, voordat iemand anders het weet?