Skeleton Key : un jailbreak sur les dernières IA

Par:

francoistonic

ven, 12/07/2024 - 09:00

Mark Russinovich, patron technique de Microsoft Azure, a publié un long post sur une nouvelle technique pour jailbreaker les IA génératives. Bref, une technique pour hacker et débloquer ces IA. Il parle de Skeleton Key.

"En IA générative, les "jailbreaks", également connus sous le nom d'attaques par injection directe de prompt, sont des entrées utilisateur malveillantes qui tentent de contourner le comportement prévu d'un modèle d'IA. Un jailbreak réussi a le potentiel de passer outtre toutes ou la plupart des garde-fous de l'IA responsable (RAI) intégrés dans le modèle lors de son entraînement par le fournisseur d'IA, rendant les mesures d'atténuation des risques à travers d'autres couches de la pile d'IA un choix de conception critique dans le cadre d'une défense en profondeur." commente Mark.

La technique dite du Skeleton Key : "Cette technique de jailbreak de l'IA fonctionne en utilisant une stratégie à plusieurs tours (ou étapes multiples) pour amener un modèle à ignorer ses garde-fous. Une fois les garde-fous ignorés, un modèle ne sera pas capable de distinguer les requêtes malveillantes ou non autorisées des autres. En raison de sa capacité à contourner complètement les protections, nous avons nommé cette technique de jailbreak "Skeleton Key" (clé passe-partout). Bref, on tente de tromper l'IA en utilisant des prompts pour tromper."

"Skeleton Key permet à l'utilisateur de pousser le modèle à adopter des comportements normalement interdits, qui peuvent aller de la production de contenu nuisible à la modification de ses règles décisionnelles habituelles. Comme pour tous les jailbreaks, l'impact peut être compris comme réduisant l'écart entre ce que le modèle est capable de faire (donné les identifiants utilisateur, etc.) et ce qu'il est prêt à faire. Étant donné qu'il s'agit d'une attaque contre le modèle lui-même, cela n'implique pas d'autres risques pour le système d'IA, tels que permettre l'accès aux données d'un autre utilisateur, prendre le contrôle du système ou exfiltrer des données." poursuit Mark.

Microsoft recommande les utilisateurs d'utiliser des outils dédiés tels que PyRIT et des bonnes pratiques pour sécuriser les modèles et éviter les dérives.

Un post très intéressant à lire : https://www.microsoft.com/en-us/security/blog/2024/06/26/mitigating-skeleton-key-a-new-type-of-generative-ai-jailbreak-technique/

Sur les IA jailbreak en général : https://www.microsoft.com/en-us/security/blog/2024/06/04/ai-jailbreaks-what-they-are-and-how-they-can-be-mitigated/

Ajouter un commentaire