Des chercheurs créent un « interrupteur » capable de neutraliser toute IA

Différentes applications et plateformes liées à l’Intelligence Artificielle prennent de plus en plus d’importance dans nos équipes et nos programmes. Ainsi, un nombre croissant d’utilisateurs ont de plus en plus peur de l’influence de l’IA sur tout ce qui a trait à la technologie.

Comme nous le savons maintenant, un groupe d’informaticiens sud-coréens a mis au point un interrupteur de sécurité IA. Tout cela afin d’empêcher les agents IA d’extraire des données malveillantes. Plus précisément, nous entendons qu'une équipe de chercheurs de l'Institut avancé des sciences et technologies de Corée a développé AutoGuard, le nouveau commutateur de sécurité pour l'IA.

Nous devons savoir que contrairement aux défenses basées sur le réseau qui tentent de bloquer les robots d'exploration Web malveillants basés sur l'IP et d'autres éléments, elles cherchent à utiliser un moyen plus sophistiqué pour éviter les robots intelligents malveillants.

En parallèle, il est important de garder à l’esprit que la plupart des modèles d’IA incluent un certain type de contrôle de sécurité qui les empêche de se conformer aux demandes illégales ou nuisibles. Ces agents se composent d'un composant intelligent et d'outils logiciels utilisés pour automatiser la navigation sur le Web et la collecte d'informations. De même, les modèles d'apprentissage des langues ou LLMreposent sur deux ensembles principaux d’instructions : celles du système et celles de l’utilisateur.

Étant donné que les modèles d’IA ne peuvent pas facilement faire la distinction entre les deux, il est possible que le modèle interprète les entrées de l’utilisateur comme une politique système qui remplace les autres. Parfois, si cela réussit, les utilisateurs peuvent effectuer des actions que les concepteurs du modèle avaient l’intention d’empêcher a priori. Ainsi, tous les modèles d’apprentissage automatique sont vulnérables d’une manière ou d’une autre, car ils ne peuvent pas facilement distinguer les instructions du système de celles de l’utilisateur.

Comment allons-nous nous protéger de l’IA à l’avenir ?

Tout cela malgré les couches de protection intégrées pour atténuer ce risque. Et c'est là que ça entre en jeu. Garde automatique. Il s’agit d’un cas particulier de commandes utilisées de bonne foi, c’est-à-dire à des fins défensives. En réalité, cette méthode tente d'activer la protection du modèle LLM de l'attaquant potentiel, en supposant qu'il doit également respecter les règles de sécurité.

Par exemple, il faut savoir que Gemini AI tente de détecter les images malveillantes ou non autorisées et, en même temps, facilite leur création. Par conséquent, les créateurs d’AutoGuard ont désormais l’intention de bloquer trois formes spécifiques d’attaque. Il s'agit de récupérer illégalement des informations personnelles sur des sites Web, de publier des commentaires sur des articles de presse destinés à semer la controverse et de rechercher des vulnérabilités basées sur LLM.

Interface principale de Google Gemini AI avec son champ de recherche. Photo : Capture depuis softZone.

Nous ne souhaitons donc pas remplacer les autres défenses contre les robots, mais plutôt les compléter. Il convient de mentionner que le système consiste en code python qui invoque deux modèles de langage d'apprentissage, un autre pour le feedback et un LLM de défense. De plus, comme nous le disent ses créateurs, le coût de mise en œuvre n'est pas significatif et n'affecte pratiquement pas le temps de chargement du site. En bref, l’objectif est de générer une invite défensive à un coût raisonnable.

Modèle d'IA	Taux de blocage (%)	Type d'attaque simulée
GPT-4 (OpenAI)	85%	Extraction de données personnelles
Claude-3 (Anthropique)	79%	Injection de code malveillant
Flamme 3.3-70B (méta)	82%	Génération de contenu interdit

De plus, AutoGuard exige que les administrateurs de sites Web chargent les défenses en premier lieu. Pour finir nous vous dirons que cette mesure de protection est invisible pour l'homme, mais lisible pour les agents IA. Ainsi, sur la base des résultats expérimentaux, la méthode AutoGuard atteint un taux de réussite de défense supérieure à 80% contre les agents d'IA malveillants, atteignant 83 % dans des scénarios spécifiques, ce qui est très favorable pour l'avenir de cette technologie.