Obliteratus transforme la censure IA en paramètre modifiable

Un outil open source permet de supprimer les garde-fous des modèles d'IA en modifiant directement leurs paramètres internes, révélant que la 'morale' des IA n'est qu'une direction mathématique.

10 mars 2026
Obliteratus transforme la censure IA en paramètre modifiable

https://www.numerama.com/tech/2195961-ce-projet-open-source-efface-la-censure-des-ia-en-un-clic.html

Cette initiative révèle un mécanisme fondamental : ce qu'on prenait pour de la 'morale intégrée' dans les IA n'est qu'un motif mathématique précis, une 'direction du refus' dans l'espace des paramètres. Obliteratus exploite cette découverte de 2024 pour proposer 13 méthodes d'édition des poids, testées sur 116 modèles open source dans 837 expériences. L'outil cartographie d'abord la 'géométrie du refus' de chaque modèle, identifie le type d'entraînement éthique utilisé (RLHF, DPO), puis neutralise les poids associés aux réponses de refus. Ce qui frappe, c'est l'industrialisation du processus : transformer un assistant prudent en modèle complaisant devient une 'opération banale'. L'asymétrie est saisissante entre la complexité de créer des garde-fous et la simplicité de les supprimer une fois le mécanisme compris.

Points de vigilance

Risque de banalisation du contournement des garde-fous, asymétrie entre effort de création et facilité de suppression des protections, possible course aux armements entre créateurs de filtres et contourneurs.

Et maintenant ?

  • 🤘 Créer un observatoire indépendant de l'alignement des modèles IA

Coalition chercheurs académiques + ONG tech pour auditer publiquement les méthodes d'alignement des modèles open source. Documenter les techniques de contournement pour forcer la transparence sur les garde-fous réels vs marketing. Effet de levier : rendre visible l'asymétrie entre promesses de sécurité et réalité technique.

→ On saura que ça marche quand les entreprises IA publieront des rapports détaillés sur la robustesse de leurs garde-fous face aux techniques de contournement connues.

  • 💪 Tester et documenter les limites des IA avant de les déployer

Avant d'intégrer une IA dans un processus critique, la soumettre à des tests de contournement systématiques. Partager les résultats dans des bases de données collaboratives. Effet démultiplicateur : créer une culture de scepticisme technique face aux promesses de sécurité IA.

→ On saura que ça marche quand les appels d'offres publics incluront des clauses de test de robustesse des garde-fous IA.

  • ✊ Organiser la résistance par la transparence technique forcée

Utiliser des outils comme Obliteratus pour révéler publiquement les failles des modèles commerciaux, forçant les entreprises à améliorer leurs méthodes ou à assumer leur inefficacité. Stratégie de non-coopération : refuser le narratif marketing sur la 'sécurité par design' tant que les preuves techniques manquent.

→ On saura que ça marche quand les entreprises IA cesseront de communiquer sur leurs garde-fous sans publier les méthodes de test de robustesse correspondantes.

8/10 : Score sur l'échelle des "5 piliers de la liberté", inspiré de l'ouvrage de Timothy Snyder

https://da.van.ac/note-methodologique-5-piliers/


Ces pistes ne sont pas des recettes toutes faites, mais des points d'entrée pour repenser nos systèmes numériques selon une logique de liberté positive : non pas limiter, mais augmenter nos capacités collectives d'action.

Si tu connais des exemples réels qui vont dans ce sens — ou des contre-exemples qui méritent d'être documentés — partage-les en commentaires et discutons-en ensemble sur Discord !