L'IA transforme le reverse engineering en pillage légal de l'open source

Malus.sh utilise l'IA pour contourner les licences open source via la méthode 'clean room'. Une satire qui fonctionne vraiment et révèle une faille systémique.

29 avr. 2026
L'IA transforme le reverse engineering en pillage légal de l'open source
This AI Tool Rips Off Open Source Software Without Violating Copyright
Malus, which is a piece of satire but also fully functional, performs a “clean room” clone of open source software, meaning users could then sell software without crediting the original developers.

Malus.sh propose de « libérer » n'importe quel logiciel open source de ses obligations de licence pour 0,01$ par Ko de données. L'outil utilise deux agents IA distincts pour reproduire la méthode « clean room » historique d'IBM (1982), créant du code fonctionnellement identique mais juridiquement distinct.

Le service est issu d'une présentation FOSDEM 2026 intitulée « Let's end open source together with this one simple trick » — une satire de la communauté FOSS pour rendre visible une faille systémique. Mais la satire fonctionne réellement : Malus est une LLC, encaisse via Stripe, a des clients payants. Le cofondateur Mike Nolan déclare à 404media : « It works ». L'avertissement est devenu son propre exemple.

Une affaire distincte illustre la même dynamique. En mars 2026, Dan Blanchard a utilisé Claude Code pour réécrire en cinq jours la bibliothèque Python chardet (130 millions de téléchargements mensuels), passant d'une licence LGPL restrictive à MIT permissive, avec un gain de performance de 41x. Mesures à l'appui (JPlag) : 1,30% de similarité maximale entre le nouveau code et l'ancien, contre 80 à 93% entre les versions précédentes.

La controverse a éclaté deux jours après la sortie. Mark Pilgrim, créateur originel de chardet en 2006, disparu d'internet en 2011, est revenu pour signaler que les sous-agents de Claude avaient consulté le code LGPL d'origine dans trois sessions, malgré les instructions explicites de Blanchard. Le « clean room » n'était donc pas parfaitement clean — et Claude avait de toute façon chardet dans ses données d'entraînement.

Cette asymétrie révèle un paradoxe systémique : l'IA peut accomplir en jours ce qui prenait des mois à des équipes entières, transformant le reverse engineering d'exception technique coûteuse en commodité accessible. L'open source, qui repose sur la réciprocité et la contribution collective, se retrouve vulnérable face à des acteurs qui peuvent extraire la valeur sans contribuer en retour. Et la frontière juridique du « clean room » version IA reste à établir : si les sous-agents lisent le code source qu'on leur interdit, le cloisonnement n'existe que sur le papier.

Points de vigilance

Risque de destruction de l'écosystème open source si la pratique se généralise. Les LLM étant entraînés sur du code open source, la légalité du 'clean room' IA reste contestable.

Et maintenant ?

  • 🤘 Créer une certification 'Ethical AI Development' pour les entreprises

Coalition fondations open source + syndicats tech + investisseurs ESG pour établir un label certifiant que l'IA d'une entreprise n'exploite pas l'open source sans réciprocité. Mécanisme : audit des pratiques de développement IA, transparence sur les données d'entraînement, engagement de contribution. Effet de levier : pression économique via les critères ESG et la réputation.

→ On saura que ça marche quand les entreprises IA commenceront à publier des rapports de contribution open source comme elles publient des rapports carbone.

  • 🤘 Développer des licences 'AI-aware' avec clauses anti-exploitation

Alliance juristes spécialisés + maintainers open source + EFF pour créer de nouvelles licences intégrant des clauses spécifiques à l'IA : interdiction d'entraînement sans accord, obligation de réciprocité pour les outputs IA, mécanismes de rémunération automatique. Effet de levier : adoption progressive par les projets majeurs créant un nouveau standard.

→ On saura que ça marche quand au moins 3 projets du top 100 GitHub adopteront ces nouvelles licences et que les entreprises IA devront négocier des accords spécifiques.

  • 💪 Auditer et documenter l'usage de ses projets par les LLM

Chaque maintainer peut utiliser des outils comme GitHub Copilot Investigations ou Have I Been Trained pour identifier si son code alimente des LLM commerciaux, puis documenter publiquement ces usages. Effet démultiplicateur : créer une base de données collective des exploitations non-consenties, alimenter les recours juridiques futurs et sensibiliser la communauté.

→ On saura que ça marche quand une base de données publique référencera les exploitations de code open source par les LLM et servira de preuve dans les premiers procès.


Citations clés

"L'ensemble de l'économie du développement logiciel est morte, disparue, terminée, kaput ! Nous avons déjà vécu cela, par exemple quand l'imprimerie est arrivée et a donné naissance au droit d'auteur. Je pense que celui-ci est tout aussi important."

— Bruce Perens, Évangéliste open source

"Il n'y a rien de 'propre' dans un grand modèle de langage qui a ingéré le code qu'on lui demande de réimplémenter."

— Zoë Kooyman, Directrice exécutive, Free Software Foundation

"Une réimplémentation 'clean room' détruit tout cela. Vous obtenez un instantané sans aucune maintenance. Ce n'est pas de la libération, c'est juste de la dette technique."

— Mike McQuaid, Développeur de Homebrew


8/10 : Score sur l'échelle des "5 piliers de la liberté", inspiré de l'ouvrage de Timothy Snyder
Framework #FLTR — Note méthodologique
Protocole de production et de publication dont la ligne éditoriale est codée dans l’ADN-même du projet. Cette architecture auto-apprenante transforme une intention humaine en contraintes techniques, imposées tant aux outils d’intelligence artificielle qu’aux humains qui les entrainent, et vice-versa

Ces pistes ne sont pas des recettes toutes faites, mais des points d'entrée pour repenser nos systèmes numériques selon une logique de liberté positive : non pas limiter, mais augmenter nos capacités collectives d'action.


Note du 29 avril 2026 — Cette version corrige une première publication qui (a) sous-développait la dimension satirique de Malus.sh, (b) annonçait un gain de performance de 48x au lieu de 41x pour chardet, et (c) ne mentionnait pas la controverse Pilgrim sur les sous-agents ayant lu le code LGPL malgré les instructions explicites du mainteneur. Merci aux lectrices et lecteurs qui l'ont signalé.


💬 On en discute ?

Tu veux recevoir le flux quotidien des articles publiés sur le site ? Suis-moi sur LinkedIn, Bluesky, Mastodon, Facebook ou rejoins-moi sur Discord !

Tu as des remarques, des suggestions, ou tu veux discuter d'une idée pour avancer dans tes propres projets ? Connecte-toi et laisse-moi un commentaire ou jette un oeil directement à mon agenda. 📆