GitHub Copilot pourrait être poursuivi en justice pour violations de licences open source

Par:
fredericmazue

mer, 19/10/2022 - 12:09

GitHub Copilot, qui a été lancé en juin 2022, est, selon les termes de GitHub, un partenaire d'intelligence artificielle pour aider le développeur à écrire un meilleur code. Développé en collaboration avec OpenAI, GitHub Copilot est alimenté par OpenAI Codex, un nouveau système d'IA créé par OpenAI. OpenAI Codex a une connaissance approfondie de la façon dont les gens utilisent le code. GitHub Copilot fonctionne avec un large éventail de frameworks et de langages. Ce super assistant est capable suggérer des blocs de code volumineux, comme le corps entier d'une fonction.

Présentées comme ça les choses sont séduisantes. Mais Matthew Butterick, développeur et avocat, voit les choses sous un autre angle.

Dans un très intéressant billet, il écrit : En juin 2022, j'écrivais sur les problèmes juridiques avec GitHub Copilot, en particulier sa mauvaise gestion des licences open-source. Récemment, j'ai franchi l'étape suivante : j'ai réactivé mon adhésion au barreau de Californie pour faire équipe avec les incroyablement excellents avocats en recours collectif Joseph Saveri, Cadio Zirpoli et Travis Manfredi du cabinet d'avocats Joseph Saveri sur un nouveau projet : Nous enquêtons sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux.

Dans son billet, après avoir rappelé le fonctionnement de GitHub Copilot, il écrit : Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub . Microsoft lui-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40 ) que Copilot est « formé sur les dépôts publics sur GitHub ».

Or la grande majorité des logiciels open source sont publiés sous des licences qui accordent aux utilisateurs certains droits et imposent certaines obligations (par exemple, en préservant l'attribution exacte du code source). Mais dans les blocs de code suggérés par les informations sur l'origine du code (auteur, licence, etc.) sont supprimées.

Pour Matthew Butterick les méthodes de récupération de code astucieuses de Copilot sont un écran de fumée destiné à dissimuler une vérité crasseuse : Copilot n'est qu'une interface alternative pratique à un vaste corpus de code open source. Par conséquent, les utilisateurs de Copilot peuvent encourir des obligations de licence envers les auteurs du code sous-jacent.

Il ajoute : En proposant Copilot comme interface alternative à un grand nombre de codes open source, Microsoft fait plus que rompre la relation juridique entre les auteurs et les utilisateurs open source. On peut dire que Microsoft est en train de créer un nouveau jardin clos qui empêchera les programmeurs de découvrir les communautés open source traditionnelles. Ou à tout le moins, supprime toute incitation à le faire.

Dans le cadre de cette enquête pour déterminer si un éventuel procès peut-être lancé, Matthew Butterick invite les utilisateurs de GitHub Copilot à communiquer avec lui, notamment s'ils ont des raisons de croire que leur code a été utilisé pour former le Codex ou le Copilot d'OpenAI.