AI_dev Paris 2024 : de l’IA et des LLM

Par:
francoistonic

ven, 21/06/2024 - 09:53

La fondation Linux organisait à Paris un événement sur l’IA : AI_dev. Comme son nom l’indique, le prisme était le développeur et la technologie IA. L’agenda était particulièrement riche et intense. Chaque journée démarrait par une série de courtes keynotes. Puis à partir de 11h / 11h30, de multiples sessions se jouaient dans l’ensemble des salles sur plusieurs thèmes : l’IA en action, la sécurité, régulation et standards, éthique, performance, etc. Le plus difficile était de choisir, comme souvent dans ce genre de conférence. Les sessions étaient courtes : 30 minutes ce qui permet d’en voir plus. 

Les keynotes de 2e journée étaient particulièrement intéressantes :

- the common pathway of AI and software par Waren Long (poolside) : un des problèmes de l’IA n’est pas l’IA proprement dite, mais les données. Bref, les capacités des IA demandent des données de qualités. Ce sont les données qui déterminent la pertinence des LLM. « La qualité de vos datasets détermine les capacités de votre modèle » martèle Warren. Derrière, il y a l’importance du pipeline des données / LLM. Comme l’explique sur scène Warren, il faut passer des données préparatoires (= données totalement brutes) aux données filtrées puis aux étapes de déduplications. On passe ainsi de 100 % de données à -15 %. C’est la véritable valeur des données. Poolside a décidé de se focaliser sur la génération logicielle et non sur les LLM généralistes. Pour ce faire, il faut des LLM spécifiques et entraînés. Un usage précis donc. Les défis sont nombreux : trouver les données de qualité et les bons LLM, comment les identifier, dédupliquer au maximum. Il met donc en avant les LLM communs et les LLM du développement logiciel qui ont un focus très précis. 

- Common Corpus par Anastasia Stasenko : comment créer des LLM open source avec des données open source. Est-il possible de le faire ? Anastasia rappelle que dans les datasets, nous trouvons des données vérifiables (et donc sourcées) et des données pirates non autorisées. Ce qui peut poser problème au niveau légal et de conformité. Elle rappelle qu’un modèle LLM a besoin de données, de beaucoup de données et de nouvelles données. Pour créer des modèles, elle rappelle ensuite le besoin d’avoir un corps commun et coordonné, par exemple en Europe. À partir de ce corpus, il y a la capacité à inférer les LLM. Il faut que tous les acteurs puissent y participer. Par exemple, Reddit qui conclut un accord avec Google pour que les LLM / IA Google puissent utiliser l’énorme corpus de Reddit. Dans le même temps, le New York Times avait engagé une action en justice contre OpenAI et Microsoft pour violation de propriétés. Anastasia évoque le Common Corpus publié sur HuggingFace : 500 milliards de mots d’appuyant sur une vaste diversité de sources. Le corpus comprend différentes langues. Le Français concerne 110 milliards de mots. Elle évoque un point important : le corps commun s’appuie sur les données historiques et connues, mais il existe une quantité incroyable de données en ligne peu ou pas exploitées. 

- Open Source AI Everywhere par Omar Sanseviero (HuggingFace) : cette keynote rappelle le rôle essentiel de l’open source et comment les communautés et l’écosystème font vivre les LLM et donc l’IA. HuggingFace se présente comme un site collaboratif. Pourquoi un modèle collaboratif du machine learning ? Si ce n’est pas le cas, Omar évoque : une progression plus lente, une communauté hostile et des défis commerciaux difficiles à résoudre. Aujourd’hui, il existe de nombreux LLM et d’IA. Certains sont open source, d’autres non. Cela peut être un argument pour utiliser tel ou tel LLM. 

- le standard DBRX par Databricks : Databricks a présenté sur scène le standard DBRX qui doit permettre de fournir un format de données défini et stable pour la GenAI notamment quand on parle des données d’entreprises pour les LLM. Une des couches du standard est Mosaic AI. 

- Cross-platform AI apps in Docker : nous étions curieux de voir ce qui allait être présenté et malheureusement cette dernière keynote a été frustrante. Les deux intervenants ont expédié la présentation, sans live demo. Le point à retenir est que pour Docker, il y a une nouvelle dépendance : les GPU et puces IA dédiées. Or l’abstraction est essentielle : elle doit garantir la portabilité, l’universalité et une disponible réellement partout. Docker et les conteneurs peuvent y aider. Si les GPU et puces IA se généralisent, cela apporte un risque de dépendances à la plateforme hardware. Pour Docker, il faut une abstraction du hardware : peu importe le hardware sur lequel tourne mon IA et des LLM. Docker et les couches agnostiques doivent masquer cette dépendance. C’est pour cela que Docker supporte désormais WebGPU. La preview de Docker Desktop avec support de WebGPU est disponible avec plusieurs modèles utilisables.