Google lance Gemini, son nouveau modèle d'intelligence artificielle qui se veut meilleur que GPT-4

Par:
fredericmazue

jeu, 07/12/2023 - 15:30

En février dernier, Google avait lancé son modèle d'initelligence artificielle Bard. Un lancement fait dans la précipitation, car Google ne voulait pas être à la traîne derrière Microsoft qui venait de lancer ChatGPT. Mais ce fut un lancement que l'on peut qualifier de raté.

Hier, mercredi 6 décembre 2023, Google a frappé un grand coup pour effacer tout ça, en lançant en fanfare son nouveau modèle d'intelligence artificielle, qui bien sûr est, selon Mountain View, supérieur au modèle GPT-4 d'OpenAI que Microsoft utilise pour ChatGPT et ses assistants Copilot.

Sundar Pichai lui-même a présent Gemini, nouvelle panacée du monde moderne, en évitant soigneusement de revenir sur l'épisode Bard : Nous passons désormais à l'étape suivante de notre voyage avec Gemini, notre modèle le plus performant et le plus général à ce jour, avec des performances de pointe selon de nombreux critères de référence. Notre première version, Gemini 1.0, est optimisée pour différentes tailles : Ultra, Pro et Nano. Ce sont les premiers modèles de l’ère Gemini et la première concrétisation de la vision que nous avions lorsque nous avons créé Google DeepMind plus tôt cette année. Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris en tant qu’entreprise. Je suis vraiment enthousiasmé par ce qui nous attend et par les opportunités que Gemini offrira aux gens du monde entier.

A la suite de Sundar Pichai, Demis Hassabis, PDG et co-fondateur de Google DeepMind, a présenté Gemini. Il le décrit comme le résultat d'efforts collaboratifs à grande échelle menés par des équipes de Google, y compris les collègues de Google Research. Gemini a été conçu dès le départ pour être multimodal, ce qui signifie qu'il peut généraliser et comprendre, fonctionner et combiner de manière transparente différents types d'informations, notamment le texte, le code, l'audio, l'image et la vidéo.

Demis Hassabis insiste sur la flexibilité de Gemini capable de fonctionner efficacement sur tout, des centres de données aux appareils mobiles. Ses capacités de pointe amélioreront considérablement la façon dont les développeurs et les entreprises clientes construisent et évoluent avec l’IA.

Gemini est optimisé piur trois tailles différentes :

  • Gemini Ultra : le modèle le plus grand et le plus performant pour les tâches très complexes.
  • Gemini Pro : le meilleur modèle pour évoluer sur un large éventail de tâches.
  • Gemini Nano : le modèle le plus efficace pour les tâches sur appareil.

Le même Demis Hassabis est intarrissable sur le performance de Gemini : De la compréhension naturelle des images, de l'audio et de la vidéo au raisonnement mathématique, les performances de Gemini Ultra dépassent les résultats de pointe actuels sur 30 des 32 références académiques largement utilisées dans la recherche et le développement de grands modèles de langage (LLM).

Avec un score de 90,0 %, Gemini Ultra est le premier modèle à surpasser les experts humains en matière de MMLU (compréhension massive du langage multitâche), qui utilise une combinaison de 57 matières telles que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique pour tester les deux mondes. connaissances et capacités de résolution de problèmes.

Notre nouvelle approche de référence de MMLU permet à Gemini d'utiliser ses capacités de raisonnement pour réfléchir plus attentivement avant de répondre à des questions difficiles, conduisant à des améliorations significatives par rapport à la simple utilisation de sa première impression.

Au-delà de réfléchier plus attentivement, Demis Hassabis attribue encore à Gemini, la capacité de raisonnement sophistiqué.

Pour les développeurs et l"écriture de code

Là aussi Gemini promet des merveilles avec cette première version qui peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, comme Python, Java, C++ et Go. Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles de base pour le codage au monde.

Gemini Ultra excelle dans plusieurs tests de codage, notamment HumanEval, une norme industrielle importante pour évaluer les performances des tâches de codage, et Natural2Code, notre ensemble de données interne réservé, qui utilise des sources générées par l'auteur au lieu d'informations basées sur le Web.

Gemini peut également être utilisé comme moteur pour des systèmes de codage plus avancés. Il y a deux ans, nous présentions AlphaCode, le premier système de génération de code d'IA à atteindre un niveau de performance compétitif dans les compétitions de programmation.

À l'aide d'une version spécialisée de Gemini, nous avons créé un système de génération de code plus avancé, AlphaCode 2, qui excelle dans la résolution de problèmes de programmation compétitifs qui vont au-delà du codage pour impliquer des mathématiques complexes et de l'informatique théorique.

Et comme il faut entraîner les modèle,s Google a dans la foulée présentée le système TPU le plus puissant, efficace et évolutif à ce jour, Cloud TPU v5p, conçu pour entraîner des modèles d'IA de pointe. Ce TPU de nouvelle génération accélérera le développement de Gemini et aidera les développeurs et les entreprises clientes à former plus rapidement des modèles d'IA générative à grande échelle, permettant ainsi aux nouveaux produits et fonctionnalités d'atteindre les clients plus rapidement, assure Mountain View.


Une rangée de supercalculateurs accélérateurs d'IA Cloud TPU v5p dans un centre de données Google.

Gemini partout

Comme Microsoft l'a fait avec Copilot, Google va mettre Gemini partout. Bard utilisera une version affinée de Gemini Pro pour un raisonnement, une planification, une compréhension plus avancés et bien plus encore, dit Google. Il s'agit de la plus grande mise à jour de Bard depuis son lancement. Il sera disponible en anglais dans plus de 170 pays et territoires, et Google prévoit de l'étendre à différentes modalités et de prendre en charge de nouvelles langues et de nouveaux emplacements dans un avenir proche.

Gemini arrive dans les téléphones Pixel. Ainsi Le Pixel 8 Pro est le premier smartphone conçu pour exécuter Gemini Nano, qui intègre de nouvelles fonctionnalités telles que Résumer dans l'application Recorder et le déploiement de Smart Reply dans Gboard, en commençant par WhatsApp – avec d'autres applications de messagerie à venir l'année prochaine.

Dans les mois à venir, Gemini sera disponible dans davantage de produits et services tels que Search, Ads, Chrome et Duet AI.

Site : deepmind.google/technologies/gemini