Google lance Gemini 1.5

Par:
fredericmazue

ven, 16/02/2024 - 11:20

La course entre Google et Microsoft continue en ce qui concerne l'intelligence artificielle. Google vient d'annoncer le lancement de ce que l'entreprise appelle un modèle de nouvelle génération : Gemini 1.5. Pour mémoire Google avait lancé Gemini 1.0 mi-décembre dernier seulement.

Selon Mountain View Gemini 1.5 offre des performances considérablement améliorées. Cela représente un changement radical dans notre approche, en s’appuyant sur les innovations en matière de recherche et d’ingénierie dans presque tous les aspects du développement et de l’infrastructure de notre modèle de base. Cela inclut de rendre Gemini 1.5 plus efficace pour former et servir, avec une nouvelle architecture de mélange d'experts (MoE).

Le premier modèle Gemini 1.5 proposé pour des tests préliminaires est Gemini 1.5 Pro. Celui-ci est livré avec une fenêtre contextuelle standard de 128 000 jetons.

La « fenêtre contextuelle » d'un modèle d'IA est composée de jetons, qui sont les éléments constitutifs utilisés pour traiter les informations. Les jetons peuvent être des parties entières ou des sous-sections de mots, d’images, de vidéos, d’audio ou de code. Plus la fenêtre contextuelle d'un modèle est grande, plus il peut intégrer et traiter d'informations dans une invite donnée, ce qui rend sa sortie plus cohérente, pertinente et utile. Google se dit capable désormais de produire jusqu'à 1 million de jetons. Un groupe limité de développeurs et d'entreprises clientes peuvent d'ores et déjà essayer Gemini 1.5 avec une fenêtre contextuelle allant jusqu'à 1 million de jetons

Toujours selon Google, Gemini 1.5 Pro peut analyser, classer et résumer de manière transparente de grandes quantités de contenu dans une invite donnée. Google prend cet exemple : lorsqu'on lui donne les transcriptions de 402 pages de la mission Apollo 11 sur la lune, il peut raisonner sur les conversations, les événements et les détails trouvés dans le document.

Gemini 1.5 Pro peut comprendre, raisonner et identifier des détails curieux dans les transcriptions de 402 pages de la mission d'Apollo 11 sur la lune, assure Google.

Intarissable, Google explique encore que Gemini 1.5 Pro peut effectuer des tâches de compréhension et de raisonnement très sophistiquées pour différentes modalités, y compris la vidéo. Par exemple, lorsqu'on lui présente un film muet de Buster Keaton de 44 minutes , le modèle peut analyser avec précision divers points et événements de l'intrigue, et même raisonner sur de petits détails du film qui pourraient facilement passer inaperçus.

Gemini 1.5 Pro peut identifier une scène dans un film muet de Buster Keaton de 44 minutes lorsqu'on lui donne un simple dessin au trait comme matériau de référence pour un objet réel, souligne encore Google.

Une meilleure assistance pour l'écriture du code

A l'intention des développeurs qui utilisent das assitants de codage, Google indique que Gemini 1.5 Pro peut effectuer des tâches de résolution de problèmes plus pertinentes sur des blocs de code plus longs. Lorsqu'il reçoit une invite contenant plus de 100 000 lignes de code, il peut mieux raisonner à travers des exemples, suggérer des modifications utiles et donner des explications sur le fonctionnement des différentes parties du code.

Gemini 1.5 Pro peut raisonner sur 100 000 lignes de code offrant des solutions, modifications et explications utiles, précise encore Google.