ML.NET 2.0

Par:
fredericmazue

ven, 25/11/2022 - 12:34

Microsoft a publié ML.NET 2.0. ML.NET est un framework de machine learning open source et multi plates-formes destiné aux développeurs .NET. Cette nouvelle version de ML.NET est accompagné d'une nouvelle version de Model Builder.

La nouveauté majeure de ML.NET 2.0 est son API de classification de texte. Cette API avait été présentée en préversion au mois de juin dernier. Comme son nom l'indique, cette API permet de former des modèles personnalisés qui classent les données de texte brut. Pour ce faire, il intègre une implémentation TorchSharp de NAS-BERT dans ML.NET. À l'aide d'une version pré-entraînée de ce modèle, l'API de classification de texte utilise vos données pour affiner le modèle. Microsoft a désormais affiné cette API et annonce le scénario de classification de texte dans Model Builder optimisé par l'API de classification de texte ML.NET.

Avec ce nouveau scénario, les développeurs peuvent former des modèles de classification de texte personnalisés à l'aide des dernières techniques d'apprentissage en profondeur de Microsoft Research dans Model Builder.

Ce scénario prend en charge la formation locale sur le CPU et le GPU. Un GPU compatible CUDA est requis et Microsoft recommande au moins 6 Go de mémoire dédiée. 

ML.NET 2.0 introduit également une nouvelle API pour la similarité des phrases. Cette API utilise le même modèle TorchSharp NAS-BERT sous-jacent que l'API de classification de texte. La principale différence est qu'au lieu de prédire une catégorie, le modèle calcule une valeur numérique qui représente la similarité de deux phrases.

Microsoft souligne que pour activer les scénarios de traitement du langage naturel tels que la classification de texte et la similarité des phrases, un moyen de traiter les données textuelles était nécessaire. Ce traitement se fait souvent à l'aide de techniques de tokenisation. Microsoft a implémenté un tokenizer pour le modèle anglais Roberta qui utilise l'algorithme Byte-Pair Encoding pour répondre aux exigences du modèle NAS-BERT. Microsoft a ensuite décidé de publier les API de tokenisation à l'intérieur de ML.NET dans le package NuGet

ML.NET s'exécute sous Windows, Linux et macOS sous .NET Core. C'est un logiciel libre sous licence MIT. Il est disponible sur GitHub

ML.NET dispose également d'un site officiel qui propose notamment un guide de démarrage.