Salesforces Research ouvre le code de LAVIS
mar, 22/11/2022 - 13:41
LAVIS (abréviation de LANguage-VISion) est une bibliothèque d'apprentissage en profondeur open source pour la recherche et les applications de la vision du langage, offrant un support complet pour un large éventail de tâches, d'ensembles de données et de modèles.
LAVIS dispose d'une interface unifiée pour accéder facilement à des modèles de langage d'image et de langage vidéo de pointe et à des ensembles de données communs. LAVIS prend en charge la formation, l'évaluation et l'analyse comparative sur une grande variété de tâches, y compris la classification multimodale, la récupération, le sous-titrage, la réponse visuelle aux questions, le dialogue et la pré-formation. LAVIS est également extensible et configurable, pour faciliter le développement et la personnalisation futurs.
Les composants clés de la bibliothèque sont organisés selon une conception modulaire. Cela permet, d'après SAlesforce Research, un accès prêt à l'emploi à des composants individuels, un développement rapide et une intégration facile de composants nouveaux ou externes. La conception modulaire facilite également les inférences de modèle, telles que l'extraction de caractéristiques multimodales.
LAVIS est un logiciel libre sous licence BSD 3, disponible sur GitHub.