Offrir la magie d’Amazon AI et Alexa aux applications sur AWS

Par :
Werner Vogels

jeu, 13/04/2017 - 11:28

Depuis les débuts d’Amazon, le Machine Learning (ML) joue un rôle crucial dans la création de valeur pour nos clients. Il y a environ 20 ans, nous utilisions le Machine Learning pour notre moteur de recommandation afin de générer des suggestions personnalisées pour nos clients. Aujourd’hui, des milliers de scientifiques et développeurs appliquent le Machine Learning dans divers domaines, allant des recommandations à la détection des fraudes, en passant par la gestion des stocks, la classification des livres et l’identification de commentaires grossiers. Il existe de nombreux autres domaines d’application dans lesquels nous utilisons beaucoup le ML : la recherche, les drones autonomes, la robotique dans les centres de traitement, le traitement de texte et la reconnaissance vocale (comme avec Alexa), etc.

Parmi les algorithmes de Machine Learning, il existe une catégorie nommée Deep Learning (apprentissage profond) qui désigne ces algorithmes capables d’absorber d’énormes quantités de données et d’apprendre des modèles élégants et utiles au sein de ces données : les visages d’une photo, la signification d’un texte ou l’intonation d’un mot. Après plus de 20 années passées à développer ces algorithmes de Machine Learning et de Deep Learning ainsi que des services à destinations des utilisateurs finaux, nous comprenons à la fois les besoins de la communauté scientifique qui conçoit ces algorithmes de Machine Learning et ceux des développeurs d’applications qui les utilisent. Nous avons également mis au point une technologie de Machine Learning importante qui peut être utile pour les scientifiques du Machine Learning et les  développeurs qui ne travaillent pas chez Amazon.

Je souhaite me concentrer ici sur l’aide à apporter aux développeurs qui ont décidé de développer leurs applications sur AWS et qui avaient déjà développé certaines applications précurseuses de notre époque sur AWS, comme Netflix, AirBnB, ou Pinterest, ou qui avaient créé des objets connectés exécutés par AWS tels qu’Alexa ou Dropcam. De nombreux développeurs ont été intrigués par l’étendue des possibilités offertes par Alexa et d’autres produits s’appuyant sur l’IA qui sont proposés ou utilisés par Amazon et souhaitent que nous les aidions à développer leurs propres applications capables d’entendre, voir, parler et comprendre le monde qui les entourent.

Par exemple, ils veulent que nous les aidions à développer des chatbots capables de comprendre le langage naturel, à construire des expériences conversationnelles sur le modèle d’Alexa pour des applications mobiles, à générer de la parole dynamiquement sans avoir besoin d’employer des acteurs pour le doublage et à reconnaître des images et des visages sur les photos sans intervention humaine. Cependant, très peu de développeurs ont pour le moment été capables de construire, déployer et redimensionner à grande échelle des applications avec des capacités IA car cela nécessite une expertise spécialisée (de doctorants en ML et réseaux neuronaux) et un accès à de grandes quantités de données. Appliquer l’IA efficacement implique un travail manuel considérable afin de développer et ajuster de nombreux types différents d’algorithmes de Machine Learning et Deep Learning (ex : reconnaissance vocale automatique, compréhension du langage naturel, classification des images), de récolter et trier les données d’apprentissage, et de former et régler les modèles de Machine Learning. Ce processus doit être répété pour chaque objet, chaque visage, chaque voix et chaque langue d’une application.

En novembre dernier, nous avons annoncé le lancement de trois services d’IA Amazon qui simplifient grandement ce processus et facilitent l’accès à l’IA pour un plus grand nombre de développeurs d’applications tout en offrant les algorithmes et technologies puissants et reconnus de Deep Learning d’Amazon sous la forme de services complètement gérés auxquels n’importe quel développeur peut accéder depuis un API ou en quelques clics sur l’AWS Management Console. Ces services Amazon Lex, Amazon Polly et Amazon Rekognition aideront les développeurs d’applications AWS à construire les prochaines générations d’applications  intelligentes. Les services IA d’Amazon offrent toutes les ressources des technologies de compréhension du langage naturel, de reconnaissance vocale, de transcription du texte et d’analyse d’image d’Amazon disponible à n’importe quelle échelle, pour n’importe quelle application, sur n’importe quel appareil, n’importe où.

Amazon Lex

Après le lancement de l’Alexa Skill Kit (ASK), les clients ont fortement apprécié le fait de pouvoir développer des bots vocaux ou des compétences pour Alexa. Ils nous ont également demandé de leur donner accès à la technologie qui anime Alexa, afin de pouvoir ajouter une interface de conversation (utilisant la voix ou le texte) à leurs applications mobile. Ils ont aussi voulu avoir la possibilité de publier leurs bots sur des services de chat comme Facebook Messenger ou Slack.

Amazon Lex est un nouveau service de construction d’interfaces de conversation utilisant la voix et le texte. Le même moteur de conversation que celui sur lequel s’appuie Alexa est à présent disponible pour tous les développeurs, facilitant l’intégration de « chatbots » de langage naturel innovants sur des applications nouvelles ou existantes. La puissance d’Alexa est désormais dans les mains de chaque développeur, sans qu’ils aient besoin de maîtriser les technologies de Deep Learning comme la reconnaissance vocale, créant ainsi un immense potentiel d’innovation dans de nouvelles catégories de produits et services. Les développeurs sont désormais capables de construire de puissantes interfaces de conversation qui opèrent à tous les niveaux et sur tous les appareils, simplement et rapidement.

La technologie de reconnaissance vocale et de compréhension du langage naturel qui se cache derrière Amazon Lex et Alexa repose sur des modèles de Deep Learning qui ont été testés sur d’immenses quantités de données. Il suffit simplement aux développeurs de saisir quelques phrases d’exemple ainsi que les informations nécessaires à la réalisation d’une tâche d’utilisateur, et Lex construit le modèle adapté basé sur le Deep Learning, guide la conversation et exécute la logique de gestion en utilisant AWS Lambda. Les développeurs peuvent construire, tester et déployer des chatbots directement à partir de l’AWS Management Console. Ces chatbots sont accessibles partout : depuis des applications web, des applications de chat ou de messageries telles que Facebook Messenger (avec le support pour l’exportation vers l’Alexa Skills Kit et bientôt le support Slack), ou des objets connectés. Les développeurs peuvent aussi inclure leurs bots Amazon Lex sans difficulté dans leurs propres applications mobiles iOS et Android grâce aux nouvelles caractéristiques des bots conversationnels sur l’AWS Mobile Hub.

Récemment, quelques clients dont HubSpot et Capital One, ont pu tester une version bêta d’Amazon Lex. Ils nous ont ensuite fait plusieurs commentaires qui ont été très utiles alors que nous finalisions Amazon Lex pour un lancement en avant-première.

HubSpot, leader des logiciels de vente et marketing, utilise un chatbot nommé GrowthBot afin d’aider les commerciaux et le personnel de vente à être plus productifs en leur donnant accès à des données et services pertinents. Dharmesh Shah, PDG et fondateur d’HubSpot, nous confie qu’Amazon Lex a activé des capacités innovantes de traitement du langage naturel pour GrowthBot afin d’offrir une interface utilisateur plus intuitive à ses clients. HubSpot a pu profiter des capacités avancées en IA et ML mises à disposition par Amazon Lex, sans avoir à coder leurs algorithmes.

Capital One propose une offre importante de produits et services financiers à des clients, petites entreprises et clients commerciaux, à travers plusieurs canaux. Firoze Lafeer, PDG de Capital One Labs, déclare qu’Amazon Lex permet à ses clients de rechercher des informations grâce à la voix ou à l’écriture en langage naturel, puis en déduit des informations clés conservées dans leur compte. Amazon Lex étant équipé de la technologie d’Alexa, Capital One est confiant quant à la précision des interactions client, permettant un déploiement et une évolutivité des bots faciles.

Amazon Polly

Le concept d’un ordinateur capable de s’exprimer avec une voix humaine remonte presque aussi loin qu’ENIAC (le premier ordinateur électrique programmable). Ce concept a été exploré par de nombreux films et séries de science-fiction populaires, tels que « 2001 : L’Odyssée de l’espace » avec HAL-900, ou l’ordinateur et le commandant Data de Star Trek, qui ont définit la représentation de la parole générée par ordinateur.

Les systèmes Text-to-Speech (TTS), qui permettent de transformer un texte écrit en texte parlé, ont été largement adoptés dans de nombreuses situations de la vie quotidienne, comme dans le cas des systèmes de téléphonie avec réponses automatiques ou les aides pour personnes malvoyantes ou malentendantes. La voix du Professeur Stephen Hawkins est probablement l’exemple le plus célèbre de parole synthétisée qui vient en aide aux personnes handicapées.

Les systèmes TTS n’ont cessé d’évoluer au cours des dernières décennies, et sont désormais capables de prononcer un discours qui semble assez naturel. Aujourd’hui, le TTS est utilisé dans une grande variété de cas d’utilisation et devient un élément omniprésent des interfaces utilisateur. Alexa et sa voix TTS sont une étape supplémentaire dans la construction d’une interface de langage naturel et intuitif suivant le schéma de la communication humaine.

Avec Amazon Polly, nous offrons la même technologie TTS utilisée pour créer la voix d’Alexa aux clients AWS. Elle est à présent disponible pour tous les développeurs souhaitant équiper leur application d’une restitution vocale de haute qualité.

Nous avons dû faire face à de nombreux défis pour imiter la parole humaine. Nous avions besoin de comprendre comment interpréter différentes structures de texte, telles que les acronymes, abréviations, nombres ou homographes (mots qui s’écrivent de la même façon mais sont prononcés différemment et n’ont pas le même sens).

Par exemple: 

I heard that Outlander is a good read, though I haven't read it yet.

ou
St. Mary's Church is at 226 St. Mary's St.

Enfin, à mesure que la qualité des TTS augmentera, nous voudrons que se développe une intonation naturelle correspondant à la sémantique des textes synthétisés. Des modèles traditionnels s’appuyant sur les règles et les techniques ML, comme les arbres de classification et de régression (CART) et les modèles cachés de Markov (HMM), présentent des limites quant à la modélisation de la complexité de ce processus. Le Deep Learning a prouvé sa capacité à représenter des relations complexes et non-linéaires à différents niveaux de processus de synthèse vocale. La technologie TTS derrière Amazon Polly tire profit de réseaux de mémoire à long et court terme bidirectionnelle (LSTM) utilisant une énorme quantité de données afin d’entraîner des modèles à convertir les lettres en sons et à prédire le profil d’intonation. Cette technologie offre un rendu très naturel, une intonation cohérente et un traitement précis des textes.

Les clients qui utilisent Amazon Polly ont d’ailleurs confirmé la grande qualité du discours généré. Duolingo utilise les voix d’Amazon Polly pour des applications d’apprentissage de langues, où la qualité est cruciale. Severin Hacker, PDG de Duolingo, reconnaît que les voix d’Amazon Polly ne sont pas simplement de grande qualité, mais sont aussi efficaces que le discours humain naturel pour enseigner une langue.

Le Royal National Institute of Blind People (RNIB) utilise la technologie Amazon TTS pour venir en aide aux malvoyants parmi leur plus grande bibliothèque au Royaume-Uni. John Worsfold, Responsable de la mise en place des solutions au RNIB, confirme que les voix incroyablement réalistes d’Amazon Polly captivent et attirent leurs lecteurs.

Amazon Rekognition

Nous vivons dans un monde qui fait face à une transformation digitale rapide ce qui provoque notamment une explosion du nombre d’images générées et utilisées par des applications et des services dans différents secteurs et industries. Qu’il s’agisse d’une application grand public de partage ou d’impression de photos, du classement d’images dans les archives de médias ou d’organismes de presse, ou encore du filtrage d’images à des fins de sûreté et sécurité publiques, le besoin d’analyse d’un contenu visuel ou d’une image devient de plus en plus important.

Il existe un écart inhérent entre le nombre d’images créées et stockées et la capacité à les analyser pour en tirer les informations qui peuvent en découler. En d’autres termes, la plupart des mémoires d’images ne sont pas consultables, organisées ou exploitables. Bien que des solutions existent, des clients nous ont expliqué qu’elles ne sont pas à l’échelle, pas fiables, trop chères, et reposent sur des processus complexes pour annoter, vérifier et traiter d’énormes quantités de données afin d’entraîner et de tester les algorithmes, ce qui requiert une équipe de data scientists particulièrement spécialisés et compétents, et nécessite un matériel coûteux et très spécialisé. Pour les entreprises ayant déjà réussi à concevoir une chaîne pour l’analyse d’image, les processus d’entretien, d’amélioration et de suivi de la recherche dans cet espace peuvent engendrer des désaccords. Amazon Rekognition résout ces problèmes.

Amazon Rekognition est un service entièrement géré d’analyse d’image basée sur le Deep Learning, construit par nos spécialistes en vision par ordinateur avec cette même technologie reconnue qui a déjà analysé des milliards d’images quotidiennement sur Amazon Prime Photos. Amazon Rekognition démocratise l’application de la technique du Deep Learning pour la détection d’objets, de scènes, d’images et de visages sur vos photos, comparant les visages entre deux photos, et disposant d’une fonctionnalité de recherche parmi des millions de vecteurs de caractéristiques faciales que votre entreprise peut stocker avec Amazon Rekognition. L’API facile à utiliser d’Amazon Rekognition, qui est intégrée à Amazon S3 et AWS Lambda, offre le Deep Learning à votre entrepôt d’objets.

Il est simple de se familiariser avec Rekognition. Voici quelques-unes de ses principales caractéristiques qui vous aideront à concevoir des applications performantes de recherche, de sélection, d’organisation et de vérification d’images.

La détection d’objets et de scènes

À partir d’une image, Amazon Rekognition détecte des objets, scènes et concepts, puis génère des étiquettes, chacune ayant un indice de confiance. Les entreprises peuvent utiliser ces métadonnées pour créer des index consultables par les applications de partage social ou d’impression, une catégorisation des archives d’image médiatiques et d’informations, ou des filtres pour la publicité ciblée. Si vous téléchargez vos images sur Amazon S3, il sera facile d’appeler une fonction AWS Lambda qui transmet l’image à Amazon Rekognition et enregistre les étiquettes à indices de confiance dans un index Elasticsearch.

L’analyse faciale

Pour chaque image, vous pouvez à présent détecter les visages présents et en dériver des caractéristiques faciales telles que des informations démographiques, des sentiments, et les points de repère du visage. Grâce à cette API rapide et précise, les commerces de détail peuvent s’adresser directement à leurs clients en ligne ou en magasin en diffusant des publicités ciblées. Ces caractéristiques peuvent également être stockées dans Amazon Redshift afin de leur offrir une meilleure connaissance des clients.

La reconnaissance faciale

La comparaison des visages et la recherche de caractéristiques faciales d’Amazon Rekognition peuvent permettre aux entreprises une authentification et une vérification d’identité, ainsi que la capacité de détecter la présence d’une personne particulière au sein d’une collection d’images. Que ce soit simplement pour comparer les visages de deux photos en se servant de l’API CompareFaces ou pour créer une collection de visages en appelant l’API IndexFace d’Amazon Rekognition, les entreprises peuvent s’appuyer sur l’importance que nous donnons à la sécurité et à la vie privée, étant donné qu’aucune image n’est stockée par Rekognition. Chaque visage détecté est transformé en une représentation vectorielle irréversible, et ce vecteur de caractéristique (et non l’image source en elle-même) est utilisé pour la comparaison et les recherches. Plusieurs de nos clients ont déjà été convaincus par leurs tests.

Redfin est un courtier de service complet qui utilise la technologie pour aider ses clients à acheter et vendre des maisons. Yong Huang, Directeur Big Data & Analytics chez Redfin, nous explique que leurs utilisateurs aiment consulter les photos de propriétés sur leur site et application mobile, c’est pourquoi ils souhaitent simplifier le tri de centaines de millions de listages et d’images. Il a également ajouté qu’Amazon Rekognition génère une large gamme d’étiquettes directement à partir des photos des propriétés. Cela simplifie grandement la construction d’une fonction de recherche intelligente par Redfin afin d’aider les clients à découvrir des maisons selon leurs besoins spécifiques. Et, puisqu’Amazon Rekognition accepte les URL Amazon S3, il n’est pas nécessaire de déplacer les images ce qui permet un gain de temps considérable pour la détection d’objets, de scènes et de visages.

En résumé

Nous sommes encore au début du Machine Learning et de l’intelligence artificielle. Comme nous le disons chez Amazon, nous sommes encore au premier jour. Cependant, nous remarquons déjà la valeur inestimable et l’expérience magique que l’IA Amazon peut apporter aux applications quotidiennes. Nous souhaitons offrir la possibilité à tous les développeurs de concevoir des applications intelligentes. Les data scientists peuvent utiliser nos instances P2, le MLLib de Spark sur Amazon EMR, les AMI de Deep Learning, MxNet et le ML Amazon pour construire leurs propres modèles de ML. Nous pensons que les trois services IA d’Amazon permettent aux développeurs d’applications de concevoir la nouvelle génération d’applications capables d’entendre, voir, et parler avec les humains et le monde qui nous entoure.

A propos de l'auteur

Werner Vogels
AWS