jeu, 13/02/2014 - 20:19
La plupart des outils d’analyse des verbatims sur Twitter comptent des mots-clefs. Mais cette technique n’est vraiment adaptée qu’à des thèmes généraux et de gros volumes de messages.
Twitter s’est affirmé comme le meilleur support de capture de la parole publique, anonyme ou non. Mais ce ne sont pas les directions marketing qui s’en sont aperçues les premières. Comme souvent en matière d’innovation, l’aiguillon est venu des métiers de la finance.
Il y a deux ans déjà, un hedge fund, Derwent Capital Markets, était créé sur l’idée de guider une politique d’investissement en fonction du sentiment sur les valeurs boursières véhiculé par Twitter. Le principe était de repérer les mots à connotation positive ou négative sur un nombre de tweets suffisamment significatifs pour que les erreurs d’interprétation par la machine, dans un sens ou dans l’autre, ne changent pas la direction générale du pronostic.
Cette expérience-là ne s’est pas avérée concluante, mais les cas d’application ne se sont pas moins multipliés depuis lors. Twitter apporte de la profondeur statistique, par le nombre de messages, et des textes courts, donc susceptibles d’être analysés de façon automatique dans des marges d’erreur acceptables.
Des outils de « tag management » proposent un étiquetage manuel et des fonctions de visualisation. Mais l’étiquetage manuel peut être entaché d’un défaut de rigueur et n’est adapté que pour des volumes modestes.
Les premiers outils d’étiquetage automatique s’appuient sur des mots-clefs : ils relèvent de l’analyse lexicale. Ils sont adaptés pour saisir l’humeur de l’opinion sur un débat public ou pour une mesure « d’e-notoriété ». Il faut que le thème soit général pour que l’association d’un nom (par ex : le produit X) et d’un adjectif (ex : « génial », « nul »…) assure un classement automatique de bonne qualité.
Twitter est un excellent support pour tester le lancement d’une campagne. Mais au fur et à mesure que la direction marketing affute ses analyses et cherche des enseignements plus précis à partir de Twitter, le volume sous-jacent chute. Par exemple, le nombre de tweets qui comparent le produit X de l’entreprise au produit Y d’un concurrent est beaucoup plus faible que le nombre de tweets qui évoquent le produit X dans l’absolu.
Même dans le carcan de 140 caractères, une même idée peut être rendue par un nombre infini d’expressions, d’autant que beaucoup de scripteurs recourront aux formes abrégées, voire phonétiques, pour gagner de la place. On touche là aux limites de l’analyse lexicale, qui risque de classer à tort des tweets sous une étiquette donnée (c’est du bruit) ou d’en omettre (c’est du silence).
De l’analyse lexicale à l’analyse sémantique, un saut technique à franchir
Ce saut en qualité « d’insight », c’est l’analyse sémantique, ou plus précisément, l’analyse morpho-syntaxique qui l’apporte. Prenons l’exemple d’un constructeur automobile X qui veut savoir comment un nouveau modèle est reçu ; deux tweets, dont l’un dirait « Elle fait 3000 euros de plus que le (modèle) Y de chez Z » et l’autre « La Y est moins chère que la X » partagent ainsi le même thème (le prix de X plus élevé que Y) sans partager aucun nom commun. Une recherche par mot-clef ne les rassemblerait pas tandis qu’une analyse sémantique qui reconnaitrait une relation de comparaison associée à la présence d’un montant en euros ou d’un adjectif comme « cher » saurait le faire.
Autre exemple, la détection d’une éventuelle incompatibilité d’un propos d’un salarié avec la politique de communication de son entreprise ne peut pas non plus dépendre d’une recherche lexicale. Dénigrement, diffamation, violation du secret professionnel, promesse ou engagement sans habilitation, ou tout simplement brouillage du message institutionnel ne peuvent être révélés que par une analyse fine de l’expression écrite.
Ce deuxième cas d’usage porte en outre une difficulté supplémentaire : l’authentification de l’auteur, dont le nom n’apparait pas nécessairement en clair. Au contraire des verbatims véhiculés sur les autres réseaux sociaux (affinitaires ou d’entreprise), Twitter est pauvre en métadonnées : seulement une adresse ip et un horodatage en plus du pseudo. Aussi l’outillage devra-t-il, pour un tel cas d’usage, associer à l’analyse sémantique une fonction de détection des tweets générés par des robots, et une autre de validation manuelle.
La distinction entre analyse lexicale et analyse sémantique n’a rien de théorique ; elle correspond à deux familles de logiciels. La où un logiciel d’analyse lexicale recherche une chaine de caractères, l’outil d’analyse morpho-syntaxique identifie la langue, décompose la phrase, identifie la nature grammaticale de chaque terme, repère sujet et complément d’objet direct liés à un verbe, reconnait expressions régulières, paraphrases et idiomatismes, bref analyse le sens du texte. Il y a donc un saut en technicité à assumer pour se donner les moyens d’analyses vraiment pointues.
A propos de l'auteur
Bruno MATHIS est Engagement Manager chez SterWen. Bruno Mathis pilote et intervient sur des missions relatives aux systèmes d'information, en banque et finance.