SimpleQA : des benchmarks peu flatteurs et une hallucination au top pour les LLM

Par:
francoistonic

mer, 18/12/2024 - 08:51

SimpleQA est un benchmark lancé par OpenAI pour mesurer la pertinence et la qualité des LLM et vérifier l'hallucination des modèles. SimpleQA repose sur plusieurs critères : la justesse des réponses (ouf !), la diversité des sujets demandés, la rapidité pour obtenir une réponse. Basiquement, SimpleQA pose 4 326 questions pour couvrir une multitude de sujets. Ces résultats datent d'octobre 2024. En 2 mois, les résultats ont sans doute changé. 

Les domaines des questions : 

- 858 questions sur les sciences et technologies

- 709 questions sur la politique

- entre 300 et 500 questions : musique, sport, géographie, art, autres.

3 niveaux de qualité de réponses sont indiquées : les réponses correctes ou du moins se rapprochant d'une réponse correcte, les réponses incorrectes et les échecs ou l'impossibilité de répondre (= je ne comprends pas la question). Idéalement, un modèle répondra au plus grand nombre de questions possibles (nombre le plus élevé de bonnes réponses), tout en minimisant le nombre de réponses incorrectes.

Le benchmark inclut GPT-4o mini, 01-mini, GPT-4o et 01-preview. Les résultats sont inquiétants et illustrent toutes les difficultés à faire confiance à une GenIA ou IA toute simple. Heureusement, des LLM s'en sortent mieux mais tout de même. 

Ainsi, GPT-4o mini est le plus mauvais : -9 % de réponses correctes, le plus performant est 01-preview avec 42,7 % ! La non compréhension de la question est une autre problématique qu'il ne faut pas sous-estimer : o1-mini est le plus sensible à cette non compréhension : 28,5 % des questions ne sont pas comprises ou impossible à traiter ! C'est énorme contre 9,2 % pour o1-preview.

Finalement, ce qui est beaucoup plus inquiétant est le niveau de mauvaises réponses et l'hallucination du LLM :

- GPT-4o mini : 90 %

- o1 mini : 63 %

- GPT-4o : 60 %

- 01 preview : 48 %

Est-ce mieux ailleurs ? Des benchmarks de Claude 3 montrent que les différents LLM Claude fournissent des réponses correctes à un niveau très variables (5 à 29 %), les réponses correctes varient de 19 à 36 %... 

La calibration du LLM permet d'améliorer les résultats mais cela peut nécessiter du temps et des itérations des prompts. 

Pour découvrir SimpleQA : https://openai.com/index/introducing-simpleqa/