Afin d’évaluer les modèles, nous avons besoin de métriques conçues pour évaluer leur qualité. Pour la plupart des problèmes liés à l’IA, il est souvent possible de faire appel à des spécialistes, mais cette solution est coûteuse et prend du temps.
Dans cet article, nous parlerons de trois métriques mesurant la qualité d’une traduction : l’entropie croisée, la perplexité et le score BLEU.
Entropie croisée
Pour comprendre l’entropie croisée, nous devrions commencer par parler de la théorie de l’information. Elle repose sur l’idée que l’information véhiculée par un événement est inversement proportionnelle à la probabilité de cet événement.
Considérons maintenant une variable aléatoire continue X avec fonction de densité de probabilité f(x). L’auto-information de l’événement X=x, un seul résultat, est défini comme :
La valeur attendue de la quantité d’information portée par un résultat tiré de cette distribution est la Shannon-Entropy :
Nous définissons maintenant la divergence de Kullback-Leibler entre deux distributions de probabilité P(x) et Q(x) sur la même variable aléatoire x.
La perte d’entropie croisée est définie comme :
Dans les problèmes d’apprentissage machine, la distribution P est la distribution réelle des données, P_{data}. Le seul accès à cette distribution se fait par les données de formation qui nous permettent d’obtenir \hat{P}_{data}. L’objectif est de former un modèle pour approximer cette distribution empirique en utilisant la divergence de Kullback-Leibler.
En d’autres termes, nous minimisons : D_{KL}(\hat{P}_{data}|||Q_{model}) qui est équivalent à minimiser l’entropie croisée puisque H(\hat{P}_{data}) ne dépend pas du Q_{model}.
Perplexité
La perplexité sert à évaluer le degré d’incertitude de la prévision d’un modèle. Elle a une relation directe avec l’entropie croisée.
Si nous supposons que tous les mots apparaissent également dans le corpus, la perplexité peut être réécrite :
où N est la durée de la phrase d’essai.
Score BLEU
Le score BLEU est la mesure la plus utilisée pour évaluer la qualité d’un modèle de traduction.
L’objectif principal du score BLEU est de comparer les n-grams de la traduction candidate avec les n-grams de la phrase de référence et de compter le nombre de correspondances.
Où :
Lorsque nous avons plusieurs candidats, nous les additionnons au numérateur et au dénominateur dans l’équation ci-dessus.
La métrique BLEU s’attaque à deux problèmes :
– Combiner les multiples scores BLEU_n correspondant à différents n-grams, sachant que le score BLEU diminue exponentiellement avec n. Pour ce faire, il prend le logarithme moyen en utilisant des poids uniformes.
– Veiller à ce que la longueur du candidat soit exacte. Les candidats qui sont plus longues que les références sont déjà pénalisées par les mesures de précision n_gram mais pas les plus courtes. La pénalité de brièveté est introduite pour laisser une certaine souplesse au niveau de la pénalisation. L’objectif de cette pénalité est d’être de 1 lorsque la longueur d’une phrase candidate correspond à la longueur de la phrase de référence.