Expertise /

Dernier article de la série sur la subjectivité des évaluations humaines 4/4

dimanche 7 juillet 2019

L’évaluation des compétences langagières par des évaluateurs humains introduit inévitablement une part de subjectivité qui conduit à une erreur de mesure d’autant plus importante que le nombre d’évaluateurs d’une même performance est limité.

La docimologie critique a ainsi mis en évidence un ensemble des biais de notation auxquels les évaluateurs peuvent être sensibles. Si certains sont difficilement contrôlables en raison de leur caractère aléatoire (fatigue, intérêt pour le contenu de la copie…), d’autres, comme la tendance à la sévérité, peuvent manifester une plus grande stabilité et faire l’objet d’une modélisation.

Ainsi, à défaut de réduire la subjectivité des jugements des évaluateurs par une modification de la méthode d’évaluation ou de l’instrument utilisé pour la notation, il est possible, lorsque les évaluateurs font preuve de constance dans leur façon d’évaluer, de modéliser certains aspects de la subjectivité et d’en tenir compte dans la stratégie d’appariement des évaluateurs en jury ou pour proposer une modération statistique des résultats.

La valeur de l’estimation de la compétence d’un candidat pour une grille d’évaluation remplie à l’identique pourra alors varier en fonction du degré de sévérité (estimé) de l’évaluateur ayant rempli la grille.

Modélisation statistique

La théorie de réponse aux items fournit un cadre d’analyse pertinent pour modéliser différentes caractéristiques (sévérité, capacité discriminatoire, tendance centrale…) des évaluateurs lorsqu’on dispose de la notation, par plusieurs évaluateurs, d’un nombre important de copies et que ces données sont suffisamment inter-reliées.

C’est le cas notamment du modèle d’échelle d’évaluation (Rating Scale Model), des modèles à crédits partiels ou des modèles de Rasch multifacettes.

Les conditions d’application de ces modèles sont toutefois contraignantes et leur mise en œuvre peut nécessiter une réduction de l’information d’évaluation à disposition. Ils demeurent néanmoins utiles lorsqu’il s’agit de mettre en évidence les tendances générales des évaluateurs ou pour la validation de modèles ad hoc tirant partie de l’ensemble des informations d’évaluation à disposition.

Le lecteur intéressé pourra se reporter à Casanova & Demeuse (2016) pour un exemple détaillé d’application de tels modèles afin de restituer les profils des évaluateurs d’un test de français langue étrangère.

Exploitation des profils d’évaluateurs

Le premier usage qui peut être fait des profils d’évaluateurs mis en évidence par de telles modélisations est de type formatif. Ils permettent d’éclairer le formateur sur les tendances des évaluateurs, de garantir une variété des profils des évaluateurs suivant une formation destinée à harmoniser les appréciations de productions, ou au contraire de sélectionner des évaluateurs au profil semblable pour leur proposer une formation sur mesure.

Une autre utilisation qui peut être envisagée est de tenir compte du profil des évaluateurs afin d’améliorer la justesse des résultats délivrés, soit en proposant un appariement des évaluateurs en fonction de leur profil (si le premier évaluateur a une tendance à la sévérité, le second évaluateur pourra être choisi parmi ceux qui ont un profil de générosité complémentaire), soit en proposant une modération statistique des résultats.

Tout comme il est possible de tenir compte de la difficulté relative des questions composant une version particulière d’une épreuve sous forme de questionnaire à choix multiple dans l’expression du score des candidats, la prise en considération la sévérité relative des évaluateurs d’une performance donnée permet l’expression d’un score ajusté (à ceci près que le paramètre de difficulté d’une question est en général plus stable que le paramètre de sévérité d’un évaluateur…).

Conclusion

Dans cette série d’articles nous avons évoqué trois pistes pour réduire l’impact de la subjectivité des évaluateurs sur les résultats à une activité de production écrite ou orale.

La première proposition consistait à changer la méthode d’évaluation en procédant à des comparaisons par paires de performances. Cette méthode est cependant souvent exigeante en termes de ressources humaines pour garantir un niveau de fidélité satisfaisant

La deuxième piste évoquée concerne l’instrumentation des évaluateurs. Nous avons vu que l’usage d’une grilles descriptive pour l’évaluation, qu’elle soit holistique, analytique ou dichotomique constituait une bonne pratique.

Une solution alternative ou complémentaire est de prendre acte de la subjectivité en modélisant des caractéristiques des évaluateurs (tendance à la sévérité, tendance à la centralité, capacité discriminatoire…) et en les prenant en considération dans le processus d’évaluation, lors de l’appariement en jury ou en proposant un ajustement des scores des candidats.

Aucune de ces propositions n’est parfaite mais elles illustrent les efforts déployés par les concepteurs de tests pour limiter l’impact de la subjectivité sur les scores délivrés.

~ Dominique Casanova

Autres actualités

Bannière d'article - Frauder au TEF : Les risques

Actualités / TEF /

Frauder : un risque qui peut tout compromettre

Lors de votre inscription au TEF, vous vous engagez à respecter les conditions de passation. Quels sont les risques en cas de fraude ?

Actualités /

5 min avec Murielle, assistante administrative et commerciale

Je suis Murielle FRANCHINARD RIELBAGE, assistante administrative et commerciale au Français des affaires.

Actualités / Expertise / TEF /

Le TEF Intégration Résidence et Nationalité, un test adaptatif

Le TEF IRN adaptatif permet d’évaluer le niveau de français du niveau A1 ou au niveau B2 grâce à un format innovant s’ajustant en temps réel à la performance des candidat(e)s.

Tous les articles