Expertise /

Évaluation des compétences : en finir avec la notation ? 2/4

vendredi 5 juillet 2019

Pour l’évaluation des compétences d’expression écrite et orale, il est habituel de recourir à des évaluateurs, qui portent un jugement sur la performance du candidat. Cette évaluation humaine est cependant susceptible d’introduire de la subjectivité dans l’évaluation. Plusieurs stratégies peuvent être envisagées pour réduire cette subjectivité. Certains chercheurs proposent notamment de se départir d’une approche par notation.

L’approche par comparaisons entre paires de performances

Ainsi en 2004, Alistair Pollit publiait un article intitulé « Let’s stop marking » où il proposait de remplacer la méthode d’évaluation par des comparaisons entre des paires de performances, afin de créer une échelle de classement[1].

Le principe de base de l’approche est de demander à un évaluateur de comparer entre elles deux performances A et B et d’indiquer celle qu’il juge « meilleure ». Ce jugement, notamment s’il est répété par d’autres juges, permet de positionner la performance qui récolte le plus de suffrage (disons A) plus à droite que l’autre performance (B) sur le continuum défini par l’expérimentation, qui reflète la quantité de l’attribut censé être mobilisé pour la réalisation de la tâche.

En multipliant les jugements sur des paires de copies selon un devis garantissant une interconnexion des productions (i.e. lorsque pour une paire de copies C et C’ qui n’ont pas fait l’objet d’une confrontation directe il existe au moins un cheminement de comparaisons qui permette de comparer indirectement C à C’), l’expérimentateur obtient un positionnement relatif des différentes performances sur le continuum.

Ce classement relatif des performances ne permet cependant pas à lui seul d’attribuer un niveau à chacune des performances ou de déterminer celles qui satisfont un critère d’exigence. Il faut pour cela déterminer des seuils sur le continuum. Un moyen de procéder est d’inclure des performances dûment calibrées, issues de sessions précédentes, en guise d’ancrage. Cela permet en effet d’exprimer les estimations sur une échelle de référence sur laquelle auront été préalablement déterminés les points de césures entre les différentes catégories de performance considérées comme pertinentes pour le classement des productions en niveaux ou la restitution des résultats.

[1] Il s’appuie pour cela sur les travaux menés par Louis Léon Thurstone dans la première moitié du 20^e siècle, pour la mesure subjective d’attributs non physiques (comme la gravité des crimes, l’attitude envers les jeux ou la qualité d’une écriture manuscrite) au moyen de comparaisons par paires.

Les limites d’une telle approche

Un argument avancé en faveur de la méthode, est que les différences éventuelles de sévérité entre juges n’ont pas d’impact sur le résultat de la comparaison par paires : si la performance A est meilleure que la performance B, quelle que soit la sévérité du juge considéré, le résultat de la comparaison devrait toujours être que A est meilleure que B. Les juges sont donc souvent considérés comme étant interchangeables à partir du moment où leurs décisions sont prises sur la base d’un ensemble de critères partagés. Ce postulat n’est malheureusement pas toujours vérifié.

La stabilité des classements et la précision des valeurs obtenues dépendent du nombre de copies et de leur diversité (en termes de qualité de réalisation), du nombre et de la qualité des juges, du nombre de comparaisons par copie, de la qualité de l’interconnexion des et du choix des paires à comparer. Il est souvent nécessaire de comparer chaque production à un nombre important de productions différentes pour garantir la fidélité des classements. Or la comparaison d’une paire de productions écrites ou d’une paire de productions orales n’est pas immédiate et requiert au minimum le temps de prise de connaissance des deux textes.

Cela pose clairement un problème de coût et le niveau de fidélité requis peut souvent être atteint plus efficacement en recourant à une méthode d’évaluation classique avec un nombre limité de corrections par copie.

Mais cette stratégie peut devenir pertinente lorsque la performance est difficile à évaluer en rapport à un cadre de référence, comme peut-être des créations artistiques ou des portfolios. Elle peut aussi s’avérer très utile pour mener des expérimentations comme la comparaison entre des performances de candidats à des tests différents pour en comparer les niveaux d’exigence.

~ Dominique Casanova

Autres actualités

Bannière d'article - Frauder au TEF : Les risques

Actualités / TEF /

Frauder : un risque qui peut tout compromettre

Lors de votre inscription au TEF, vous vous engagez à respecter les conditions de passation. Quels sont les risques en cas de fraude ?

Actualités /

5 min avec Murielle, assistante administrative et commerciale

Je suis Murielle FRANCHINARD RIELBAGE, assistante administrative et commerciale au Français des affaires.

Actualités / Expertise / TEF /

Le TEF Intégration Résidence et Nationalité, un test adaptatif

Le TEF IRN adaptatif permet d’évaluer le niveau de français du niveau A1 ou au niveau B2 grâce à un format innovant s’ajustant en temps réel à la performance des candidat(e)s.

Tous les articles