Actualités /

Faut-il détailler davantage les scores du Diplôme de français professionnel ?

vendredi 7 septembre 2018

Nous vous proposons de partager notre expertise sur l’évaluation avec cette série de publications scientifiques. Découvrez ci-dessous un article sur la question du biais introduit par la nature écrite ou orale des documents supports et de la pertinence d’en différencier la correction.

Rendre compte de la compétence évaluée

Dans le domaine de l’éducation, les tests sont créés afin d’évaluer le degré de maîtrise d’une compétence donnée (ou habileté). Cette compétence n’est pas directement observable (on parle de trait latent) mais se manifeste dans la réalisation d’activités, soit, dans le cas d’un test, les réponses données par le candidat à des stimuli variés (items) au sein de tâches. Les réponses aux items et les scores associés sont ainsi des indicateurs de l’habileté du candidat.

Pour des raisons de couverture de la compétence évaluée et de précision dans l’estimation de l’habileté des candidats, un test comporte en général plusieurs tâches : on parle d’échantillonnage du contenu. Chaque tâche est constituée de plusieurs items (réponses à des stimuli différents) ou analysée au moyen d’une grille permettant la notation selon différents critères d’observation. Ces tâches et les items qui les constituent contribuent tous à la mesure d’une même compétence, mais sous des angles et dans des situations différentes.

Dès lors on se s’attend pas à ce qu’elles donnent toutes exactement le même résultat, sinon il suffirait d’une unique observation pour déterminer l’habileté d’un candidat. Toutefois, lorsque les résultats entre tâches ou entre items sont trop différents, il pourra être utile de les regrouper en sous-tests car la restitution d’un simple score total risque de manquer de pertinence.

Par exemple, les activités à correction automatique du Diplôme de français professionnel Affaires B1 sont des tâches intégrées où le candidat doit prendre connaissance d’un ou plusieurs documents pour agir en complétant un document. Pour 4 activités, le format du document-support principal est écrit et pour 2 activités, il est oral. Or le tableau de résultat restitue, pour la compétence Comprendre et traiter de l’information, un score unique pour les 6 activités à correction automatique (et un score pour chacune des tâches conduisant à une production écrite).

Une analyse menée dans le cadre d’une étude sur les biais de l’évaluation ayant montré la présence éventuelle d’une seconde dimension qui distinguerait les résultats aux activités selon la nature écrite ou orale des documents supports, la question se pose de savoir s’il serait plus pertinent de restituer deux scores pour cette partie de l’épreuve.

Modélisation multidimensionnelle

Dans notre étude, nous avons pu tirer partie du fait que nous savons quelles sont les activités qui comportent des supports oraux ou uniquement écrits pour appliquer des modèles bidimensionnels aux réponses des candidats.

Afin d’étudier l’impact de la nature du document, nous avons appliqué deux modèles multidimensionnels distincts :

le premier modèle fait porter les items dont le document principal est écrit sur une première dimension et les items dont le document principal est oral sur une seconde dimension. Il permet d’obtenir une estimation « corrigée pour atténuation » de la corrélation entre les deux habiletés mesurées, qui tient compte de l’erreur de mesure des estimations.

le second modèle fait porter l’ensemble des items sur une dimension commune et seulement les items dont le document principal est oral sur une seconde dimension.

On obtient ainsi, sur la première dimension, une estimation de l’habileté globale à comprendre et traiter de l’information indépendamment de la nature du support utilisé et, sur la seconde dimension, une estimation d’une habileté indépendante (non corrélée) qui serait mobilisée spécifiquement dans traitement des documents oraux. Cette modélisation permet également d’obtenir une estimation de la fidélité avec laquelle il est possible de différencier les candidats sur cette seconde dimension et donc sur la pertinence d’en tenir compte.

Pour disposer de valeurs de référence pour l’interprétation des données, nous avons comparé les résultats à ceux que l’on obtient en regroupant les activités en deux sous-tests de façon quasi aléatoire (activités paires versus activités impaires, chaque sous-test comportant alors une activité avec un document support principal oral).

L’habileté mobilisée est la même pour les différents types de document-support

Les résultats obtenus en tenant compte des différences de document-support sont très semblables à ceux obtenus par une répartition quasi-aléatoire.

L’estimation « corrigée pour atténuation » de la corrélation entre sous-tests est plutôt élevée (0,81) lorsqu’on applique le premier modèle. Les résultats du second modèle montrent que la fidélité avec laquelle il est possible de différencier les candidats sur une habileté mobilisée spécifiquement pour le traitement de documents-supports oraux est médiocre (sa valeur est de 0,38 et l a moyenne de l’erreur de mesure correspond à l’écart-type de la distribution des estimations ).

Il ne semble donc pas pertinent de restituer des sous-scores pour les activités à correction automatique du Diplôme de français des affaires B1. On restituerait alors deux estimations différentes de la même habileté, avec une erreur de mesure plus importante qu’en l’estimant sur la base des réponses à l’ensemble des items.