Insights into the Angoff method : results from a simulation study
Cette étude a utilisé des données simulées basées sur 4900 panels uniques de juges, ce qui a permis de mesurer la différence entre les cut-scores d’Angoff déterminés par les panels et le « vrai » cut-score. Les principaux résultats sont les suivants :
- (a)
L’augmentation du nombre de juges réduit la variation des cut-scores du panel mais, plus important, augmente également la précision du cut-score du panel ; cependant, l’effet sur la précision était moins évident pour les tests avec un grand nombre d’items ;
- (b)
La rigueur des juges et, dans une moindre mesure, la précision des juges affectent la précision des notes de coupure ; et
- (c)
L’application du deuxième tour du processus Angoff sans tenir compte des examinateurs ou des données des tests n’a pas d’impact significatif sur la précision des notes de coupure.
Les résultats sont discutés en trois sections. La première discute du mérite et de la pertinence de la simulation ; la deuxième discute des résultats et de leurs implications pour les chercheurs et les praticiens ; et la troisième section discute du mérite et des limites de cette étude et des orientations possibles pour des recherches ultérieures.
La simulation
Les données simulées ont été utilisées précédemment dans la recherche sur l’évaluation éducative pour les tests basés sur les connaissances et pour l’évaluation basée sur la performance . Cependant, les études de simulation dans le domaine de l’établissement de normes sont rares et on n’en a trouvé aucune qui simulait les décisions des juges en fonction de leurs attributs simulés et en les comparant à une » vraie valeur » simulée . La plupart des études de simulation antérieures dans ce domaine ont simulé les performances des étudiants/les notes d’examen à utiliser par des panels Angoff composés de vrais juges, mais aucune de ces études n’a mesuré les attributs des juges et leur impact sur la précision de la note de passage. B. Clauser et al. ont comparé les estimations de la proportion de réponses correctes faites par les juges avec les données empiriques de la proportion de réponses correctes des candidats. Cette approche, bien qu’importante, mesure la capacité des juges à estimer la performance des candidats à un test particulier, mais sans aucune preuve empirique pour suggérer le score de coupure qui distingue la compétence de l’incompétence . L’étude actuelle s’appuie sur les travaux précédents et étend l’utilisation de la simulation dans ce domaine en simulant les attributs des juges qui sont supposés affecter leurs décisions, ainsi qu’en mesurant la précision du cut-score en comparant le cut-score déterminé par les panels avec le « vrai » cut-score.
Toutes les études précédentes identifiées dans la littérature ont utilisé la variance au sein des juges (ou l’accord entre eux) comme mesure de l’exactitude ou de la précision. L’utilisation d’une telle mesure signifie que si un panel de juges était très strict mais que tous étaient d’accord entre eux, leur cut-score convenu serait considéré comme plus précis qu’un cut-score produit par un panel équilibré comprenant certains juges stricts et certains juges indulgents, ce qui donnerait naturellement une plus grande variance. Dans la vie réelle, il n’y a aucun moyen de connaître le véritable score de coupure qui permet de distinguer la compétence de l’incompétence, d’où le recours à la normalisation. Par exemple, (, p. 158) a présenté des données montrant que trois panels différents évaluant les mêmes éléments donnent des cut-scores convenus différents et une variance inter-juges différente, même en utilisant la même méthode d’établissement de normes (Angoff ou Nedelsky). D’autres études (p. ex. ), qui ont utilisé l’analyse de généralisabilité pour mesurer la reproductibilité d’une procédure d’Angoff, ont conclu qu’une grande partie de la variance d’erreur globale provenait des juges, mais elles ne disposaient d’aucun étalon-or pour mesurer la déviation par rapport au score de coupure réel. Ceci est évident puisque l’analyse de généralisabilité se base sur les sources d’erreurs tout en supposant que la moyenne est très proche de la vraie note . Lorsqu’il s’agit de mesurer la précision d’un processus d’établissement de normes, les études de simulation, comme celle présentée dans cet article, ont l’avantage unique d’inclure le vrai cut-score comme norme valide de comparaison .
Le raisonnement justifiant la simulation de chacune des variables est discuté en détail dans la section Méthode et n’est pas répété ici. Cependant, est-il valable de simuler les attributs des juges ? Verheggen et al. ont démontré que dans l’établissement de normes, la décision individuelle d’un juge sur un élément individuel reflète la « rigueur inhérente du juge et ses connaissances en la matière » (, p. 209). Cette notion a été largement mentionnée dans la littérature. Ainsi, en termes de mesure, si tous les items sont de difficulté égale (c’est-à-dire niveau de difficulté =0), le score de coupure résultant est composé de la somme des biais, c’est-à-dire de la rigueur des juges, et de la somme des erreurs aléatoires, c’est-à-dire de la précision et des autres erreurs aléatoires. Étant donné que des études antérieures suggèrent que les experts sont plus stricts que les non-experts et qu’ils sont réputés avoir une plus grande influence au sein du panel, nous avons inclus ces hypothèses dans les paramètres de simulation. La mesure absolue dans laquelle chacun des attributs affecte le jugement est inconnue, la simulation a donc été composée de paramètres standardisés (SD ≅ 1) pour permettre de vérifier les impacts relatifs de chaque paramètre sur les cut-scores. Il est à noter que comme toutes les études de simulation, l’étude actuelle mesure les interactions pour des conditions simulées données, pour une meilleure compréhension d’un modèle d’évaluation. Cette étude n’a pas pour but de mesurer la nature . Cependant, cette étude est similaire à une recherche utilisant des données réelles, dans le sens où une étude mesure l’impact observé sur un échantillon particulier et une autre étude applique des mesures similaires sur un autre échantillon. Souvent, les résultats sont différents, mais cette différence ne suggère pas qu’une étude est plus correcte que l’autre. Compte tenu de la concordance avec les études précédentes qui ont utilisé des données réelles , il est suggéré que les résultats de cette étude de simulation seraient applicables à toute population de juges dont les attributs ne sont pas différents de ceux qui ont été simulés dans cette étude.
Dans l’ensemble, une étude de simulation donne toujours des résultats qui sont déterminés par les paramètres de simulation. La contribution de cette étude à la littérature sur l’établissement de normes est qu’elle mesure l’impact des attributs des juges au niveau individuel sur la précision du cut-score du panel. À notre connaissance, ces associations n’ont jamais été mesurées auparavant, que ce soit en utilisant des données simulées ou observées. La concordance des résultats de cette étude avec des études antérieures, en particulier lorsque les résultats pouvaient être comparés (par exemple, la figure 2 par rapport au travail de Hurtz et Hertz , figure 1 ), soutient la validité des hypothèses et des paramètres de simulation, ajoutant ainsi de la force aux conclusions de l’étude.
Implications des résultats
Angoff est souvent utilisé pour établir des normes dans les évaluations éducatives à grande échelle . Dans le contexte de l’éducation médicale, Angoff a été appliqué à des tests de connaissances médicales (par exemple les QCM ) , ou à des examens de compétences cliniques (par exemple l’OSCE) .
Dans les examens cliniques (par exemple l’OSCE), le nombre d’items (ou de stations) peut être compris entre 10 et 20 . Ainsi, étant donné que l’augmentation du nombre d’items est peu probable, pour des raisons de faisabilité, nos résultats suggèrent que si Angoff était utilisé, une combinaison optimale serait d’environ 30 juges pour 10 items, avec un minimum de 20 juges pour 15 items ou plus. Pour les QCM, où le nombre d’items est important, un minimum de 15 juges devrait suffire pour établir un score de coupure d’Angoff défendable pour les examens composés de 80 items ou plus (Fig. 2). Ces résultats se situent dans la fourchette recommandée dans la littérature, suggérant qu’un score de coupure acceptable pourrait être atteint si 5-25 juges étaient employés. Puisqu’il n’y a pas d’étalon-or pour toute définition de « ce qui est assez bon » dans l’établissement de normes, l’application d’Angoff avec différents nombres de juges pourrait être justifiable selon le contexte des examens.
Des études antérieures utilisant des données observées ont déterminé la précision d’Angoff par la variance entre les juges . D’autres études qui ont utilisé des données observées ont utilisé des paramètres IRT ou des cut-scores générés par des méthodes alternatives pour estimer la qualité des cut-scores générés par Angoff . Ces méthodes sont appropriées lorsque des données observées sont utilisées. Dans l’étude actuelle, la précision a été déterminée par l’écart entre le cut-score du panel et le « vrai » cut-score. La différence entre ces définitions est plus que sémantique. Jalili et al. et d’autres ont utilisé des mesures indirectes pour estimer la validité. Par exemple, Jalili et al. ont déclaré : « Nous n’avons pas de norme de référence pour tester la validité ». Leur solution élégante a été d’utiliser la corrélation entre les cut-scores des panels et les scores moyens observés (scores donnés aux candidats par les examinateurs) pour chaque item comme mesure d’estimation de la validité. L’étude actuelle présente l’avantage de disposer d’une norme de référence pour tester la validité, puisqu’elle a été incluse dans les paramètres de simulation (véritable score de coupure = 0). Notre constatation que la corrélation était faible (r = .226, p < .0001) indique que malgré l’existence d’une corrélation, l’écart-type au sein du panel (accord des juges) n’explique que 5,1 % de la variance de la précision du score de coupure. Ce résultat est important car il suggère que, bien que l’identification de la source d’erreur (c’est-à-dire dans les études de généralisation) soit un moyen valide de mesurer la fiabilité d’une méthode d’établissement de normes, l’utilisation du véritable cut-score, ou d’un substitut acceptable de celui-ci (si des données réelles sont utilisées), est une référence inestimable pour mesurer la validité. Par conséquent, ce résultat soutient une nouvelle réflexion sur la composition des panels d’Angoff.
La littérature suggère que les juges d’Angoff devraient être des experts , mais elle reconnaît que les experts sont plus rigoureux et peuvent avoir une plus grande influence sur les autres juges . La figure 3 donne un aperçu de cette divergence en démontrant l’interaction entre la rigueur et la précision (être un expert). Il semble que les panels qui ne sont ni trop stricts ni trop indulgents sont plus précis car ils sont moins enclins à la partialité. Cependant, le niveau de précision (capacité de l’individu à estimer le score de coupure correct) n’a qu’un faible impact sur la précision du score de coupure du panel. Ceci est plausible, puisque le cut-score est déterminé par la moyenne des scores de tous les juges. Sans parti pris dans le jugement (en supposant que la rigueur est constante), la note moyenne obtenue par les juges se rapproche de la valeur réelle à mesure que le nombre de juges augmente . L’impact de la rigueur sur la précision est évident (puisqu’il s’agissait de l’un des paramètres de la simulation), mais il suggère également qu’un panel composé uniquement d’experts ou uniquement de non-experts produirait un score de coupure moins précis que celui produit par un panel d’experts mixtes (Fig. 3), en particulier compte tenu de l’association déjà documentée entre rigueur et expertise. Dans l’ensemble, ces résultats suggèrent que la composition optimale d’un panel Angoff devrait inclure un éventail diversifié de juges en termes d’expertise et de rigueur (si celle-ci est connue). Compte tenu du faible impact de l’accord des juges sur la précision du cut-score (variance expliquée = 5,1 %), cette pratique est recommandée malgré la probabilité d’une augmentation du désaccord des juges au sein du panel.
Cette étude a révélé que l’impact d’un deuxième tour Angoff, où les juges peuvent être influencés par d’autres personnes (c’est-à-dire l’influence du « Leadership »), est négligeable. Bien que ce résultat soit négligeable, même lorsqu’il est mesuré par la taille de l’effet standardisé (d de Cohen = -0,083), il doit être interprété avec prudence, notamment parce que les mesures sont toutes standardisées et que le deuxième tour n’était différent du premier que par l’influence des juges. Cette constatation est confirmée par des études empiriques antérieures démontrant des différences mineures entre deux tours d’Angoff . D’autres facteurs, tels que la présentation des données de test, n’ont pas été pris en compte dans cette étude. Il est possible qu’une méthode de pondération différente aurait eu un impact plus important, ce qui devrait être testé dans des études futures. La littérature justifie le second tour comme un moyen d’accroître l’accord entre les juges, mais comme indiqué ci-dessus, l’augmentation de l’accord au sein des juges peut avoir peu d’impact sur la précision du score de coupe, ce qui explique le manque d’impact observé d’un second tour sur la précision du score de coupe. La conclusion inévitable de ces résultats quelque peu surprenants suggère que, à condition qu’il y ait suffisamment de juges, la méthode d’Angoff originale non modifiée est suffisamment robuste et la discussion entre les panélistes n’améliore pas de manière significative la précision du cut-score d’Angoff.
Néanmoins, les méthodes d’Angoff modifiées qui fournissent des informations supplémentaires sur la performance du test lui-même (par exemple, les paramètres de l’item et de l’étudiant basés sur les analyses IRT) sont bien accueillies. Ces modifications sont susceptibles d’augmenter la précision des juges sans impact sur la rigueur, car ces connaissances supplémentaires sont liées aux paramètres du test uniquement et non au niveau d’expertise.
Limites de l’étude
Cette étude présente des limites, la principale étant qu’il s’agit d’une étude de simulation. La validité des résultats dépend de la validité de la simulation des données, notamment des variables et des hypothèses. Nous avons supposé que les attributs des juges sont normalement distribués, plutôt que non-paramétriques. Naturellement, il est possible qu’un examen particulier et/ou un ensemble particulier d’examinateurs et/ou un ensemble particulier de juges dans la vie réelle aient des attributs différents de ceux décrits dans cette étude et donc que les recommandations de cette étude ne leur soient pas applicables. Cependant, étant donné le grand nombre (4900) de panels uniques générés pour cette étude et la concordance avec les résultats précédents générés à partir de données réelles, il est raisonnable de croire que les résultats sont généralisables. En outre, comme nous l’avons déjà expliqué, les hypothèses formulées pour la génération des données sont fondées sur les théories et les résultats pratiques de la mesure et de la normalisation de l’éducation. Notez que, comme on s’y attend d’une étude de simulation, cette étude mesure la qualité d’un modèle plutôt que d’analyser toute donnée observée .
Des recherches supplémentaires sont nécessaires pour identifier l’impact d’autres caractéristiques des méthodes d’Angoff modifiées sur la précision des cut-score, ainsi que pour répéter cette étude en utilisant des hypothèses modifiées.