Einblicke in die Angoff-Methode: Ergebnisse einer Simulationsstudie

In dieser Studie wurden simulierte Daten auf der Grundlage von 4900 einzigartigen Richtergruppen verwendet, die eine Messung der Differenz zwischen den von den Gruppen ermittelten Angoff-Cut-Scores und dem „wahren“ Cut-Score ermöglichten. Die wichtigsten Ergebnisse waren:

  1. (a)

    Eine Erhöhung der Anzahl der Juroren reduziert die Variation in den Cut-Scores des Panels, aber, was noch wichtiger ist, erhöht auch die Präzision des Cut-Scores des Panels; die Auswirkung auf die Präzision war jedoch weniger offensichtlich für Tests mit einer großen Anzahl von Items;

  2. (b)

    Die Strenge der Richter und, in geringerem Maße, die Genauigkeit der Richter wirken sich auf die Präzision der Cut-Scores aus; und

  3. (c)

    Die Anwendung der zweiten Runde des Angoff-Verfahrens ohne Berücksichtigung der Prüflinge oder der Testdaten hat keinen bedeutenden Einfluss auf die Präzision der Cut-Scores.

Die Ergebnisse werden in drei Abschnitten diskutiert. Im ersten Abschnitt werden der Nutzen und die Angemessenheit der Simulation erörtert; im zweiten Abschnitt werden die Ergebnisse und ihre Implikationen für Forscher und Praktiker erörtert; und im dritten Abschnitt werden der Nutzen und die Grenzen dieser Studie sowie mögliche Richtungen für weitere Forschungen erörtert.

Die Simulation

Simulierte Daten wurden bisher in der pädagogischen Bewertungsforschung für wissensbasierte Tests und für leistungsbasierte Bewertung verwendet. Simulationsstudien im Bereich der Normsetzung sind jedoch rar, und es wurde keine gefunden, die die Entscheidungen von Richtern auf der Grundlage ihrer simulierten Attribute simulierte und sie mit einem simulierten „wahren Wert“ verglich. Die meisten früheren Simulationsstudien in diesem Bereich simulierten Schülerleistungen/Prüfungsergebnisse, die von Angoff-Panels, die aus echten Richtern bestehen, verwendet werden sollten, doch in keiner dieser Studien wurden die Attribute der Richter und ihre Auswirkungen auf die Genauigkeit des Cut-Score gemessen. B. Clauser et al. verglichen die Schätzungen der Richter über den Anteil richtiger Antworten mit empirischen Daten über den Anteil richtiger Antworten der Prüflinge. Dieser Ansatz ist zwar wichtig, misst aber die Fähigkeit der Richter, die Leistung der Prüflinge in einem bestimmten Test einzuschätzen, ohne dass es empirische Belege für einen Cut-Score gibt, der Kompetenz von Inkompetenz unterscheidet. Die aktuelle Studie baut auf früheren Arbeiten auf und erweitert den Einsatz von Simulationen in diesem Bereich, indem sie die Eigenschaften der Richter simuliert, von denen angenommen wird, dass sie ihre Entscheidungen beeinflussen, und indem sie die Genauigkeit des Cut-Scores durch den Vergleich des von den Gremien ermittelten Cut-Scores mit dem „wahren“ Cut-Score misst.

Alle früheren Studien, die in der Literatur identifiziert wurden, verwendeten die Varianz innerhalb der Richter (oder die Übereinstimmung zwischen ihnen) als Maß für die Genauigkeit oder Präzision. Die Verwendung eines solchen Maßes bedeutet, dass, wenn ein Gremium von Richtern sehr streng war, aber alle miteinander übereinstimmten, ihr vereinbarter Cut-Score als genauer angesehen würde als ein Cut-Score, der von einem ausgewogenen Gremium mit einigen strengen und einigen nachsichtigen Richtern ermittelt wurde, was natürlich eine größere Varianz ergeben würde. Im wirklichen Leben gibt es keine Möglichkeit, den wahren Cut-Score, der zwischen Kompetenz und Inkompetenz unterscheidet, zu kennen, daher werden Standards gesetzt. So wurden z. B. Daten vorgelegt (S. 158), die zeigen, dass drei verschiedene Gremien, die dieselben Items bewerten, unterschiedliche Cut-Scores und eine unterschiedliche Varianz zwischen den Beurteilern ergeben, selbst wenn dieselbe Standardisierungsmethode (Angoff oder Nedelsky) verwendet wird. Andere Studien (z. B. ), die eine Generalisierbarkeitsanalyse zur Messung der Reproduzierbarkeit eines Angoff-Verfahrens verwendeten, kamen zu dem Schluss, dass ein großer Teil der Gesamtfehlervarianz von den Richtern stammte, obwohl sie keinen Goldstandard hatten, mit dem sie die Abweichung vom wahren Cut-Score messen konnten. Dies liegt auf der Hand, da die Analyse der Verallgemeinerbarkeit auf den Fehlerquellen basiert, wobei davon ausgegangen wird, dass der Mittelwert sehr nahe an der wahren Punktzahl liegt. Bei der Messung der Präzision eines Standardsetzungsprozesses haben Simulationsstudien wie die in diesem Papier vorgestellte den einzigartigen Vorteil, dass sie den wahren Cut-Score als gültigen Vergleichsstandard einbeziehen.

Die Gründe, die die Simulation jeder der Variablen rechtfertigen, werden im Abschnitt „Methode“ ausführlich erörtert und hier nicht wiederholt. Ist es jedoch zulässig, die Eigenschaften der Richter zu simulieren? Verheggen et al. haben gezeigt, dass bei der Normsetzung die individuelle Entscheidung eines Richters zu einem einzelnen Item die „inhärente Strenge des Richters und sein fachbezogenes Wissen“ widerspiegelt (, S. 209). Dieser Gedanke wurde in der Literatur häufig erwähnt. Wenn also alle Items gleich schwierig sind (d. h. Schwierigkeitsgrad = 0), setzt sich der resultierende Cut-Score aus der Summe der Verzerrungen, d. h. der Strenge des Richters, und der Summe der Zufallsfehler, d. h. der Genauigkeit und anderer Zufallsfehler, zusammen. Da frühere Studien darauf hindeuten, dass Experten strenger sind als Nichtexperten und dass man davon ausgeht, dass sie einen größeren Einfluss innerhalb des Gremiums haben, haben wir diese Annahmen in die Simulationsparameter aufgenommen. Das absolute Ausmaß, in dem jedes der Attribute das Urteil beeinflusst, ist nicht bekannt, daher bestand die Simulation aus standardisierten Parametern (SD ≅ 1), damit die relativen Auswirkungen jedes Parameters auf die Cut-Scores ermittelt werden können. Wie bei allen Simulationsstudien werden auch bei der vorliegenden Studie die Wechselwirkungen unter bestimmten simulierten Bedingungen gemessen, um ein besseres Verständnis eines Bewertungsmodells zu ermöglichen. In dieser Studie geht es nicht darum, die Natur zu messen. Diese Studie ähnelt jedoch der Forschung mit realen Daten, bei der eine Studie die an einer bestimmten Stichprobe beobachteten Auswirkungen misst und eine andere Studie ähnliche Maßnahmen auf eine andere Stichprobe anwendet. Oft sind die Ergebnisse unterschiedlich, was jedoch nicht bedeutet, dass die eine Studie richtiger ist als die andere. In Anbetracht der Übereinstimmung mit früheren Studien, in denen reale Daten verwendet wurden, ist davon auszugehen, dass die Ergebnisse dieser Simulationsstudie auf jede beliebige Richterpopulation anwendbar sind, deren Eigenschaften den in dieser Studie simulierten nicht unähnlich sind.

Insgesamt liefert eine Simulationsstudie immer Ergebnisse, die durch die Simulationsparameter bestimmt werden. Der Beitrag dieser Studie zur Literatur über die Festlegung von Standards besteht darin, dass sie die Auswirkungen der Eigenschaften der Richter auf individueller Ebene auf die Genauigkeit des Cut-Scores des Gremiums misst. Unseres Wissens wurden diese Zusammenhänge noch nie gemessen, weder anhand von simulierten noch von beobachteten Daten. Die Übereinstimmung der Ergebnisse dieser Studie mit früheren Studien, insbesondere dort, wo die Ergebnisse verglichen werden konnten (z. B. Abb. 2 im Vergleich zur Arbeit von Hurtz und Hertz, Abb. 1), unterstützt die Gültigkeit der Simulationsannahmen und -parameter und stärkt damit die Ergebnisse der Studie.

Implikationen der Ergebnisse

Angoff wird häufig zur Festlegung von Standards in groß angelegten Bildungsbewertungen verwendet. Im Rahmen der medizinischen Ausbildung wurde Angoff auf Tests zum medizinischen Wissen (z.B. MCQs) oder auf Prüfungen zu klinischen Fertigkeiten (z.B. OSCE) angewandt.

In klinischen Prüfungen (z.B. OSCE) kann die Anzahl der Items (oder Stationen) zwischen 10 und 20 liegen. Da eine Erhöhung der Anzahl der Items aus Gründen der Durchführbarkeit unwahrscheinlich ist, deuten unsere Ergebnisse darauf hin, dass bei Verwendung von Angoff eine optimale Kombination aus etwa 30 Richtern für 10 Items und mindestens 20 Richtern für 15 oder mehr Items besteht. Bei MCQs, bei denen die Anzahl der Items groß ist, sollte ein Minimum von 15 Richtern ausreichen, um einen vertretbaren Angoff-Cut-Score für Prüfungen mit 80 oder mehr Items festzulegen (Abb. 2). Es ist anzumerken, dass eine Erhöhung der Anzahl der Items mehr Datenpunkte und damit eine höhere Reliabilität liefert und daher wahrscheinlich auch die Präzision erhöht.

Diese Ergebnisse liegen innerhalb des in der Literatur empfohlenen Bereichs, was darauf hindeutet, dass ein akzeptabler Cut-Score erreicht werden könnte, wenn 5-25 Richter eingesetzt würden. Da es keinen Goldstandard für eine Definition dessen gibt, was bei der Festlegung von Standards „gut genug“ ist, könnte die Anwendung von Angoff mit einer unterschiedlichen Anzahl von Richtern je nach Prüfungskontext gerechtfertigt sein.

Vorangegangene Studien, die beobachtete Daten verwendeten, haben die Angoff-Präzision anhand der Varianz zwischen den Richtern bestimmt. Andere Studien, die beobachtete Daten verwendeten, nutzten IRT-Parameter oder Cut-Scores, die mit alternativen Methoden generiert wurden, um die Qualität der mit Angoff generierten Cut-Scores zu schätzen. Diese Methoden sind geeignet, wenn Beobachtungsdaten verwendet werden. In der vorliegenden Studie wurde die Präzision anhand der Abweichung des Cut-Scores des Panels vom „wahren“ Cut-Score bestimmt. Der Unterschied zwischen diesen Definitionen ist mehr als nur semantisch. Jalili et al. und andere verwendeten indirekte Maße, um die Validität abzuschätzen, wie z. B. Jalili et al. erklärten: „Wir haben keinen Referenzstandard, mit dem wir die Validität testen können“. Ihre elegante Lösung bestand darin, die Korrelation zwischen den Cut-Scores der Panels und den mittleren beobachteten Punktzahlen (die von den Prüfern an die Prüflinge vergebenen Punktzahlen) für jedes Item als Maß für die Schätzung der Validität zu verwenden. Die aktuelle Studie hat den Vorteil, dass sie einen Referenzstandard hat, mit dem die Validität getestet werden kann, da er in die Simulationsparameter einbezogen wurde (echter Cut-Score = 0). Unsere Feststellung, dass die Korrelation gering war (r = .226, p < .0001), deutet darauf hin, dass es zwar eine Korrelation gab, die SD innerhalb des Panels (Übereinstimmung der Richter) aber nur 5,1 % der Varianz in der Präzision des Cut-Scores erklärte. Dieses Ergebnis ist wichtig, da es darauf hindeutet, dass die Ermittlung der Fehlerquelle (z. B. in Studien zur Verallgemeinerbarkeit) zwar eine gültige Methode zur Messung der Zuverlässigkeit einer Standardsetzungsmethode ist, die Verwendung des wahren Cut-Scores oder eines akzeptablen Ersatzwertes dafür (wenn reale Daten verwendet werden) jedoch eine wertvolle Referenz für die Messung der Validität darstellt. In der Literatur wird vorgeschlagen, dass die Angoff-Richter Experten sein sollten, doch wird auch anerkannt, dass Experten strenger sind und einen größeren Einfluss auf andere Richter haben können. Abb. 3 gibt einen Einblick in diese Diskrepanz, indem sie die Wechselwirkung zwischen Strenge und Genauigkeit (Expertenstatus) zeigt. Es scheint, dass Gremien, die weder zu streng noch zu nachsichtig sind, genauer sind, da sie weniger anfällig für Verzerrungen sind. Der Grad der Genauigkeit (die Fähigkeit des Einzelnen, den korrekten Cut-Score zu schätzen) hat jedoch nur einen geringen Einfluss auf die Genauigkeit des Panels beim Cut-Score. Dies ist plausibel, da der Cut-Score durch den Mittelwert der Bewertungen aller Richter bestimmt wird. Ohne Voreingenommenheit bei der Beurteilung (unter der Annahme, dass die Stringenz konstant gehalten wird) nähert sich der von den Richtern erzielte Mittelwert mit zunehmender Anzahl der Richter dem wahren Wert an. Die Auswirkung der Stringenz auf die Genauigkeit ist offensichtlich (da sie einer der Simulationsparameter war), aber sie deutet auch darauf hin, dass ein Gremium, das nur aus Experten oder nur aus Nichtexperten besteht, einen weniger präzisen Cut-Score ergeben würde als ein Cut-Score, der von einem Gremium mit gemischtem Fachwissen erzielt wird (Abb. 3), insbesondere angesichts des bereits dokumentierten Zusammenhangs zwischen Stringenz und Fachwissen. Insgesamt deuten diese Ergebnisse darauf hin, dass die optimale Zusammensetzung eines Angoff-Gremiums ein breites Spektrum an Richtern in Bezug auf Fachwissen und Strenge (falls bekannt) umfassen sollte. In Anbetracht der geringen Auswirkung der Richterübereinstimmung auf die Cut-Score-Präzision (erklärte Varianz = 5,1 %) wird diese Praxis trotz der Wahrscheinlichkeit zunehmender Meinungsverschiedenheiten zwischen den Richtern innerhalb des Gremiums empfohlen.

Diese Studie ergab, dass die Auswirkungen einer zweiten Angoff-Runde, in der die Richter von anderen beeinflusst werden können (d. h. der Einfluss der „Führung“), vernachlässigbar sind. Obwohl dieser Befund selbst gemessen an der standardisierten Effektgröße (Cohen’s d = -0,083) vernachlässigbar war, muss er mit Vorsicht interpretiert werden, zumal alle Maße standardisiert sind und sich die zweite Runde nur durch den Einfluss der Richter von der ersten unterschied. Dieses Ergebnis wird durch frühere empirische Studien gestützt, die geringe Unterschiede zwischen zwei Angoff-Runden nachweisen. Andere Faktoren, wie die Präsentation der Testdaten, wurden in dieser Studie nicht berücksichtigt. Es ist möglich, dass eine andere Gewichtungsmethode eine größere Auswirkung gehabt hätte, und dies sollte in zukünftigen Studien getestet werden. In der Literatur wird die zweite Runde als Mittel zur Erhöhung der Übereinstimmung zwischen den Richtern gerechtfertigt, doch wie oben erwähnt, hat die Erhöhung der Übereinstimmung zwischen den Richtern möglicherweise nur geringe Auswirkungen auf die Genauigkeit der Cut-Scores, was den beobachteten mangelnden Einfluss einer zweiten Runde auf die Genauigkeit der Cut-Scores erklärt. Die unvermeidliche Schlussfolgerung aus diesen etwas überraschenden Ergebnissen legt nahe, dass die ursprüngliche, nicht modifizierte Angoff-Methode robust genug ist, vorausgesetzt, es gibt genügend Juroren, und dass die Diskussion unter den Juroren die Präzision des Angoff-Cut-Scores nicht signifikant verbessert.

Dennoch sind die modifizierten Angoff-Methoden, die zusätzliche Informationen über die Testleistung selbst liefern (z. B. Item- und Schülerparameter auf der Grundlage von IRT-Analysen), zu begrüßen. Solche Modifikationen werden wahrscheinlich die Präzision der Richter erhöhen, ohne die Stringenz zu beeinträchtigen, da sich dieses zusätzliche Wissen nur auf die Testparameter und nicht auf den Grad der Fachkenntnis bezieht.

Studieneinschränkungen

Diese Studie hat Einschränkungen, wobei die wichtigste darin besteht, dass es sich um eine Simulationsstudie handelt. Die Gültigkeit der Ergebnisse hängt von der Gültigkeit der Datensimulation ab, insbesondere von den Variablen und den Annahmen. Wir sind davon ausgegangen, dass die Attribute der Richter normalverteilt sind, und nicht parametrisch. Natürlich ist es möglich, dass eine bestimmte Prüfung und/oder eine bestimmte Gruppe von Prüflingen und/oder eine bestimmte Gruppe von Richtern im wirklichen Leben andere Attribute aufweisen als in dieser Studie beschrieben, so dass die Empfehlungen dieser Studie nicht auf sie anwendbar wären. In Anbetracht der großen Anzahl (4900) einzigartiger Panels, die für diese Studie generiert wurden, und der Übereinstimmung mit früheren Ergebnissen, die aus realen Daten gewonnen wurden, kann man jedoch davon ausgehen, dass die Ergebnisse verallgemeinerbar sind. Darüber hinaus basieren die Annahmen, die bei der Generierung der Daten getroffen wurden, wie bereits erläutert, auf Theorien zur Bildungsmessung und zu Standardeinstellungen sowie auf Erkenntnissen aus der Praxis. Wie von einer Simulationsstudie zu erwarten, misst diese Studie die Qualität eines Modells und analysiert keine beobachteten Daten.

Weitere Forschung ist erforderlich, um die Auswirkungen anderer Merkmale modifizierter Angoff-Methoden auf die Genauigkeit der Cut-Scores zu ermitteln und um diese Studie unter veränderten Annahmen zu wiederholen.