Inzichten in de Angoff-methode: resultaten van een simulatiestudie
In deze studie werd gebruik gemaakt van gesimuleerde gegevens op basis van 4900 unieke jurypanels, waardoor het verschil kon worden gemeten tussen de door de panels vastgestelde Angoff cut-scores en de ‘ware’ cut-score. De belangrijkste bevindingen waren:
- (a)
Het verhogen van het aantal juryleden vermindert de variatie in de cut-scores van het panel, maar, wat belangrijker is, verhoogt ook de precisie van de cut-score van het panel; het effect op de precisie was echter minder duidelijk voor tests met een groot aantal items;
- (b)
De strengheid van de juryleden en, in mindere mate, de nauwkeurigheid van de juryleden beïnvloeden de nauwkeurigheid van de cut-score; en
- (c)
De toepassing van de tweede ronde van het Angoff-proces zonder rekening te houden met de examinandi of de testgegevens heeft geen betekenisvol effect op de nauwkeurigheid van de cut-score.
De bevindingen worden in drie secties besproken. De eerste bespreekt de verdienste en de geschiktheid van de simulatie; de tweede bespreekt de bevindingen en hun implicaties voor onderzoekers en praktijkmensen; en de derde sectie bespreekt de verdienste en de beperkingen van deze studie en mogelijke richtingen voor verder onderzoek.
De simulatie
Gesimuleerde gegevens zijn eerder gebruikt in onderwijsbeoordelingsonderzoek voor kennisgebaseerde toetsen en voor prestatiegebaseerde beoordeling . Simulatiestudies op het gebied van normstelling zijn echter schaars en er is er geen gevonden die beslissingen van rechters simuleerde op basis van hun gesimuleerde attributen en deze vergeleek met een gesimuleerde ‘werkelijke waarde’ . De meeste eerdere simulatiestudies op dit gebied simuleerden de prestatie-/examencijfers van studenten die moesten worden gebruikt door Angoff-panels bestaande uit echte rechters, maar geen van deze studies mat de eigenschappen van de rechters en hun invloed op de precisie van de cut-score . B. Clauser e.a. vergeleken de schattingen van het percentage correcte antwoorden door de juryleden met empirische gegevens over het percentage correcte antwoorden van de examinandi. Deze aanpak, hoewel belangrijk, meet het vermogen van de jury om de prestatie van de examinandi op een bepaalde test in te schatten, maar zonder enig empirisch bewijs om de cut-score vast te stellen die bekwaamheid van onbekwaamheid onderscheidt. De huidige studie bouwt voort op eerdere werken en breidt het gebruik van simulatie op dit gebied uit door de eigenschappen van rechters te simuleren waarvan wordt verondersteld dat ze hun beslissingen beïnvloeden, evenals het meten van de precisie van de cut-score door de door de panels bepaalde cut-score te vergelijken met de ‘ware’ cut-score.
Alle eerdere in de literatuur geïdentificeerde studies gebruikten de variantie binnen rechters (of overeenstemming tussen) als een maat voor nauwkeurigheid of precisie. Het gebruik van een dergelijke maatstaf betekent dat indien een panel van rechters zeer streng is, maar allen het met elkaar eens zijn, hun overeengekomen cut-score als nauwkeuriger zou worden beschouwd dan een cut-score die wordt verkregen door een evenwichtig panel bestaande uit enkele strenge en enkele milde rechters, dat uiteraard een grotere variantie zou opleveren. In het echte leven is er geen manier om de echte cut-score te kennen die een onderscheid maakt tussen bekwaamheid en onbekwaamheid, en daarom wordt de norm toegepast. Zo heeft (, p. 158) gegevens gepresenteerd waaruit blijkt dat drie verschillende panels die dezelfde items schatten, verschillende overeengekomen cut-scores en verschillende inter-beoordelaarsvarianties opleveren, zelfs wanneer dezelfde standaardmethode wordt gebruikt (Angoff of Nedelsky). Andere studies (bv. ) die generaliseerbaarheidsanalyses gebruikten om de repliceerbaarheid van een Angoff-procedure te meten, kwamen tot de conclusie dat een groot deel van de totale foutvariantie van de rechters afkomstig was, maar zij hadden geen gouden standaard waarmee de afwijking van de echte cut-score kon worden gemeten. Dit ligt voor de hand, aangezien generaliseerbaarheidsanalyses gebaseerd zijn op foutenbronnen terwijl ervan wordt uitgegaan dat het gemiddelde zeer dicht bij de ware score ligt. Bij het meten van de nauwkeurigheid van een standaardiseringsproces hebben simulatiestudies zoals die welke in dit document worden gepresenteerd, het unieke voordeel dat zij de ware cut-score omvatten als een geldige vergelijkingsnorm.
De redenering die de simulatie van elk van de variabelen rechtvaardigt, wordt in detail besproken in het gedeelte over de methode en wordt hier niet herhaald. Is het echter wel geldig om de eigenschappen van rechters te simuleren? Verheggen et al. toonden aan dat bij normering de individuele beslissing van een rechter over een individueel item de “inherente strengheid van de rechter en zijn/haar vakgerelateerde kennis” weerspiegelen (, p. 209). Dit begrip werd in de literatuur veelvuldig genoemd. In meettermen, als alle items even moeilijk zijn (d.w.z. moeilijkheidsgraad = 0) dan is de resulterende cut-score samengesteld uit de som van biases (d.w.z. strengheid van de beoordelaars) en de som van toevallige fouten (d.w.z. nauwkeurigheid en andere toevallige fouten). Aangezien eerdere studies suggereren dat deskundigen strenger zijn dan niet-deskundigen, en geacht worden een grotere invloed te hebben binnen het panel, hebben wij deze veronderstellingen in de simulatieparameters opgenomen. De absolute mate waarin elk van de attributen de beoordeling beïnvloedt is onbekend, en daarom is de simulatie opgebouwd uit gestandaardiseerde parameters (SD ≅ 1), zodat de relatieve invloed van elke parameter op de cut-scores kan worden vastgesteld. Er zij op gewezen dat, zoals bij alle simulatiestudies, in de huidige studie de interacties worden gemeten voor bepaalde gesimuleerde omstandigheden, met het oog op een beter begrip van een beoordelingsmodel. In deze studie gaat het niet om het meten van de natuur . Deze studie is echter vergelijkbaar met onderzoek waarbij echte gegevens worden gebruikt, in die zin dat de ene studie het effect meet dat is waargenomen bij een bepaalde steekproef en een andere studie soortgelijke maatregelen toepast op een andere steekproef. Vaak zijn de resultaten verschillend, maar het verschil wijst er niet op dat de ene studie correcter is dan de andere. Gezien de overeenstemming met eerdere studies die echte gegevens gebruikten, wordt gesuggereerd dat de resultaten van deze simulatiestudie van toepassing zouden zijn op elke populatie van rechters met kenmerken die niet lijken op wat in deze studie werd gesimuleerd.
Over het geheel genomen levert een simulatiestudie altijd resultaten op die worden bepaald door de simulatieparameters. De bijdrage van deze studie aan de literatuur over het vaststellen van normen is dat zij de invloed meet van de eigenschappen van de rechters op individueel niveau op de nauwkeurigheid van de cut-score van het panel. Voor zover wij weten, zijn deze verbanden nooit eerder gemeten, noch aan de hand van gesimuleerde, noch aan de hand van geobserveerde gegevens. De overeenstemming van de resultaten van deze studie met eerdere studies, met name waar de resultaten konden worden vergeleken (bijv. Fig. 2 vs. het werk van Hurtz en Hertz , Fig. 1 ), ondersteunen de geldigheid van de simulatie-aannames en parameters, waardoor de studiebevindingen kracht wordt bijgezet.
Implicaties van de resultaten
Angoff wordt vaak gebruikt om normen vast te stellen in grootschalige onderwijsevaluaties . Binnen de context van medisch onderwijs, is Angoff toegepast op toetsen van medische kennis (b.v. MCQ’s ) , of klinische vaardigheidsexamens (b.v. OSCE) .
In klinische examens (b.v. OSCE), kan het aantal items (of stations) tussen de 10 en 20 liggen . Aangezien een verhoging van het aantal items om haalbaarheidsredenen onwaarschijnlijk is, suggereren onze resultaten dat, als Angoff zou worden gebruikt, een optimale combinatie ongeveer 30 juryleden voor 10 items zou zijn, met een minimum van 20 juryleden voor 15 items of meer. Voor MCQ’s, waar het aantal items groot is, zou een minimum van 15 juryleden voldoende moeten zijn om een verdedigbare Angoff cut-score vast te stellen voor examens die uit 80 items of meer bestaan (Fig. 2). Er wordt op gewezen dat het verhogen van het aantal items meer datapunten oplevert, dus een hogere betrouwbaarheid en dus waarschijnlijk ook een grotere precisie.
Deze bevindingen liggen binnen het bereik dat in de literatuur wordt aanbevolen, wat suggereert dat een aanvaardbare cut-score zou kunnen worden bereikt als 5-25 juryleden werden gebruikt. Aangezien er geen gouden standaard is voor een definitie van ‘wat is goed genoeg’ bij het vaststellen van normen , kan het toepassen van Angoff met verschillende aantallen juryleden te rechtvaardigen zijn, afhankelijk van de context van de examens.
Vorige studies die gebruik maakten van geobserveerde gegevens hebben de Angoff-precisie bepaald aan de hand van de variantie tussen de juryleden . Andere studies die gebruik maakten van geobserveerde gegevens gebruikten IRT-parameters of cut-scores gegenereerd door alternatieve methoden om de kwaliteit van de Angoff gegenereerde cut-scores te schatten . Deze methoden zijn geschikt wanneer geobserveerde gegevens worden gebruikt. In de huidige studie werd de precisie bepaald door de afwijking van de cut-score van het panel ten opzichte van de “echte” cut-score. Het verschil tussen deze definities is meer dan semantisch. Jalili e.a. gebruikten indirecte maatstaven om de validiteit te schatten, want Jalili e.a. verklaarden bijvoorbeeld: “Wij hebben geen referentiestandaard waaraan wij de validiteit kunnen toetsen”. Hun elegante oplossing bestond erin de correlatie tussen de cut-scores van de panels en de gemiddelde geobserveerde scores (scores die de examinatoren aan de examinandi gaven) voor elk item te gebruiken als maatstaf om de validiteit te schatten. De huidige studie heeft het voordeel dat er een referentienorm is waaraan de validiteit kan worden getoetst, aangezien die in de simulatieparameters was opgenomen (ware cut-score = 0). Onze bevinding dat de correlatie laag was (r = .226, p < .0001) geeft aan dat, hoewel er een correlatie was, de intra-panel SD (overeenstemming van de juryleden) slechts 5.1 % van de variantie in de precisie van de cut-score verklaarde. Deze bevinding is belangrijk omdat zij suggereert dat, hoewel het identificeren van de foutenbron (d.w.z. in generaliseerbaarheidsstudies) een geldige manier is om de betrouwbaarheid van een normbepalingsmethode te meten, het gebruik van de echte cut-score, of een aanvaardbare benadering daarvan (indien echte gegevens worden gebruikt), een onschatbare referentie is voor het meten van de validiteit. Bijgevolg ondersteunt deze bevinding een heroverweging van de samenstelling van Angoff-panels.
De literatuur suggereert dat de Angoff-rechters experts moeten zijn , maar erkent dat experts strenger zijn en een grotere invloed kunnen hebben op andere rechters . Fig. 3 geeft enig inzicht in deze discrepantie door de interactie aan te tonen tussen Stringency en Accuracy (deskundig zijn). Het lijkt erop dat panels die noch te streng, noch te mild zijn, nauwkeuriger zijn omdat ze minder vatbaar zijn voor vooringenomenheid. De mate van nauwkeurigheid (het vermogen van het individu om de juiste cut-score in te schatten) heeft echter slechts een kleine invloed op de nauwkeurigheid van de cut-score van het panel. Dit is aannemelijk, aangezien de cut-score wordt bepaald door het gemiddelde van de scores van alle juryleden. Zonder vertekening in de beoordeling (in de veronderstelling dat de striktheid constant wordt gehouden) komt de gemiddelde score van de juryleden dichter bij de werkelijke waarde naarmate het aantal juryleden toeneemt. Het effect van de striktheid op de nauwkeurigheid is duidelijk (aangezien dit een van de simulatieparameters was), maar het suggereert ook dat een panel dat alleen uit deskundigen of alleen uit niet-deskundigen bestaat, een cut-score zou opleveren die minder nauwkeurig is dan een cut-score die wordt verkregen door een gemengd panel van deskundigen (Fig. 3), met name gezien het reeds gedocumenteerde verband tussen striktheid en deskundigheid . Over het geheel genomen suggereren deze bevindingen dat de optimale samenstelling van een Angoff-panel moet bestaan uit een gevarieerd aantal rechters in termen van deskundigheid en striktheid (indien bekend). Gezien de geringe invloed van overeenstemming tussen de juryleden op de nauwkeurigheid van de cut-score (verklaarde variantie = 5,1%), wordt deze praktijk aanbevolen, ondanks de waarschijnlijkheid van toenemende onenigheid tussen de juryleden binnen het panel.
In deze studie werd vastgesteld dat de invloed van een tweede Angoff-ronde, waarbij de juryleden door anderen kunnen worden beïnvloed (d.w.z. invloed van “Leadership”), verwaarloosbaar is. Hoewel deze bevinding verwaarloosbaar was, zelfs gemeten naar gestandaardiseerde effectgrootte (Cohen’s d = -0,083), moet ze met de nodige voorzichtigheid worden geïnterpreteerd, vooral omdat alle metingen gestandaardiseerd zijn en de tweede ronde alleen verschilde van de eerste door de invloed van de rechters. Deze bevinding wordt ondersteund door eerdere empirische studies die geringe verschillen tussen twee Angoff-rondes aantonen. Andere factoren, zoals de presentatie van de testgegevens, werden in deze studie niet in aanmerking genomen. Het is mogelijk dat een andere wegingsmethode een groter effect zou hebben opgeleverd en dit moet in toekomstige studies worden getest. De literatuur rechtvaardigt de tweede ronde als een manier om de overeenstemming tussen de juryleden te vergroten, maar zoals hierboven aangegeven, kan het vergroten van de overeenstemming tussen de juryleden weinig invloed hebben op de precisie van de cut-score, wat het gebrek aan invloed van een tweede ronde op de precisie van de cut-score verklaart. De onvermijdelijke conclusie uit deze enigszins verrassende resultaten is dat, mits er voldoende juryleden zijn, de oorspronkelijke ongewijzigde Angoff-methode robuust genoeg is en de discussie tussen de panelleden de precisie van Angoff’s cut-score niet significant verbetert.
Niettemin worden de gemodificeerde Angoff-methoden die extra informatie over de testprestaties zelf verschaffen (bijv. item- en leerlingparameters op basis van IRT-analyses), toegejuicht. Dergelijke modificaties zullen waarschijnlijk de nauwkeurigheid van de jury verhogen zonder gevolgen voor de Stringency, omdat deze extra kennis alleen betrekking heeft op testparameters en niet op het deskundigheidsniveau.
Beperkingen van de studie
Deze studie heeft beperkingen, waarvan de belangrijkste is dat het een simulatiestudie is. De geldigheid van de bevindingen hangt af van de geldigheid van de gegevenssimulatie, met name van de variabelen en de veronderstellingen. Wij zijn ervan uitgegaan dat de attributen van de rechters normaal verdeeld zijn, en niet niet-parametrisch. Natuurlijk is het mogelijk dat een bepaald examen en/of een bepaalde groep examinandi en/of een bepaalde groep rechters in het echte leven andere kenmerken hebben dan in deze studie is beschreven en dat de aanbevelingen van deze studie dus niet op hen van toepassing zijn. Gezien echter het grote aantal (4900) unieke panels dat voor deze studie werd gegenereerd en de overeenstemming met eerdere resultaten die uit reële gegevens werden gegenereerd, mag redelijkerwijs worden aangenomen dat de bevindingen generaliseerbaar zijn. Bovendien zijn, zoals reeds uiteengezet, de veronderstellingen die bij het genereren van de gegevens zijn gemaakt, gebaseerd op theorieën over onderwijsmetingen en standaardinstellingen en op bevindingen uit de praktijk. Merk op dat, zoals verwacht van een simulatiestudie, deze studie de kwaliteit van een model meet in plaats van geobserveerde gegevens te analyseren.
Verder onderzoek is nodig om de invloed van andere kenmerken van gemodificeerde Angoff-methoden op de precisie van de cut-score vast te stellen, alsmede om deze studie te herhalen met gebruikmaking van gemodificeerde veronderstellingen.