Insikter i Angoff-metoden: resultat från en simuleringsstudie

Denna studie använde simulerade data baserade på 4900 unika jurygrupper, vilket gjorde det möjligt att mäta skillnaden mellan jurygruppernas fastställda Angoff-gränsvärden och det ”sanna” gränsvärdet. De viktigaste resultaten var följande:

  1. (a)

    Ökning av antalet domare minskar variationen i panelens cut-scores men, ännu viktigare, ökar också precisionen i panelens cut-score; effekten på precisionen var dock mindre tydlig för tester med ett stort antal objekt;

  2. (b)

    Domarnas stränghet och, i mindre utsträckning, domarnas noggrannhet påverkar precisionen i cut-score, och

  3. (c)

    Tillämpning av Angoff-processens andra omgång utan hänsyn till examinanderna eller provdata har inte någon betydelsefull inverkan på precisionen i cut-score.

Resultaten diskuteras i tre avsnitt. I det första avsnittet diskuteras simuleringens förtjänst och lämplighet, i det andra avsnittet diskuteras resultaten och deras konsekvenser för forskare och praktiker och i det tredje avsnittet diskuteras studiens förtjänst och begränsningar samt möjliga riktningar för fortsatt forskning.

Simuleringen

Simulerade data har tidigare använts inom forskningen om utbildningsbedömning för kunskapsbaserade tester och för prestationsbaserad bedömning . Simuleringsstudier på området för fastställande av standarder är dock sällsynta och ingen har hittats som simulerade domares beslut baserat på deras simulerade attribut och jämförde dem med ett simulerat ”verkligt värde” . I de flesta tidigare simuleringsstudier på detta område simulerades elevernas prestationer/examensresultat som skulle användas av Angoff-paneler bestående av riktiga domare, men ingen av dessa studier har mätt domarnas egenskaper och deras inverkan på precisionen i cut-score-värdena . B. Clauser et al. jämförde domarnas uppskattningar av andelen korrekta svar med empiriska uppgifter om examinandernas andel korrekta svar. Detta tillvägagångssätt är visserligen viktigt, men det mäter domarnas förmåga att uppskatta provdeltagarnas prestationer på ett visst prov. Det finns dock inga empiriska belägg för att föreslå det gränsvärde som skiljer kompetens från inkompetens . Den aktuella studien bygger på tidigare arbeten och utökar användningen av simulering på detta område genom att simulera domarnas egenskaper som antas påverka deras beslut, samt genom att mäta precisionen i cut-score genom att jämföra panelernas fastställda cut-score med det ”sanna” cut-score.

Alla tidigare studier som identifierats i litteraturen använde variansen inom domarna (eller överenskommelsen mellan domarna) som ett mått på noggrannhet eller precision. Att använda ett sådant mått innebär att om en panel av domare var mycket sträng men alla var överens med varandra skulle deras överenskomna cut-score anses vara mer exakt än ett cut-score som gavs av en balanserad panel som bestod av en del stränga och en del milda domare, vilket naturligtvis skulle ge en större varians. I det verkliga livet finns det inget sätt att känna till det verkliga gränsvärdet som skiljer mellan kompetens och inkompetens, och därför används standardisering. I (, s. 158) presenteras till exempel uppgifter som visar att tre olika paneler som bedömer samma uppgifter ger olika överenskomna cut-scores och olika varians mellan bedömare, även om man använder samma standardiseringsmetod (Angoff eller Nedelsky). I andra studier (t.ex. ), där man använde generaliserbarhetsanalys för att mäta replikerbarheten av ett Angoff-förfarande, drog man slutsatsen att en stor del av den totala felvariansen kom från domarna, men man hade ingen guldstandard med vilken man kunde mäta avvikelsen från det sanna cut-score-värdet. Detta är uppenbart eftersom generaliserbarhetsanalysen bygger på felkällor samtidigt som man utgår från att medelvärdet ligger mycket nära den sanna poängen . När man mäter precisionen i en standardiseringsprocess har simuleringsstudier, som den som presenteras i detta dokument, den unika fördelen att de innefattar det sanna snittresultatet som en giltig jämförelsestandard.

Rationalet för att rättfärdiga simuleringen av var och en av variablerna diskuteras i detalj i metodavsnittet och upprepas inte här. Är det dock giltigt att simulera domarnas egenskaper? Verheggen et al. visade att vid standardisering återspeglar en domares individuella beslut om ett enskilt objekt ”domarens inneboende stränghet och hans/hennes ämnesrelaterade kunskaper” (, s. 209). Detta begrepp har nämnts i stor utsträckning i litteraturen . Om alla frågor är lika svåra (dvs. svårighetsgrad = 0) består den resulterande cut-score av summan av bias, dvs. domarnas stränghet, och summan av slumpmässiga fel, dvs. noggrannhet och andra slumpmässiga fel. Eftersom tidigare studier tyder på att experter är strängare än icke-experter och anses ha ett större inflytande i panelen, inkluderade vi dessa antaganden i simuleringsparametrarna. Den absoluta omfattningen av hur varje attribut påverkar bedömningen är okänd, och därför bestod simuleringen av standardiserade parametrar (SD ≅ 1) för att möjliggöra att de relativa effekterna av varje parameter på cut-scores kan fastställas. Observera att den aktuella studien, liksom alla simuleringsstudier, mäter interaktioner för givna simulerade förhållanden för att öka förståelsen för en bedömningsmodell. Denna undersökning handlar inte om att mäta naturen . Denna studie liknar dock forskning som använder verkliga data, eftersom en studie mäter effekter som observerats på ett visst urval och en annan studie tillämpar liknande åtgärder på ett annat urval. Ofta är resultaten olika, men skillnaden tyder inte på att den ena studien är mer korrekt än den andra. Med tanke på överensstämmelsen med tidigare studier som använt riktiga data , föreslås att resultaten av denna simuleringsstudie skulle kunna tillämpas på vilken population som helst av domare med egenskaper som inte är olik dem som simulerades i denna studie.

Samt sett ger en simuleringsstudie alltid resultat som bestäms av simuleringsparametrarna. Den här studiens bidrag till litteraturen om standardisering är att den mäter effekten av domarnas egenskaper på individnivå på precisionen av panelens cut-score. Såvitt vi vet har dessa samband aldrig tidigare mätts, vare sig med hjälp av simulerade eller observerade data. Överensstämmelsen mellan resultaten av den här studien och tidigare studier, särskilt där resultaten kunde jämföras (t.ex. fig. 2 jämfört med Hurtz och Hertz arbete, fig. 1 ), stöder giltigheten av simuleringens antaganden och parametrar, vilket stärker studiens resultat.

Resultatens implikationer

Angoff används ofta för att fastställa standarder i storskaliga utbildningsbedömningar . Inom ramen för medicinsk utbildning har Angoff tillämpats på tester av medicinsk kunskap (t.ex. MCQ:s) eller undersökningar av kliniska färdigheter (t.ex. OSCE).

I kliniska undersökningar (t.ex. OSCE) kan antalet punkter (eller stationer) vara mellan 10 och 20 . Med tanke på att det är osannolikt att öka antalet punkter, av genomförbarhetsskäl, tyder våra resultat på att om Angoff användes skulle en optimal kombination vara cirka 30 domare för 10 punkter, med ett minimum av 20 domare för 15 punkter eller mer. För MCQ:s, där antalet frågor är stort, bör minst 15 domare räcka för att fastställa ett försvarbart Angoff-gränsvärde för undersökningar som består av 80 frågor eller mer (fig. 2). Det bör noteras att en ökning av antalet frågor ger fler datapunkter och därmed högre tillförlitlighet, vilket sannolikt också ökar precisionen.

Dessa resultat ligger inom det intervall som rekommenderas i litteraturen, vilket tyder på att ett godtagbart cut-score skulle kunna uppnås om 5-25 domare användes. Eftersom det inte finns någon guldstandard för någon definition av ”vad som är tillräckligt bra” vid standardisering , kan det vara motiverat att tillämpa Angoff med olika antal domare beroende på sammanhanget för undersökningarna.

I tidigare studier som använt observerade data har Angoffprecisionen bestämts genom variansen mellan domarna . Andra studier som använde observerade data använde IRT-parametrar eller cut-scores som genererats med alternativa metoder för att uppskatta kvaliteten på de Angoff-genererade cut-scores . Dessa metoder är lämpliga när observerade data används. I den aktuella studien fastställdes precisionen genom avvikelsen mellan panelens cut-score och det ”sanna” cut-score. Skillnaden mellan dessa definitioner är mer än semantisk. Jalili et al. och andra använde indirekta mått för att uppskatta validiteten, eftersom Jalili et al. till exempel uppgav att ”vi inte har någon referensstandard för att testa validiteten”. Deras eleganta lösning var att använda korrelationen mellan panelernas snittpoäng och de genomsnittliga observerade poängen (poängen som examinanderna gav examinanderna) för varje fråga som ett mått för att uppskatta validiteten. Den aktuella studien har den fördelen att den har en referensstandard för att testa validiteten, eftersom den ingick i simuleringsparametrarna (sant poängsnitt = 0). Vårt resultat att korrelationen var låg (r = .226, p < .0001) tyder på att även om det fanns en korrelation, förklarade SD inom panelen (domarnas överenskommelse) endast 5,1 % av variansen i precisionen av cut-score. Detta resultat är viktigt eftersom det tyder på att även om identifiering av felkällan (dvs. i studier om generaliserbarhet) är ett giltigt sätt att mäta tillförlitligheten hos en metod för fastställande av standarder, är användningen av det verkliga cut-scorevärdet, eller en godtagbar ersättning för det (om riktiga data används), en ovärderlig referens för att mäta validiteten. Följaktligen stöder detta resultat en omprövning av Angoff-panelernas sammansättning.

Litteraturen föreslår att Angoff-domarna bör vara experter, men erkänner samtidigt att experter är strängare och kan ha ett större inflytande på andra domare. Figur 3 ger en inblick i denna diskrepans genom att visa interaktionen mellan stränghet och noggrannhet (att vara expert). Det verkar som om paneler som varken är för stränga eller för milda är mer korrekta eftersom de är mindre benägna att vara partiska. Nivån på noggrannhet (individens förmåga att uppskatta det korrekta snittvärdet) har dock endast en liten inverkan på panelens precision i fråga om snittvärden. Detta är rimligt, eftersom cut-score bestäms av medelvärdet av alla domares poäng . Utan att bedömningen är snedvriden (under förutsättning att Stringency hålls konstant), närmar sig det medelvärde som domarna uppnår sig det verkliga värdet när antalet domare ökar . Stränghetens inverkan på precisionen är uppenbar (eftersom det var en av simuleringsparametrarna), men det tyder också på att en panel med enbart experter eller enbart icke-experter skulle ge en mindre exakt poäng än en panel med blandad expertis (fig. 3), särskilt med tanke på det redan dokumenterade sambandet mellan stränghet och expertis . Sammantaget tyder dessa resultat på att den optimala sammansättningen av en Angoff-panel bör omfatta ett varierat urval av domare när det gäller expertis och stränghet (om den är känd). Med tanke på den ringa inverkan av domaröverenskommelsen på precisionen av cut-score (förklarad varians = 5,1 %) rekommenderas denna praxis trots sannolikheten för ökad oenighet inom panelen.

Denna studie visar att effekten av en andra Angoff-omgång, där domarna kan påverkas av andra (dvs. inflytande av ”ledarskap”), är försumbar. Även om detta resultat var försumbart även när det mäts med hjälp av standardiserad effektstorlek (Cohens d = -0,083) måste det tolkas med försiktighet, särskilt eftersom åtgärderna alla är standardiserade och den andra omgången skiljde sig från den första endast genom domarnas inflytande. Detta resultat stöds av tidigare empiriska studier som visar på mindre skillnader mellan två Angoff-rundor. Andra faktorer, t.ex. presentation av testdata, ingick inte i denna undersökning. Det är möjligt att en annan viktningsmetod skulle ha gett en större effekt och detta bör testas i framtida studier. I litteraturen motiveras den andra omgången som ett sätt att öka överensstämmelsen mellan domarna, men som framgår ovan kan en ökning av överensstämmelsen inom domarna ha liten inverkan på precisionen av cut-score, vilket förklarar den observerade bristen på inverkan av en andra omgång på precisionen av cut-score. Den oundvikliga slutsatsen från dessa något överraskande resultat tyder på att, förutsatt att det finns tillräckligt många domare, är den ursprungliga, icke-modifierade Angoff-metoden tillräckligt robust och att diskussionen mellan paneldeltagarna inte förbättrar precisionen för Angoffs cut-score på ett betydande sätt.

Nåväl välkomnas de modifierade Angoff-metoderna som ger ytterligare information om testets prestanda i sig (t.ex. item- och elevparametrar baserade på IRT-analyser). Sådana modifieringar kommer sannolikt att öka domarnas precision utan påverkan på Stringency, eftersom denna ytterligare kunskap endast är relaterad till testparametrar och inte till expertisnivå.

Begränsningar i studien

Den här studien har begränsningar, varav den främsta är att det är en simuleringsstudie. Validiteten av resultaten beror på validiteten av datasimuleringen, särskilt variablerna och antagandena. Vi antog att domarnas attribut är normalfördelade, snarare än icke-parametriska. Det är naturligtvis möjligt att ett visst prov och/eller en viss uppsättning examinander och/eller en viss uppsättning domare i verkligheten skulle ha andra egenskaper än vad som beskrivs i denna studie och att rekommendationerna i denna studie därför inte skulle vara tillämpliga på dem. Med tanke på det stora antalet (4 900) unika paneler som genererats för denna studie och överensstämmelsen med tidigare resultat som genererats från verkliga data är det dock rimligt att tro att resultaten kan generaliseras. Dessutom, som redan förklarats, är de antaganden som gjorts vid genereringen av data grundade på teorier om utbildningsmätning och standardinställningar och resultat i praktiken . Observera att som förväntat från en simuleringsstudie mäter denna studie kvaliteten på en modell snarare än att analysera observerade data.

Det behövs ytterligare forskning för att identifiera effekten av andra egenskaper hos modifierade Angoff-metoder på precisionen av cut-score, samt för att upprepa denna studie med hjälp av modifierade antaganden.