Pohled na Angoffovu metodu: výsledky simulační studie

V této studii byla použita simulovaná data založená na 4900 unikátních panelech soudců, což umožnilo změřit rozdíl mezi panely určeným Angoffovým cut-skóre a „skutečným“ cut-skóre. Hlavní zjištění byla následující:

  1. (a)

    Zvýšení počtu porotců snižuje variabilitu Angoffova cut-score panelu, ale co je důležitější, zvyšuje také přesnost cut-score panelu; vliv na přesnost byl však méně zřejmý u testů s velkým počtem položek;

  2. (b)

    Přísnost soudců a v menší míře i Přesnost soudců ovlivňují přesnost cut-score; a

  3. (c)

    Použití druhého kola Angoffova procesu bez zohlednění zkoušejících nebo údajů z testů nemá významný vliv na přesnost cut-score.

Zjištění jsou diskutována ve třech oddílech. V první se diskutuje o přínosu a vhodnosti simulace, ve druhé o zjištěních a jejich důsledcích pro výzkumné pracovníky a odborníky z praxe a ve třetí části se diskutuje o přínosu a omezeních této studie a možných směrech dalšího výzkumu.

Simulace

Simulovaná data byla již dříve použita ve výzkumu hodnocení ve vzdělávání pro testy založené na znalostech a pro hodnocení založené na výkonu . Simulačních studií v oblasti stanovování norem je však málo a nebyla nalezena žádná, která by simulovala rozhodování soudců na základě jejich simulovaných atributů a porovnávala je se simulovanou „skutečnou hodnotou“ . Většina předchozích simulačních studií v této oblasti simulovala výsledky žákovských výkonů/zkoušek, které měly být použity Angoffovými panely složenými ze skutečných soudců, avšak žádná z těchto studií neměřila atributy soudců a jejich vliv na přesnost cut-score . B. Clauser a kol. porovnávali odhady podílu správných odpovědí soudců s empirickými údaji o podílu správných odpovědí zkoušených. Tento přístup, ačkoli je důležitý, měří schopnost soudců odhadnout výkon zkoušejících v konkrétním testu, ale bez jakýchkoli empirických důkazů, které by naznačovaly cut-score, které by rozlišovalo kompetenci od nekompetence . Současná studie navazuje na předchozí práce a rozšiřuje využití simulace v této oblasti o simulaci vlastností soudců, o nichž se předpokládá, že ovlivňují jejich rozhodnutí, a také o měření přesnosti cut-score porovnáním cut-score určeného panely se „skutečným“ cut-score.

Všechny předchozí studie zjištěné v literatuře používaly jako míru přesnosti nebo preciznosti rozptyl v rámci soudců (nebo shodu mezi nimi). Použití takového měřítka znamená, že pokud by byl panel soudců velmi přísný, ale všichni by se navzájem shodli, jejich dohodnuté cut-score by bylo považováno za přesnější než cut-score získané vyváženým panelem složeným z některých přísných a některých mírných soudců, který by přirozeně poskytl větší rozptyl. V reálném životě není možné znát skutečné cut-score, které by rozlišovalo mezi kompetencí a nekompetencí, a proto se používá standardní nastavení. Například (, s. 158) předložil údaje, které ukazují, že tři různé panely odhadující stejné položky dávají různá dohodnutá cut-score a různý rozptyl mezi posuzovateli, i když se použije stejná metoda standardního nastavení (Angoff nebo Nedelsky). Jiné studie (např. ), které použily analýzu zobecnitelnosti k měření replikovatelnosti Angoffova postupu, dospěly k závěru, že velká část celkového rozptylu chyb pochází od posuzovatelů, avšak neměly k dispozici zlatý standard, s jehož pomocí by mohly změřit odchylku od skutečného cut-score. To je zřejmé, protože analýza zobecnitelnosti vychází ze zdrojů chyb a zároveň předpokládá, že průměr je velmi blízký skutečnému skóre . Při měření přesnosti procesu stanovování standardů mají simulační studie, jako je ta prezentovaná v tomto článku, jedinečnou výhodu v tom, že zahrnují skutečné cut-score jako platný standard pro srovnání .

Odůvodnění zdůvodňující simulaci každé z proměnných je podrobně popsáno v části Metoda a není zde opakováno. Má však simulace atributů rozhodčích opodstatnění? Verheggen a kol. prokázali, že při stanovování norem odráží individuální rozhodnutí soudce o jednotlivé položce „přirozenou přísnost soudce a jeho znalosti související s předmětem“ (, s. 209). Tento pojem byl v literatuře hojně zmiňován . Z hlediska měření tedy platí , že pokud jsou všechny položky stejně obtížné (tj. úroveň obtížnosti =0), pak se výsledné cut-score skládá ze součtu zkreslení, tj. přísnosti soudce, a součtu náhodných chyb, tj. přesnosti a dalších náhodných chyb. Protože z předchozích studií vyplývá, že odborníci jsou přísnější než neodborníci a předpokládá se, že mají v panelu větší vliv , zahrnuli jsme tyto předpoklady do parametrů simulace. Absolutní míra, v jaké každý z atributů ovlivňuje posudek, není známa, a proto se simulace skládala ze standardizovaných parametrů (SD ≅ 1), aby bylo možné zjistit relativní dopady jednotlivých parametrů na cut-scores. Všimněte si, že stejně jako všechny simulační studie i tato studie měří interakce pro dané simulované podmínky, a to pro lepší pochopení modelu posuzování. V této studii nejde o měření přírody . Tato studie se však podobá výzkumu využívajícímu skutečné údaje v tom, že jedna studie měří dopady pozorované na určitém vzorku a jiná studie uplatňuje podobná opatření na jiném vzorku. Výsledky se často liší, přesto tento rozdíl nenaznačuje, že jedna studie je správnější než druhá. Vzhledem ke shodě s předchozími studiemi, které používaly reálné údaje , se předpokládá, že výsledky této simulační studie by byly použitelné pro jakoukoli populaci soudců s atributy ne nepodobnými těm, které byly simulovány v této studii.

Overall, a simulation study always yields results which are determined by the simulation parameters. Přínos této studie pro literaturu o stanovování standardů spočívá v tom, že měří dopad atributů soudců na individuální úrovni na přesnost cut-score panelu. Pokud je nám známo, tyto souvislosti nebyly dosud nikdy měřeny, a to ani pomocí simulovaných, ani pozorovaných údajů. Shoda výsledků této studie s předchozími studiemi, zejména tam, kde bylo možné výsledky porovnat (např. obr. 2 vs. práce Hurtze a Hertze , obr. 1 ), podporuje platnost předpokladů a parametrů simulace, a dodává tak závěrům studie na síle.

Implikace výsledků

Angoff se často používá ke stanovení standardů při rozsáhlém hodnocení vzdělávání . V kontextu lékařského vzdělávání byl Angoff použit u testů lékařských znalostí (např. MCQ ) , nebo u zkoušek klinických dovedností (např. OSCE) .

U klinických zkoušek (např. OSCE) může být počet položek (nebo stanovišť) 10 až 20 . Proto vzhledem k tomu, že zvýšení počtu položek je nepravděpodobné, z důvodů proveditelnosti naše výsledky naznačují, že pokud by se použil Angoff, optimální kombinace by byla přibližně 30 posuzovatelů pro 10 položek, přičemž minimálně 20 posuzovatelů pro 15 nebo více položek. U MCQ, kde je počet položek velký , by pro stanovení obhajitelného Angoffova cut-score u zkoušek sestávajících z 80 a více položek mělo stačit minimálně 15 soudců (obr. 2). Je třeba poznamenat, že zvýšení počtu položek poskytlo více datových bodů , tedy vyšší spolehlivost, a proto je také pravděpodobné, že se zvýší přesnost.

Tato zjištění jsou v rozmezí doporučeném v literatuře, což naznačuje, že přijatelného cut-score by mohlo být dosaženo, pokud by bylo použito 5-25 posuzovatelů. Vzhledem k tomu, že neexistuje žádný zlatý standard pro jakoukoli definici toho, „co je dostatečně dobré“ při stanovování norem , může být použití Angoffa s různým počtem posuzovatelů oprávněné v závislosti na kontextu zkoušek.

Předchozí studie využívající pozorované údaje určovaly přesnost Angoffa podle rozptylu mezi posuzovateli . Jiné studie, které používaly pozorované údaje, používaly parametry IRT nebo cut-score generované alternativními metodami k odhadu kvality Angoffem generovaných cut-score . Tyto metody jsou vhodné při použití pozorovaných údajů. V této studii byla přesnost určena odchylkou cut-score panelu od „skutečného“ cut-score. Rozdíl mezi těmito definicemi je více než sémantický. Jalili et al. a další použili k odhadu validity nepřímá měřítka, neboť například Jalili et al. uvedli: „Nemáme referenční standard, podle kterého bychom testovali validitu“. Jejich elegantní řešení spočívalo v tom, že jako měřítko pro odhad validity použili korelaci mezi cut-scores panelů a průměrným pozorovaným skóre (skóre, které zkoušejícím přidělili) pro každou položku. Současná studie má tu výhodu, že má referenční standard, podle něhož se validita testuje, protože byl zahrnut do parametrů simulace (skutečné cut-score = 0). Naše zjištění, že korelace byla nízká (r = .226, p < .0001), naznačuje, že ačkoli korelace existovala, SD v rámci panelu (shoda soudců) vysvětlovala pouze 5,1 % rozptylu v přesnosti cut-score. Toto zjištění je důležité, protože naznačuje, že ačkoli identifikace zdroje chyby (tj. ve studiích zobecnitelnosti) je platným způsobem měření spolehlivosti metody stanovování standardů , použití skutečného cut-score nebo jeho přijatelné zástupné hodnoty (pokud jsou použity skutečné údaje) je neocenitelnou referencí pro měření validity . V důsledku toho toto zjištění podporuje přehodnocení složení Angoffových panelů.

Literatura naznačuje, že Angoffovi soudci by měli být odborníci , přesto uznává, že odborníci jsou přísnější a mohou mít větší vliv na ostatní soudce. Obr. 3 poskytuje určitý vhled do tohoto rozporu tím, že ukazuje interakci mezi přísností a přesností (být odborníkem). Zdá se, že komise, které nejsou ani příliš přísné, ani příliš mírné, jsou přesnější, protože jsou méně náchylné k předpojatosti. Úroveň Přesnosti (schopnost jednotlivce odhadnout správné cut-score) má však jen malý vliv na přesnost cut-score panelu. To je pravděpodobné, protože cut-score je určeno průměrem hodnocení všech porotců . Bez zkreslení při posuzování (za předpokladu, že se zachovává konstantní přísnost) se průměrné skóre dosažené porotci s rostoucím počtem porotců přibližuje skutečné hodnotě . Vliv přísnosti na přesnost je zřejmý (protože to byl jeden z parametrů simulace), ale také naznačuje, že porota, která má pouze odborníky nebo pouze neodborníky, by poskytla méně přesné cut-score než cut-score poskytnuté porotou se smíšenými odborníky (obr. 3), zejména vzhledem k již zdokumentovanému vztahu mezi přísností a odborností . Celkově tato zjištění naznačují, že optimální složení Angoffova panelu by mělo zahrnovat různorodou škálu soudců z hlediska odbornosti a přísnosti (je-li známa). Vzhledem k malému vlivu shody soudců na přesnost cut-score (vysvětlený rozptyl = 5,1 %) se tento postup doporučuje i přes pravděpodobnost zvýšení neshody soudců uvnitř panelu.

Tato studie zjistila, že vliv druhého Angoffova kola, kde mohou být soudci ovlivněni ostatními (tj. vliv „Leadership“), je zanedbatelný. Přestože toto zjištění bylo zanedbatelné i při měření standardizované velikosti účinku (Cohenovo d = -0,083), je třeba jej interpretovat opatrně, zejména proto, že všechny míry jsou standardizované a druhé kolo se od prvního lišilo pouze vlivem soudců. Toto zjištění je podpořeno předchozími empirickými studiemi, které prokázaly malé rozdíly mezi dvěma Angoffovými koly . Další faktory, jako je prezentace testových dat, nebyly v této studii zahrnuty. Je možné, že jiná metoda vážení by přinesla větší vliv, a to by mělo být testováno v budoucích studiích. V literatuře se druhé kolo zdůvodňuje jako způsob, jak zvýšit shodu mezi posuzovateli , avšak jak je uvedeno výše, zvýšení shody v rámci posuzovatelů může mít malý dopad na přesnost cut-score, což vysvětluje pozorovaný nedostatečný dopad druhého kola na přesnost cut-score. Nevyhnutelný závěr z těchto poněkud překvapivých výsledků naznačuje, že za předpokladu dostatečného počtu porotců je původní nemodifikovaná Angoffova metoda dostatečně robustní a diskuse mezi porotci významně nezlepšuje přesnost Angoffova cut-score.

Modifikované Angoffovy metody, které poskytují další informace o samotném výkonu v testu (např. parametry položek a žáků na základě IRT analýz), jsou nicméně vítány. Takové modifikace pravděpodobně zvýší přesnost rozhodčích bez dopadu na Stringency, protože tyto dodatečné znalosti se týkají pouze parametrů testu, nikoliv úrovně odborných znalostí.

Omezení studie

Tato studie má omezení, z nichž hlavní je, že se jedná o simulační studii. Platnost zjištění závisí na platnosti simulace dat, zejména proměnných a předpokladů. Předpokládali jsme, že atributy soudců jsou rozděleny normálně, nikoliv neparametricky. Je samozřejmě možné, že konkrétní zkouška a/nebo konkrétní soubor zkoušejících a/nebo konkrétní soubor soudců v reálném životě budou mít jiné atributy, než jaké jsou popsány v této studii, a tudíž by pro ně doporučení této studie nebyla použitelná. Nicméně vzhledem k velkému počtu (4900) unikátních panelů vytvořených pro tuto studii a shodě s předchozími výsledky vytvořenými na základě reálných dat , je důvodné se domnívat, že zjištění lze zobecnit. Navíc, jak již bylo vysvětleno, předpoklady učiněné při generování dat jsou založeny na teoriích měření ve vzdělávání a standardních nastaveních a na zjištěních z praxe . Všimněte si, že jak se od simulační studie očekává, tato studie spíše měří kvalitu modelu než analyzuje jakákoli pozorovaná data .

Je zapotřebí dalšího výzkumu, aby se zjistil vliv dalších vlastností modifikovaných Angoffových metod na přesnost cut-score, a také opakování této studie s použitím modifikovaných předpokladů.

.