Betekintés az Angoff-módszerbe: egy szimulációs vizsgálat eredményei

Ez a vizsgálat 4900 egyedi bírálóbizottságon alapuló szimulált adatokat használt, amelyek lehetővé tették a bizottságok által meghatározott Angoff-határértékek és a “valódi” határértékek közötti különbség mérését. A fő megállapítások a következők voltak:

  1. (a)

    A bírálók számának növelése csökkenti a panelek által meghatározott határértékek szórását, de ami még fontosabb, növeli a panel által meghatározott határértékek pontosságát is; a pontosságra gyakorolt hatás azonban kevésbé volt nyilvánvaló a nagyszámú tételt tartalmazó tesztek esetében;

  2. (b)

    A bírák szigora és – kisebb mértékben – a bírák pontossága befolyásolja a cut-score pontosságát; és

  3. (c)

    Az Angoff-eljárás második fordulójának alkalmazása a vizsgázók vagy a tesztadatok figyelembevétele nélkül nincs jelentős hatással a cut-score pontosságára.

A megállapításokat három szakaszban tárgyaljuk. Az első a szimuláció érdemeit és megfelelőségét tárgyalja; a második a megállapításokat és azok következményeit a kutatók és a gyakorlati szakemberek számára; a harmadik szakasz pedig a tanulmány érdemeit és korlátait, valamint a további kutatások lehetséges irányait tárgyalja.

A szimuláció

Szimulált adatokat használtak korábban az oktatási értékelési kutatásokban a tudásalapú tesztek és a teljesítményalapú értékelés esetében . Azonban a szimulációs tanulmányok a normakövetés területén ritkák, és nem találtak olyat, amely a bírák döntéseit szimulálta volna a szimulált tulajdonságaik alapján, és összehasonlította volna őket egy szimulált “valódi értékkel” . A legtöbb korábbi szimulációs tanulmány ezen a területen a tanulók teljesítményét/vizsgaeredményeit szimulálta, amelyeket valódi bírákból álló Angoff-panelek használtak, de egyik tanulmány sem mérte a bírák tulajdonságait és azok hatását a határértékek pontosságára . B. Clauser et al. összehasonlította a bírák helyes válaszok arányára vonatkozó becsléseit a vizsgázók helyes válaszainak arányára vonatkozó empirikus adatokkal. Ez a megközelítés, bár fontos, azt méri, hogy a bírák mennyire képesek megbecsülni a vizsgázók teljesítményét egy adott teszten, de anélkül, hogy empirikus bizonyítékot kapnának arra a cut-score-ra, amely megkülönbözteti a kompetenciát az inkompetenciától . A jelenlegi tanulmány a korábbi munkákra épít, és kiterjeszti a szimuláció használatát ezen a területen azáltal, hogy szimulálja a bírák azon tulajdonságait, amelyekről feltételezik, hogy befolyásolják a döntéseiket, valamint a cut-score pontosságának mérését a bizottságok által meghatározott cut-score és a “valódi” cut-score összehasonlításával.

A szakirodalomban azonosított valamennyi korábbi tanulmány a bírákon belüli szórást (vagy a bírák közötti egyetértést) használta a pontosság vagy precizitás mértékeként. Egy ilyen mérőszám használata azt jelenti, hogy ha egy bírói testület nagyon szigorú volt, de mindannyian egyetértettek egymással, akkor az általuk megállapított cut-score pontosabbnak tekinthető, mint egy kiegyensúlyozott, néhány szigorú és néhány engedékeny bíróból álló testület által meghatározott cut-score, amely természetesen nagyobb szórást eredményezne. A való életben nincs mód arra, hogy megismerjük a valódi határértéket, amely különbséget tesz a hozzáértés és az alkalmatlanság között, ezért alkalmazunk standardizálást. Például (, 158. o.) bemutatta azokat az adatokat, amelyek azt mutatják, hogy három különböző testület ugyanazokat a tételeket értékelve különböző elfogadott cut-pontszámokat és különböző bírálók közötti szórást eredményez, még akkor is, ha ugyanazt a standardbeállítási módszert (Angoff vagy Nedelsky) alkalmazzák. Más tanulmányok (pl. ), amelyek általánosíthatósági elemzést alkalmaztak az Angoff-eljárás megismételhetőségének mérésére, arra a következtetésre jutottak, hogy a teljes hibavariáció nagy része a bírálókból származik, ugyanakkor nem rendelkeztek olyan arany standarddal, amellyel a valódi cut-score-tól való eltérést mérni lehetett volna. Ez nyilvánvaló, mivel az általánosíthatósági elemzés a hibaforrásokon alapul, miközben feltételezi, hogy az átlag nagyon közel van a valódi pontszámhoz . A szabványmeghatározási folyamat pontosságának mérésekor a szimulációs vizsgálatoknak, mint amilyen az ebben a tanulmányban bemutatott is, megvan az az egyedülálló előnye, hogy a valódi cut-score-t érvényes összehasonlítási standardként tartalmazzák .

Az egyes változók szimulációjának indoklását a Módszer részben részletesen tárgyaljuk, és itt nem ismételjük meg. Érvényes azonban a bírói tulajdonságok szimulációja? Verheggen és munkatársai kimutatták, hogy a szabványmeghatározás során a bíró egyéni döntése egy-egy tételre vonatkozóan tükrözi “a bíró eredendő szigorát és a tárgyhoz kapcsolódó tudását” (, 209. o.). Ez a fogalom széles körben említésre került a szakirodalomban . Így a mérés szempontjából , ha minden tétel egyformán nehéz (azaz a nehézségi szint = 0), akkor az eredményül kapott cut-score a torzítások összegéből, azaz a bírák szigorából és a véletlen hibák összegéből, azaz a pontosságból és egyéb véletlen hibákból áll. Mivel korábbi tanulmányok azt sugallják, hogy a szakértők szigorúbbak, mint a nem szakértők, és nagyobb befolyással bírnak a zsűriben , ezeket a feltételezéseket beépítettük a szimulációs paraméterekbe. Nem ismert, hogy az egyes attribútumok milyen abszolút mértékben befolyásolják az ítéletet, ezért a szimuláció standardizált paraméterekből állt (SD ≅ 1), hogy megállapítható legyen az egyes paraméterek relatív hatása a vágási pontszámokra. Megjegyzendő, hogy mint minden szimulációs vizsgálat, a jelenlegi tanulmány is a kölcsönhatásokat méri adott szimulált körülményekre, az értékelési modell jobb megértése érdekében. Ez a tanulmány nem a természet méréséről szól . Ez a tanulmány azonban hasonlít a valós adatokat használó kutatásokhoz, amennyiben az egyik tanulmány egy adott mintán megfigyelt hatást mér, egy másik tanulmány pedig hasonló intézkedéseket alkalmaz egy másik mintán. Gyakran az eredmények különböznek, de a különbség nem jelenti azt, hogy az egyik tanulmány helyesebb lenne a másiknál. Tekintettel a korábbi, valós adatokat használó tanulmányokkal való egyezésre , feltételezhető, hogy e szimulációs tanulmány eredményei alkalmazhatóak bármely olyan bírói populációra, amelynek jellemzői nem különböznek attól, amit ebben a tanulmányban szimuláltak.

A szimulációs tanulmány összességében mindig olyan eredményeket ad, amelyeket a szimulációs paraméterek határoznak meg. E tanulmány hozzájárulása a szabványmeghatározási szakirodalomhoz az, hogy egyéni szinten méri a bírák attribútumainak hatását a testület cut-score-jának pontosságára. Tudomásunk szerint ezeket az összefüggéseket korábban még soha nem mérték sem szimulált, sem megfigyelt adatok felhasználásával. A jelen tanulmány eredményeinek egyezése a korábbi tanulmányokkal, különösen ott, ahol az eredményeket össze lehetett hasonlítani (pl. 2. ábra vs. Hurtz és Hertz munkája , 1. ábra ), alátámasztja a szimulációs feltételezések és paraméterek érvényességét, így erősítve a tanulmány eredményeit.

Az eredmények következményei

Angoffot gyakran használják a standardok meghatározására nagyszabású oktatási értékelésekben . Az orvosképzés kontextusában Angoffot az orvosi ismeretek tesztjeire (pl. MCQ-k ) , vagy klinikai készségvizsgákra (pl. OSCE) alkalmazták .

A klinikai vizsgákon (pl. OSCE) a tételek (vagy állomások) száma 10 és 20 között lehet . Így, mivel a tételek számának növelése megvalósíthatósági okokból nem valószínű, eredményeink azt sugallják, hogy Angoff alkalmazása esetén az optimális kombináció 10 tétel esetén körülbelül 30 bíró, 15 vagy több tétel esetén pedig legalább 20 bíró lenne. Az MCQ-k esetében, ahol a tételek száma nagy, legalább 15 bírónak elegendőnek kell lennie ahhoz, hogy a 80 vagy több tételből álló vizsgák esetében védhető Angoff-határértéket állítsunk fel (2. ábra). Megjegyzendő, hogy a tételek számának növelése több adatpontot, ezáltal nagyobb megbízhatóságot biztosított, és ezért valószínűleg a pontosságot is növeli.

Ezek az eredmények a szakirodalomban ajánlott tartományon belül vannak, ami arra utal, hogy 5-25 bíró alkalmazása esetén elfogadható cut-score érhető el. Mivel nincs arany standard annak meghatározására, hogy “mi az elég jó” a szabványmeghatározásban , az Angoff alkalmazása különböző számú bírálóval indokolt lehet a vizsgálatok kontextusától függően.

A megfigyelt adatokat használó korábbi tanulmányok az Angoff pontosságát a bírálók közötti variancia alapján határozták meg . Más tanulmányok, amelyek megfigyelt adatokat használtak, IRT paramétereket vagy alternatív módszerekkel előállított vágási pontszámokat használtak az Angoff által generált vágási pontszámok minőségének becsléséhez . Ezek a módszerek megfelelőek, ha megfigyelt adatokat használnak. A jelenlegi vizsgálatban a pontosságot a zsűri által meghatározott vágási pontszámnak a “valódi” vágási pontszámtól való eltérése alapján határozták meg. Az e meghatározások közötti különbség több mint szemantikai. Jalili et al. és mások közvetett méréseket használtak az érvényesség becslésére, mivel például Jalili et al. kijelentette: “Nincs olyan referenciastandardunk, amellyel az érvényességet tesztelhetnénk”. Elegáns megoldásuk az volt, hogy az érvényesség becslésére az egyes tételek esetében a bizottságok vágott pontszámai és a megfigyelt átlagpontszámok (a vizsgázók által a vizsgázóknak adott pontszámok) közötti korrelációt használták. A jelenlegi vizsgálat előnye, hogy van egy referenciastandard, amellyel az érvényességet tesztelni lehet, mivel ez szerepelt a szimulációs paraméterekben (valódi cut-score = 0). Az a megállapításunk, hogy a korreláció alacsony volt (r = .226, p < .0001), azt jelzi, hogy bár volt korreláció, a panelen belüli SD (a bírák egyetértése) a cut-score pontosság varianciájának csak 5,1%-át magyarázta. Ez a megállapítás azért fontos, mert arra utal, hogy bár a hiba forrásának azonosítása (pl. az általánosíthatósági vizsgálatokban) érvényes módja egy szabványmeghatározási módszer megbízhatóságának mérésére, a valódi cut-score vagy annak elfogadható helyettesítője (ha valós adatokat használnak) felbecsülhetetlen értékű referencia az érvényesség mérésére. Következésképpen ez a megállapítás támogatja az Angoff-panelek összetételének újragondolását.

A szakirodalom szerint az Angoff-bíráknak szakértőknek kell lenniük , ugyanakkor elismeri, hogy a szakértők szigorúbbak és nagyobb hatással lehetnek a többi bíróra . A 3. ábra némi betekintést nyújt ebbe az ellentmondásba a szigorúság és a pontosság (szakértőnek lenni) közötti kölcsönhatás bemutatásával. Úgy tűnik, hogy a sem túl szigorú, sem túl engedékeny bírói testületek pontosabbak, mivel kevésbé hajlamosak az elfogultságra. A pontosság szintje (az egyén képessége a helyes cut-score becslésére) azonban csak kis mértékben befolyásolja a panel cut-score pontosságát. Ez hihető, mivel a cut-score-t az összes bíró pontszámának átlaga határozza meg. Az ítélkezés torzítása nélkül (feltételezve, hogy a szigorúság állandó), a bírák által elért átlagpontszám a bírák számának növekedésével egyre közelebb kerül a valódi értékhez . A szigorúságnak a pontosságra gyakorolt hatása nyilvánvaló (mivel ez volt az egyik szimulációs paraméter), de ez azt is sugallja, hogy a csak szakértőkből vagy csak nem szakértőkből álló bírálóbizottság olyan vágási pontszámot adna, amely kevésbé pontos, mint a vegyes szakértelemmel rendelkező bírálóbizottság által adott vágási pontszám (3. ábra), különösen a szigorúság és a szakértelem között már dokumentált összefüggés miatt. Összességében ezek az eredmények azt sugallják, hogy az Angoff-panel optimális összetételének a szakértelem és a szigorúság szempontjából (ha ismert) sokféle bírót kell magában foglalnia. Tekintettel arra, hogy a bírói egyetértésnek a vágási pontszám pontosságára gyakorolt hatása csekély (megmagyarázott variancia = 5,1 %), ez a gyakorlat ajánlott annak ellenére, hogy a bírói testületen belüli nézeteltérések valószínűsíthetően növekednek.

Ez a vizsgálat megállapította, hogy a második Angoff-forduló hatása, amelyben a bírákat mások is befolyásolhatják (azaz a “Vezetés” hatása), elhanyagolható. Bár ez az eredmény még a standardizált hatásmérettel mérve is elhanyagolható volt (Cohen d = -0,083), óvatosan kell értelmezni, különösen azért, mert a mérések mind standardizáltak, és a második forduló csak a bírák befolyása különbözött az elsőtől. Ezt a megállapítást korábbi empirikus tanulmányok is alátámasztják, amelyek két Angoff-forduló között kisebb különbségeket mutatnak . Egyéb tényezőket, mint például a tesztadatok bemutatása, nem vontak be ebbe a vizsgálatba. Lehetséges, hogy egy eltérő súlyozási módszer nagyobb hatást eredményezett volna, és ezt a jövőbeni tanulmányokban tesztelni kell. A szakirodalom a második fordulót a bírálók közötti egyetértés növelésének módjaként indokolja, azonban, mint fentebb jeleztük, a bírálók közötti egyetértés növelése kevés hatással lehet a vágási pontszám pontosságára, ami megmagyarázza a második fordulónak a vágási pontszám pontosságára gyakorolt hatásának megfigyelt hiányát. Ezekből a kissé meglepő eredményekből szükségszerűen az a következtetés vonható le, hogy – feltéve, hogy elegendő számú bíráló van – az eredeti, nem módosított Angoff-módszer elég robusztus, és a bírálók közötti vita nem javítja jelentősen az Angoff-féle cut-score pontosságát.

Mindemellett üdvözlendőek azok a módosított Angoff-módszerek, amelyek további információkat szolgáltatnak magáról a tesztteljesítményről (pl. IRT-elemzéseken alapuló item- és tanulói paraméterek). Az ilyen módosítások valószínűleg növelik a bírálók pontosságát anélkül, hogy befolyásolnák a Szigorúságot, mivel ez a további tudás csak a teszt paramétereire vonatkozik, és nem a szakértelem szintjére.

A tanulmány korlátai

Ez a tanulmány rendelkezik korlátokkal, amelyek közül a legfontosabb, hogy szimulációs vizsgálatról van szó. A megállapítások érvényessége az adatok szimulációjának érvényességétől függ, különösen a változók és a feltételezések érvényességétől. Feltételeztük, hogy a bírák jellemzői normális eloszlásúak, nem pedig nemparaméteres eloszlásúak. Természetesen lehetséges, hogy egy adott vizsga és/vagy a vizsgázók adott csoportja és/vagy a bírák adott csoportja a való életben a jelen tanulmányban leírtaktól eltérő jellemzőkkel rendelkezik, és így a jelen tanulmány ajánlásai nem alkalmazhatók rájuk. Tekintettel azonban az e tanulmányhoz létrehozott egyedi vizsgabizottságok nagy számára (4900) és a valós adatokból származó korábbi eredményekkel való egyezőségre, ésszerű azt hinni, hogy az eredmények általánosíthatók. Továbbá, amint azt már kifejtettük, az adatok előállítása során tett feltételezések az oktatási mérés és a standard beállítások elméletein és a gyakorlatban tett megállapításokon alapulnak. Megjegyzendő, hogy amint az egy szimulációs tanulmánytól elvárható, ez a tanulmány egy modell minőségét méri, nem pedig megfigyelt adatokat elemez .

További kutatásokra van szükség a módosított Angoff-módszerek egyéb jellemzőinek a cut-score pontosságára gyakorolt hatásának azonosítására, valamint e tanulmány megismétlésére módosított feltételezésekkel.