Insights into the Angoff method: results from a simulation study

Tässä tutkimuksessa käytettiin simuloitua dataa, joka perustui 4900 yksilölliseen tuomaripaneeliin, mikä mahdollisti paneelien määrittelemien Angoff-arvojen ja ”todellisten” arvojen välisen eron mittaamisen. Tärkeimmät tulokset olivat seuraavat:

  1. a)

    Tuomareiden lukumäärän kasvattaminen vähentää raadin cut-pisteiden vaihtelua, mutta mikä tärkeämpää, se lisää myös raadin cut-pisteen tarkkuutta; vaikutus tarkkuuteen ei kuitenkaan ollut yhtä ilmeinen testeissä, joissa on suuri määrä tehtäviä;

  2. (b)

    Tuomareiden tiukkuus ja vähemmässä määrin tuomareiden tarkkuus vaikuttavat cut-pisteiden tarkkuuteen; ja

  3. (c)

    Angoff-prosessin toisen kierroksen soveltaminen ilman tutkittavien tai koetietojen huomioon ottamista ei vaikuta merkittävästi cut-pisteiden tarkkuuteen.

Tuloksia käsitellään kolmessa osassa. Ensimmäisessä käsitellään simulaation ansioita ja soveltuvuutta; toisessa käsitellään tuloksia ja niiden vaikutuksia tutkijoille ja käytännön toimijoille; ja kolmannessa osiossa käsitellään tämän tutkimuksen ansioita ja rajoituksia sekä mahdollisia jatkotutkimussuuntia.

Simulaatio

Simuloituja aineistoja on käytetty aiemmin koulutuksen arviointitutkimuksessa tietoon perustuvissa testeissä ja suoritukseen perustuvassa arvioinnissa . Simulointitutkimuksia normien asettamisen alalla on kuitenkin niukasti, eikä löytynyt yhtään sellaista, jossa simuloitaisiin tuomareiden päätöksiä simuloitujen ominaisuuksien perusteella ja verrattaisiin niitä simuloituun ”todelliseen arvoon” . Useimmissa aiemmissa simulointitutkimuksissa tällä alalla simuloitiin opiskelijoiden suoritus- tai koepisteitä, joita oikeista tuomareista koostuvat Angoff-paneelit käyttävät, mutta yhdessäkään näistä tutkimuksista ei mitattu tuomareiden ominaisuuksia ja niiden vaikutusta raja-arvojen tarkkuuteen . B. Clauser et al. vertasivat tuomareiden arvioita oikeiden vastausten osuudesta empiirisiin tietoihin kokelaiden oikeiden vastausten osuudesta. Vaikka tämä lähestymistapa on tärkeä, sillä mitataan tuomareiden kykyä arvioida tutkittavan suoriutumista tietystä kokeesta, mutta ei ole empiiristä näyttöä siitä, mikä on se raja-arvo, jolla pätevyys erotetaan epäpätevyydestä . Tämä tutkimus perustuu aiempiin töihin ja laajentaa simuloinnin käyttöä tällä alalla simuloimalla tuomareiden ominaisuuksia, joiden oletetaan vaikuttavan heidän päätöksiinsä, sekä mittaamalla cut-score-pisteytyksen tarkkuutta vertaamalla paneelien määrittelemää cut-score-pistemäärää ”todelliseen” cut-score-pistemäärään.

Kaikki aiemmat kirjallisuudessa havaitut tutkimukset käyttivät tuomareiden sisäistä varianssia (tai tuomareiden keskinäistä yhteisymmärrystä) täsmällisyyden tai tarkkuuden mittarina. Tällaisen mittarin käyttäminen tarkoittaa sitä, että jos tuomaripaneeli oli hyvin tiukka, mutta kaikki tuomarit olivat keskenään samaa mieltä, heidän sovittua cut-pistemääräänsä pidettäisiin tarkempana kuin cut-pistemäärää, jonka olisi tuottanut tasapainoinen paneeli, joka koostuisi joistakin tiukoista ja joistakin lempeistä tuomareista, mikä luonnollisesti johtaisi suurempaan varianssiin. Todellisessa elämässä ei ole mitään keinoa tietää todellista cut-pistemäärää, joka erottaa pätevyyden ja epäpätevyyden toisistaan, joten käytetään standardisointia. Esimerkiksi (, s. 158) esitti tietoja, jotka osoittavat, että kolme eri lautakuntaa arvioi samoja asioita eri tavoin, vaikka käytettäisiin samaa standardisointimenetelmää (Angoff tai Nedelsky). Muissa tutkimuksissa (esim. ), joissa käytettiin yleistettävyysanalyysiä Angoffin menettelyn toistettavuuden mittaamiseksi, todettiin, että suuri osa kokonaisvirheiden varianssista johtui tuomareista, mutta heillä ei kuitenkaan ollut kultaista standardia, jolla olisi voitu mitata poikkeamaa todellisesta pistemäärästä. Tämä on ilmeistä, koska yleistettävyysanalyysi perustuu virhelähteisiin, kun oletetaan, että keskiarvo on hyvin lähellä todellista pistemäärää . Kun mitataan standardien asettamisprosessin tarkkuutta, simulaatiotutkimuksilla, kuten tässä asiakirjassa esitetyllä, on se ainutlaatuinen etu, että ne sisältävät todellisen cut-score-pistemäärän kelvollisena vertailustandardina.

Kunkin muuttujan simuloinnin perusteluja käsitellään yksityiskohtaisesti menetelmää käsittelevässä jaksossa, eikä niitä toisteta tässä. Onko tuomareiden ominaisuuksien simulointi kuitenkin pätevää? Verheggen et al. osoittivat, että standardien asettamisessa tuomarin yksittäinen päätös yksittäisestä kohdasta heijastaa ”tuomarin luontaista tiukkuutta ja hänen aiheeseen liittyvää tietämystään” (, s. 209). Tämä käsite mainittiin laajasti kirjallisuudessa . Jos siis kaikki tehtävät ovat yhtä vaikeita (eli vaikeustaso = 0), mittaustuloksena saatava pistemäärä muodostuu ennakkoluulojen summasta eli tuomarin tiukkuudesta ja satunnaisvirheiden summasta eli tarkkuudesta ja muista satunnaisvirheistä. Koska aiemmat tutkimukset viittaavat siihen, että asiantuntijat ovat tiukempia kuin ei-asiantuntijat ja että heillä katsotaan olevan suurempi vaikutusvalta raadissa, sisällytimme nämä oletukset simulointiparametreihin. Kunkin ominaisuuden absoluuttista vaikutusta arviointiin ei tiedetä, joten simulointi koostui standardoiduista parametreista (SD ≅ 1), jotta kunkin parametrin suhteellinen vaikutus cut-pisteisiin voitiin määrittää. On huomattava, että kuten kaikissa simulaatiotutkimuksissa, myös tässä tutkimuksessa mitataan vuorovaikutusta tietyissä simuloiduissa olosuhteissa, jotta arviointimallia voitaisiin ymmärtää paremmin. Tässä tutkimuksessa ei ole kyse luonnon mittaamisesta. Tämä tutkimus on kuitenkin samankaltainen kuin todellisia tietoja käyttävä tutkimus, jossa yhdessä tutkimuksessa mitataan tietyssä otoksessa havaittuja vaikutuksia ja toisessa tutkimuksessa sovelletaan samankaltaisia toimenpiteitä toiseen otokseen. Tulokset ovat usein erilaisia, mutta ero ei kuitenkaan viittaa siihen, että toinen tutkimus olisi oikeampi kuin toinen. Kun otetaan huomioon yhdenmukaisuus aiempien, todellisia tietoja käyttäneiden tutkimusten kanssa, voidaan olettaa, että tämän simulaatiotutkimuksen tuloksia voidaan soveltaa mihin tahansa tuomaripopulaatioon, jonka ominaisuudet eivät ole samankaltaisia kuin ne, joita tässä tutkimuksessa simuloitiin.

Kaiken kaikkiaan simulaatiotutkimus tuottaa aina tuloksia, jotka määräytyvät simulointiparametrien perusteella. Tämän tutkimuksen kontribuutio standardien asettamista käsittelevään kirjallisuuteen on se, että siinä mitataan tuomareiden ominaisuuksien vaikutusta yksilötasolla paneelin cut-score-arvojen tarkkuuteen. Tietojemme mukaan näitä yhteyksiä ei ole koskaan aiemmin mitattu käyttäen simuloituja tai havainnoituja tietoja. Tämän tutkimuksen tulosten yhdenmukaisuus aiempien tutkimusten kanssa, erityisesti silloin, kun tuloksia voitiin verrata (esim. kuvio 2 vs. Hurtzin ja Hertzin työ , kuvio 1 ), tukee simulointioletusten ja -parametrien paikkansapitävyyttä, mikä vahvistaa tutkimuksen tuloksia.

Tulosten vaikutukset

Angoffia käytetään usein standardien asettamiseen laajamittaisissa koulutuksellisissa arvioinneissa . Lääketieteellisen koulutuksen yhteydessä Angoffia on sovellettu lääketieteellisen tietämyksen testeihin (esim. MCQ:t ) tai kliinisten taitojen kokeisiin (esim. OSCE) .

Kliinisissä kokeissa (esim. OSCE) tehtävien (tai asemien) määrä voi olla 10-20 . Näin ollen, kun otetaan huomioon, että tehtävien lukumäärän lisääminen on toteutettavuussyistä epätodennäköistä, tuloksemme viittaavat siihen, että jos käytettäisiin Angoffia, optimaalinen yhdistelmä olisi noin 30 tuomaria 10 tehtävälle ja vähintään 20 tuomaria 15 tehtävälle tai useammalle tehtävälle. MCQ-kokeissa, joissa tehtävien määrä on suuri, vähintään 15 tuomaria pitäisi riittää puolustettavan Angoff-pistemäärän määrittämiseen kokeissa, joissa on vähintään 80 tehtävää (kuva 2). On huomattava, että tehtävien lukumäärän lisääminen tuotti enemmän datapisteitä, mikä lisäsi luotettavuutta ja siten todennäköisesti myös tarkkuutta.

Nämä tulokset ovat kirjallisuudessa suositellun vaihteluvälin sisällä, mikä viittaa siihen, että hyväksyttävä raja-arvo voitaisiin saavuttaa, jos käytettäisiin 5-25 tuomaria. Koska standardien asettamisessa ei ole olemassa mitään kultaista standardia sille, mikä on ”riittävän hyvä” , Angoffin soveltaminen eri tuomarimäärillä saattaa olla perusteltua riippuen tutkimusten kontekstista.

Edellisissä tutkimuksissa, joissa on käytetty havainnoituja aineistoja, Angoffin tarkkuus on määritetty tuomareiden välisen varianssin perusteella . Muissa tutkimuksissa, joissa käytettiin havaintoaineistoa, käytettiin IRT-parametreja tai vaihtoehtoisilla menetelmillä tuotettuja cut-pisteitä Angoffin tuottamien cut-pisteiden laadun arvioimiseksi . Nämä menetelmät ovat tarkoituksenmukaisia, kun käytetään havaittuja tietoja. Tässä tutkimuksessa tarkkuus määritettiin raadin cut-pisteytyksen poikkeamalla ”oikeasta” cut-pisteytyksestä. Näiden määritelmien välinen ero on enemmän kuin semanttinen. Jalili et al. ja muut käyttivät epäsuoria mittareita validiteetin arvioimiseksi, sillä esimerkiksi Jalili et al. totesivat: ”Meillä ei ole vertailustandardia, jolla validiteettia voitaisiin testata”. Heidän elegantti ratkaisunsa oli käyttää validiteetin arvioinnin mittarina paneelien raja-arvojen ja havaittujen keskiarvopisteiden (tutkijoiden tutkittaville antamat pistemäärät) välistä korrelaatiota kunkin tehtävän osalta. Tämän tutkimuksen etuna on, että sillä on vertailustandardi, jolla validiteettia voidaan testata, koska se sisällytettiin simulointiparametreihin (true cut-score = 0). Havaintomme, että korrelaatio oli alhainen (r = .226, p < .0001), osoittaa, että vaikka korrelaatio oli olemassa, arviointiryhmän sisäinen SD (tuomareiden yhteisymmärrys) selitti vain 5,1 prosenttia cut-score-tarkkuuden varianssista. Tämä havainto on tärkeä, koska se viittaa siihen, että vaikka virhelähteen tunnistaminen (esim. yleistettävyystutkimuksissa) on pätevä tapa mitata standardien asettamismenetelmän luotettavuutta, todellisen cut-score-arvon tai sen hyväksyttävän korvaavan arvon (jos käytetään todellisia tietoja) käyttäminen on korvaamaton viite validiteetin mittaamisessa. Näin ollen tämä havainto tukee Angoff-paneelien kokoonpanon uudelleentarkastelua.

Kirjallisuudessa ehdotetaan, että Angoff-tuomareiden tulisi olla asiantuntijoita , mutta samalla tunnustetaan, että asiantuntijat ovat tiukempia ja heillä voi olla suurempi vaikutus muihin tuomareihin . Kuvio 3 antaa jonkinlaisen käsityksen tästä ristiriidasta havainnollistamalla tiukkuuden ja tarkkuuden (asiantuntijuus) välistä vuorovaikutusta. Näyttää siltä, että lautakunnat, jotka eivät ole liian tiukkoja eivätkä liian lepsuja, ovat tarkempia, koska ne ovat vähemmän alttiita puolueellisuudelle. Accuracy-tasolla (yksilön kyky arvioida oikea cut-score) on kuitenkin vain vähäinen vaikutus paneelin cut-score-tarkkuuteen. Tämä on uskottavaa, koska cut-score määräytyy kaikkien tuomareiden pisteiden keskiarvon perusteella. Ilman ennakkoluuloja arvioinnissa (olettaen, että tiukkuus pysyy vakiona) tuomareiden saavuttama keskiarvo tulee lähemmäksi todellista arvoa tuomareiden lukumäärän kasvaessa . Tiukkuuden vaikutus tarkkuuteen on ilmeinen (koska se oli yksi simulointiparametreista), mutta se viittaa myös siihen, että raati, jossa on vain asiantuntijoita tai vain ei-asiantuntijoita, tuottaisi epätarkemman leikkauspistemäärän kuin seka-asiantuntijaraadin tuottama leikkauspistemäärä (kuvio 3), erityisesti kun otetaan huomioon tiukkuuden ja asiantuntemuksen välinen jo dokumentoitu yhteys . Kaiken kaikkiaan nämä havainnot viittaavat siihen, että Angoff-paneelin optimaalisen kokoonpanon tulisi sisältää monenlaisia tuomareita asiantuntemuksen ja tiukkuuden suhteen (jos tiedossa). Kun otetaan huomioon tuomareiden yhteisymmärryksen vähäinen vaikutus cut-score-tarkkuuteen (selitetty varianssi = 5,1 %), tätä käytäntöä suositellaan huolimatta siitä, että on todennäköistä, että tuomareiden sisäiset erimielisyydet lisääntyvät.

Tässä tutkimuksessa todettiin, että toisen Angoff-kierroksen, jossa tuomarit voivat olla toisten tuomareiden vaikutuksen alaisina (eli ”johtajuuden” vaikutuksen alaisena), vaikutus on vähäinen. Vaikka tämä havainto oli vähäpätöinen jopa silloin, kun sitä mitattiin standardoidulla vaikutuksen koolla (Cohenin d = -0,083), sitä on tulkittava varovaisesti erityisesti siksi, että kaikki mittarit ovat standardoituja ja toinen kierros erosi ensimmäisestä vain tuomareiden vaikutuksen osalta. Tätä havaintoa tukevat aiemmat empiiriset tutkimukset, jotka osoittavat vähäisiä eroja kahden Angoff-kierroksen välillä. Muita tekijöitä, kuten testitietojen esittämistä, ei otettu huomioon tässä tutkimuksessa. On mahdollista, että erilainen painotusmenetelmä olisi tuottanut suuremman vaikutuksen, ja tämä olisi testattava tulevissa tutkimuksissa. Kirjallisuudessa perustellaan toista kierrosta keinona lisätä tuomareiden välistä yhteisymmärrystä, mutta kuten edellä todettiin, tuomareiden sisäisen yhteisymmärryksen lisäämisellä voi olla vain vähäinen vaikutus leikkauspisteiden tarkkuuteen, mikä selittää toisen kierroksen havaitun vähäisen vaikutuksen leikkauspisteiden tarkkuuteen. Väistämätön johtopäätös näistä hieman yllättävistä tuloksista viittaa siihen, että jos tuomareita on riittävästi, alkuperäinen, muokkaamaton Angoffin menetelmä on riittävän vankka eikä tuomareiden välinen keskustelu paranna merkittävästi Angoffin cut-scoren tarkkuutta.

Muutetut Angoffin menetelmät, jotka tuottavat lisätietoa itse koesuorituksesta (esim. IRT-analyyseihin perustuvia tehtävä- ja oppilasparametreja), ovat kuitenkin tervetulleita. Tällaiset modifikaatiot todennäköisesti lisäävät tuomareiden tarkkuutta ilman vaikutusta Stringencyyn, koska tämä lisätieto liittyy vain testiparametreihin eikä asiantuntemuksen tasoon.

Tutkimuksen rajoitukset

Tässä tutkimuksessa on rajoituksia, joista tärkein on se, että se on simulaatiotutkimus. Tulosten pätevyys riippuu datasimulaation pätevyydestä, erityisesti muuttujien ja oletusten pätevyydestä. Oletimme, että tuomareiden attribuutit ovat normaalisti jakautuneita, eikä epäparametrisesti jakautuneita. On luonnollisesti mahdollista, että tietyssä tutkinnossa ja/tai tietyssä tutkittavien joukossa ja/tai tietyssä tuomareiden joukossa todellisessa elämässä olisi erilaisia ominaisuuksia kuin tässä tutkimuksessa kuvatut ominaisuudet, ja näin ollen tämän tutkimuksen suosituksia ei voitaisi soveltaa niihin. Kun kuitenkin otetaan huomioon tätä tutkimusta varten luotujen yksilöllisten paneelien suuri määrä (4900) ja yhdenmukaisuus aiempien, todellisesta aineistosta saatujen tulosten kanssa, on perusteltua uskoa, että tulokset ovat yleistettävissä. Lisäksi, kuten edellä on jo todettu, aineiston tuottamisessa tehdyt oletukset perustuvat koulutusmittauksen ja standardiasetusten teorioihin ja käytännössä tehtyihin havaintoihin. Huomattakoon, että kuten simulaatiotutkimukselta odotetaan, tässä tutkimuksessa mitataan mallin laatua eikä analysoida havaittuja tietoja .

Tarvitaan lisätutkimuksia, jotta voidaan selvittää muunnettujen Angoff-menetelmien muiden ominaisuuksien vaikutus cut-score-tarkkuuteen sekä toistaa tämä tutkimus käyttäen muunnettuja oletuksia.