Insights into the Angoff method: results from a simulation study
Questo studio ha utilizzato dati simulati basati su 4900 panel unici di giudici, che hanno permesso di misurare la differenza tra i cut-score Angoff determinati dai panel e il cut-score ‘vero’. I risultati principali sono stati:
- (a)
Aumentando il numero di giudici si riduce la variazione nei cut-score del panel ma, cosa più importante, aumenta anche la precisione del cut-score del panel; tuttavia, l’effetto sulla precisione era meno evidente per i test con un gran numero di item;
- (b)
Il rigore dei giudici e, in misura minore, l’accuratezza dei giudici influenzano la precisione del cut-score; e
- (c)
L’applicazione del secondo round del processo Angoff senza considerare gli esaminandi o i dati del test non ha un impatto significativo sulla precisione del cut-score.
I risultati sono discussi in tre sezioni. La prima discute il merito e l’appropriatezza della simulazione; la seconda discute i risultati e le loro implicazioni per i ricercatori e i professionisti; e la terza sezione discute il merito e i limiti di questo studio e le possibili direzioni per ulteriori ricerche.
La simulazione
I dati simulati sono stati usati in precedenza nella ricerca sulla valutazione educativa per i test basati sulla conoscenza e per la valutazione basata sulla performance. Tuttavia, gli studi di simulazione nel campo della definizione degli standard sono scarsi e non è stato trovato nessuno che abbia simulato le decisioni dei giudici sulla base dei loro attributi simulati e confrontandoli con un “valore vero” simulato. La maggior parte dei precedenti studi di simulazione in questo campo ha simulato i punteggi delle prestazioni/esami degli studenti per essere utilizzati da commissioni Angoff composte da giudici reali, ma nessuno di questi studi ha misurato gli attributi dei giudici e il loro impatto sulla precisione del cut-score. B. Clauser et al. hanno confrontato le stime dei giudici sulla percentuale di risposte corrette con i dati empirici della percentuale di risposte corrette degli esaminandi. Questo approccio, anche se importante, misura la capacità dei giudici di stimare le prestazioni degli esaminandi su un particolare test, ma senza alcuna prova empirica per suggerire il cut-score che distingue la competenza dall’incompetenza. Lo studio attuale si basa su lavori precedenti ed estende l’uso della simulazione in questo campo simulando gli attributi dei giudici che si presume influenzino le loro decisioni, nonché misurando la precisione del cut-score confrontando il cut-score determinato dai panel con il “vero” cut-score.
Tutti gli studi precedenti identificati nella letteratura hanno utilizzato la varianza tra i giudici (o l’accordo tra) come misura di accuratezza o precisione. Usare tale misura significa che se un gruppo di giudici è molto severo ma tutti sono d’accordo tra loro, il loro cut-score concordato sarebbe considerato più accurato di un cut-score prodotto da un gruppo bilanciato che comprende alcuni giudici severi e alcuni indulgenti, che naturalmente produrrebbe una varianza maggiore. Nella vita reale non c’è modo di conoscere il vero cut-score che distingue tra competenza e incompetenza, quindi si ricorre alla definizione di standard. Per esempio (, p. 158) ha presentato dati che mostrano che tre diversi panel che stimano gli stessi item producono diversi cut-score concordati e diversa varianza inter-rater anche quando si usa lo stesso metodo di impostazione standard (Angoff o Nedelsky). Altri studi, (per esempio) che hanno usato l’analisi di generalizzabilità per misurare la replicabilità di una procedura Angoff, hanno concluso che una gran parte della varianza complessiva dell’errore proviene dai giudici, ma non avevano un gold standard con cui misurare la deviazione dal vero cut-score. Questo è ovvio dato che l’analisi di generalizzabilità si basa sulle fonti di errore mentre si assume che la media sia molto vicina al vero punteggio. Quando si misura la precisione di un processo di definizione degli standard, gli studi di simulazione come quello presentato in questo documento, hanno il vantaggio unico di includere il vero cut-score come uno standard valido per il confronto.
La logica che giustifica la simulazione di ciascuna delle variabili è discussa in dettaglio nella sezione Metodo e non viene ripetuta qui. Tuttavia, è valido simulare gli attributi dei giudici? Verheggen et al. hanno dimostrato che nella definizione degli standard, la decisione individuale di un giudice su un singolo elemento riflette la “severità intrinseca del giudice e la sua conoscenza della materia” (, p. 209). Questa nozione è stata ampiamente citata in letteratura. Quindi, in termini di misurazione, se tutte le voci sono ugualmente difficili (cioè il livello di difficoltà =0), allora il cut-score risultante è composto dalla somma dei bias, cioè la severità dei giudici e la somma degli errori casuali, cioè la precisione e altri errori casuali. Poiché studi precedenti suggeriscono che gli esperti sono più severi dei non esperti e si ritiene che abbiano una maggiore influenza all’interno del panel, abbiamo incluso queste ipotesi nei parametri di simulazione. La misura assoluta in cui ciascuno degli attributi influenza il giudizio è sconosciuta, quindi la simulazione è stata composta da parametri standardizzati (SD ≅ 1) per consentire di accertare l’impatto relativo di ciascun parametro sui punteggi di taglio. Si noti che come tutti gli studi di simulazione, lo studio attuale misura le interazioni per determinate condizioni simulate, per una migliore comprensione di un modello di valutazione. Questo studio non riguarda la misurazione della natura. Tuttavia, questo studio è simile alla ricerca che utilizza dati reali, nel senso che uno studio misura l’impatto osservato su un particolare campione e uno studio diverso applica misure simili su un campione diverso. Spesso i risultati sono diversi, ma la differenza non suggerisce che uno studio sia più corretto dell’altro. Data la concordanza con gli studi precedenti che hanno utilizzato dati reali, si suggerisce che i risultati di questo studio di simulazione sarebbero applicabili a qualsiasi popolazione di giudici con attributi non diversi da quelli simulati in questo studio.
In generale, uno studio di simulazione produce sempre risultati che sono determinati dai parametri di simulazione. Il contributo di questo studio alla letteratura sulla definizione degli standard è che misura l’impatto degli attributi dei giudici a livello individuale sulla precisione del cut-score del panel. A nostra conoscenza, queste associazioni non sono mai state misurate prima, sia utilizzando dati simulati che osservati. La concordanza dei risultati di questo studio con gli studi precedenti, in particolare dove i risultati possono essere confrontati (ad esempio, Fig. 2 rispetto al lavoro di Hurtz e Hertz, Fig. 1), supporta la validità delle ipotesi e dei parametri di simulazione, aggiungendo così forza ai risultati dello studio.
Implicazioni dei risultati
Angoff è spesso usato per fissare gli standard nelle valutazioni educative su larga scala. Nel contesto della formazione medica, Angoff è stato applicato ai test di conoscenza medica (ad esempio MCQ), o agli esami di abilità clinica (ad esempio OSCE).
Negli esami clinici (ad esempio OSCE), il numero di elementi (o stazioni) può essere compreso tra 10 e 20. Quindi, dato che aumentare il numero di items è improbabile, per ragioni di fattibilità, i nostri risultati suggeriscono che se Angoff fosse usato, una combinazione ottimale sarebbe di circa 30 giudici per 10 items, con un minimo di 20 giudici per 15 items o più. Per le MCQ, dove il numero di item è elevato, un minimo di 15 giudici dovrebbe essere sufficiente per stabilire un cut-score Angoff difendibile per esami composti da 80 item o più (Fig. 2). Si nota che l’aumento del numero di voci ha fornito più punti di dati, quindi una maggiore affidabilità e quindi è anche probabile che aumenti la precisione.
Questi risultati sono all’interno della gamma raccomandata in letteratura, suggerendo che un cut-score accettabile potrebbe essere raggiunto se 5-25 giudici fossero impiegati. Poiché non esiste un gold standard per qualsiasi definizione di “ciò che è abbastanza buono” nella definizione degli standard, l’applicazione di Angoff con diversi numeri di giudici potrebbe essere giustificabile a seconda del contesto degli esami.
Studi precedenti che hanno utilizzato dati osservati hanno determinato la precisione Angoff dalla varianza tra i giudici. Altri studi che hanno utilizzato dati osservati hanno usato parametri IRT o cut-scores generati da metodi alternativi per stimare la qualità dei cut-scores generati da Angoff. Questi metodi sono appropriati quando vengono utilizzati dati osservati. Nello studio attuale, la precisione è stata determinata dalla deviazione del cut-score del panel dal “vero” cut-score. La differenza tra queste definizioni è più che semantica. Jalili et al. e altri hanno usato misure indirette per stimare la validità, come ad esempio Jalili et al. hanno dichiarato “Non abbiamo uno standard di riferimento con cui testare la validità”. La loro elegante soluzione è stata quella di utilizzare la correlazione tra i punteggi di taglio dei panel e i punteggi medi osservati (punteggi dati agli esaminandi dagli esaminatori) per ogni item come misura per stimare la validità. Lo studio attuale ha il vantaggio di avere uno standard di riferimento con cui testare la validità, poiché è stato incluso nei parametri della simulazione (vero cut-score = 0). La nostra scoperta che la correlazione era bassa (r = .226, p < .0001) indica che anche se c’era una correlazione, la SD interna al panel (accordo dei giudici) spiegava solo il 5,1% della varianza nella precisione del cut-score. Questo risultato è importante in quanto suggerisce che, sebbene l’identificazione della fonte di errore (cioè negli studi di generalizzabilità) sia un modo valido per misurare l’affidabilità di un metodo di definizione degli standard, l’utilizzo del vero cut-score, o un proxy accettabile di esso (se vengono utilizzati dati reali), è un riferimento prezioso per misurare la validità. Di conseguenza, questa scoperta supporta un ripensamento della composizione dei panel Angoff.
La letteratura suggerisce che i giudici Angoff dovrebbero essere esperti, ma riconosce che gli esperti sono più rigorosi e possono avere una maggiore influenza sugli altri giudici. La Fig. 3 fornisce un’idea di questa discrepanza dimostrando l’interazione tra Stringenza e Accuratezza (essere esperti). Sembra che i panel che non sono né troppo severi né troppo indulgenti siano più accurati in quanto sono meno inclini alla distorsione. Tuttavia, il livello di Accuracy (la capacità individuale di stimare il cut-score corretto) ha solo un piccolo impatto sulla precisione del cut-score del panel. Questo è plausibile, poiché il cut-score è determinato dalla media dei punteggi di tutti i giudici. Senza distorsioni nel giudizio (assumendo che Stringency sia tenuto costante), il punteggio medio ottenuto dai giudici si avvicina al valore reale all’aumentare del numero di giudici. L’impatto di Stringency sulla precisione è ovvio (dato che era uno dei parametri della simulazione) ma suggerisce anche che un panel che ha solo esperti o solo non esperti produrrebbe un cut-score meno preciso di un cut-score prodotto da un panel con competenze miste (Fig. 3), in particolare data l’associazione già documentata tra stringency e competenze. Nel complesso questi risultati suggeriscono che la composizione ottimale di un panel Angoff dovrebbe includere una gamma diversificata di giudici in termini di competenza e severità (se nota). Dato il piccolo impatto dell’accordo dei giudici sulla precisione del cut-score (varianza spiegata = 5,1%), questa pratica è raccomandata nonostante la probabilità di aumentare il disaccordo dei giudici all’interno del panel.
Questo studio ha trovato che l’impatto di un secondo round Angoff, dove i giudici possono essere influenzati da altri (cioè l’influenza della “Leadership”), è trascurabile. Anche se questo risultato era trascurabile anche quando misurato dalla dimensione dell’effetto standardizzato (Cohen’s d = -0,083), deve essere interpretato con cautela, soprattutto perché le misure sono tutte standardizzate e il secondo round era diverso dal primo solo per l’influenza dei giudici. Questo risultato è supportato da precedenti studi empirici che dimostrano piccole differenze tra due round di Angoff. Altri fattori, come la presentazione dei dati del test, non sono stati inclusi in questo studio. È possibile che un diverso metodo di ponderazione avrebbe prodotto un impatto maggiore e questo dovrebbe essere testato in studi futuri. La letteratura giustifica il secondo turno come un modo per aumentare l’accordo tra i giudici, ma come indicato sopra, l’aumento dell’accordo tra i giudici può avere poco impatto sulla precisione del cut-score, il che spiega la mancanza di impatto osservata di un secondo turno sulla precisione del cut-score. La conclusione inevitabile da questi risultati un po’ sorprendenti suggerisce che, a condizione che ci siano abbastanza giudici, il metodo originale di Angoff non modificato è abbastanza robusto e la discussione tra i membri del panel non migliora significativamente la precisione del cut-score di Angoff.
Nonostante, i metodi di Angoff modificati che forniscono informazioni aggiuntive sulla performance del test stesso (ad esempio i parametri degli item e degli studenti basati sulle analisi IRT) sono benvenuti. Tali modifiche probabilmente aumenteranno la precisione dei giudici senza impatto sulla severità, poiché questa conoscenza aggiuntiva è legata solo ai parametri del test e non al livello di competenza.
Limitazioni dello studio
Questo studio ha delle limitazioni, la principale è che si tratta di uno studio di simulazione. La validità dei risultati dipende dalla validità della simulazione dei dati, specialmente le variabili e le ipotesi. Abbiamo assunto che gli attributi dei giudici siano normalmente distribuiti, piuttosto che non parametrici. Naturalmente, è possibile che un particolare esame e/o un particolare insieme di esaminandi e/o un particolare insieme di giudici nella vita reale abbia attributi diversi da quelli descritti in questo studio e quindi le raccomandazioni di questo studio non sarebbero applicabili a loro. Tuttavia, dato il gran numero (4900) di pannelli unici generati per questo studio e la concordanza con i risultati precedenti generati da dati reali, è ragionevole credere che i risultati siano generalizzabili. Inoltre, come già spiegato, le ipotesi fatte nella generazione dei dati sono basate sulla misurazione educativa e sulle teorie delle impostazioni standard e sui risultati nella pratica. Si noti che, come ci si aspetta da uno studio di simulazione, questo studio misura la qualità di un modello piuttosto che analizzare i dati osservati.
Sono necessarie ulteriori ricerche per identificare l’impatto di altre caratteristiche dei metodi Angoff modificati sulla precisione dei punteggi, oltre a ripetere questo studio utilizzando ipotesi modificate.