Prospective asupra metodei Angoff: rezultate ale unui studiu de simulare

Acest studiu a utilizat date simulate bazate pe 4900 de comisii de judecători unice, care au permis măsurarea diferenței dintre scorurile Angoff determinate de comisii și scorul „adevărat”. Principalele constatări au fost:

  1. (a)

    Creșterea numărului de judecători reduce variația scorurilor de departajare ale panelului, dar, mai important, crește și precizia scorului de departajare al panelului; cu toate acestea, efectul asupra preciziei a fost mai puțin evident pentru testele cu un număr mare de itemi;

  2. (b)

    Rigurozitatea judecătorilor și, într-un efect mai mic, acuratețea judecătorilor afectează precizia notei de departajare; și

  3. (c)

    Aplicarea celei de-a doua runde a procesului Angoff fără a lua în considerare persoanele examinate sau datele testelor nu are un impact semnificativ asupra preciziei notei de departajare.

Constatările sunt discutate în trei secțiuni. Prima discută meritul și caracterul adecvat al simulării; a doua discută constatările și implicațiile lor pentru cercetători și practicieni; iar a treia secțiune discută meritele și limitările acestui studiu și posibilele direcții pentru cercetări ulterioare.

Simularea

Datele simulate au fost utilizate anterior în cercetarea în domeniul evaluării educaționale pentru testele bazate pe cunoștințe și pentru evaluarea bazată pe performanță . Cu toate acestea, studiile de simulare în domeniul stabilirii standardelor sunt rare și nu s-a găsit niciunul care să simuleze deciziile judecătorilor pe baza atributelor simulate și compararea lor cu o „valoare reală” simulată . Majoritatea studiilor anterioare de simulare în acest domeniu au simulat rezultatele obținute de elevi la examene/performanțe pentru a fi utilizate de comisii Angoff formate din judecători reali, însă niciunul dintre aceste studii nu a măsurat atributele judecătorilor și impactul acestora asupra preciziei notei de trecere . B. Clauser et al. au comparat estimările judecătorilor privind proporția de răspunsuri corecte cu datele empirice privind proporția de răspunsuri corecte ale examinatorilor. Această abordare, deși importantă, măsoară capacitatea judecătorilor de a estima performanțele persoanelor examinate la un anumit test, dar fără nicio dovadă empirică care să sugereze scorul-limită care distinge competența de incompetență . Studiul actual se bazează pe lucrările anterioare și extinde utilizarea simulării în acest domeniu prin simularea atributelor judecătorilor despre care se presupune că le afectează deciziile, precum și prin măsurarea preciziei notei de trecere prin compararea notei de trecere determinate de comisii cu nota de trecere „adevărată”.

Toate studiile anterioare identificate în literatura de specialitate au utilizat variația în cadrul judecătorilor (sau acordul dintre) ca măsură a acurateței sau preciziei. Utilizarea unei astfel de măsuri înseamnă că, în cazul în care un grup de judecători a fost foarte riguros, dar toți au fost de acord între ei, scorul de tăiere convenit de aceștia ar fi considerat mai precis decât un scor de tăiere obținut de un grup echilibrat, format din câțiva judecători riguroși și câțiva îngăduitori, care, în mod natural, ar produce o variație mai mare. În viața reală, nu există nicio modalitate de a cunoaște adevărata notă de trecere care să facă distincția între competență și incompetență, de aceea se recurge la stabilirea de standarde. De exemplu, (, p. 158) a prezentat date care arată că trei paneluri diferite care estimează aceiași itemi generează diferite cut-scores convenite și diferite varianțe între evaluatori, chiar și atunci când se utilizează aceeași metodă de stabilire a standardelor (Angoff sau Nedelsky). Alte studii (de exemplu ), care au utilizat analiza generalizabilității pentru a măsura reproductibilitatea unei proceduri Angoff, au concluzionat că o mare parte din variația globală a erorilor provine de la judecători, însă nu au avut niciun standard de aur cu care să măsoare abaterea de la adevărata notă de trecere. Acest lucru este evident, deoarece analiza generalizabilității se bazează pe sursele de erori, presupunând în același timp că media este foarte apropiată de scorul adevărat . Atunci când se măsoară precizia unui proces de stabilire a unui standard, studiile de simulare, cum ar fi cel prezentat în această lucrare, au avantajul unic de a include adevăratul punctaj de departajare ca standard valabil pentru comparație .

Raționamentul care justifică simularea fiecăreia dintre variabile este discutat în detaliu în secțiunea Metodă și nu este repetat aici. Cu toate acestea, este validă simularea atributelor judecătorilor? Verheggen et al. au demonstrat că, în procesul de stabilire a standardelor, decizia individuală a unui judecător cu privire la un element individual reflectă „rigurozitatea inerentă a judecătorului și cunoștințele sale legate de subiect” (, p. 209). Această noțiune a fost menționată pe larg în literatura de specialitate . Astfel, în termeni de măsurare , dacă toți itemii sunt la fel de dificili (adică nivelul de dificultate =0), atunci nota de trecere rezultată este compusă din suma prejudecăților, adică Rigurozitatea judecătorilor și suma erorilor aleatorii, adică Precizia și alte erori aleatorii. Având în vedere că studiile anterioare sugerează că experții sunt mai riguroși decât neexperții și se consideră că au o influență mai mare în cadrul comisiei , am inclus aceste ipoteze în parametrii de simulare. Măsura absolută în care fiecare dintre atribute influențează judecata nu este cunoscută, astfel încât simularea a fost compusă din parametri standardizați (SD ≅ 1) pentru a permite stabilirea impactului relativ al fiecărui parametru asupra scorurilor de trecere. Rețineți că, la fel ca toate studiile de simulare, studiul actual măsoară interacțiunile pentru anumite condiții simulate, pentru o mai bună înțelegere a unui model de evaluare. Prezentul studiu nu urmărește să măsoare natura . Cu toate acestea, prezentul studiu este similar cu cercetările care utilizează date reale, în sensul că un studiu măsoară impactul observat pe un anumit eșantion, iar un alt studiu aplică măsuri similare pe un eșantion diferit. Adesea, rezultatele sunt diferite, însă diferența nu sugerează că un studiu este mai corect decât celălalt. Având în vedere concordanța cu studiile anterioare care au utilizat date reale , se sugerează că rezultatele acestui studiu de simulare ar fi aplicabile oricărei populații de judecători cu atribute nu foarte diferite de ceea ce a fost simulat în acest studiu.

În general, un studiu de simulare produce întotdeauna rezultate care sunt determinate de parametrii de simulare. Contribuția acestui studiu la literatura de specialitate privind stabilirea standardelor constă în faptul că acesta măsoară impactul atributelor judecătorilor la nivel individual asupra preciziei notei de departajare a juriului. Din câte știm, aceste asocieri nu au mai fost măsurate până acum, fie prin utilizarea de date simulate, fie prin utilizarea de date observate. Concordanța rezultatelor acestui studiu cu studiile anterioare, în special acolo unde rezultatele au putut fi comparate (de exemplu, Fig. 2 vs. lucrarea lui Hurtz și Hertz , Fig. 1 ), sprijină validitatea ipotezelor și a parametrilor de simulare, adăugând astfel forță concluziilor studiului.

Implicațiile rezultatelor

Angoff este adesea folosit pentru a stabili standarde în evaluările educaționale la scară largă . În contextul educației medicale, Angoff a fost aplicat la testele de cunoștințe medicale (de exemplu, MCQ-uri ) , sau la examenele de aptitudini clinice (de exemplu, OSCE) .

În cadrul examenelor clinice (de exemplu, OSCE), numărul de itemi (sau stații) poate fi între 10 și 20 . Astfel, având în vedere că este puțin probabilă creșterea numărului de itemi, din motive de fezabilitate, rezultatele noastre sugerează că, dacă s-ar folosi Angoff, o combinație optimă ar fi de aproximativ 30 de judecători pentru 10 itemi, cu un minim de 20 de judecători pentru 15 itemi sau mai mult. În cazul chestionarelor de tip MCQ, în care numărul de itemi este mare , un minim de 15 judecători ar trebui să fie suficient pentru a stabili un punctaj Angoff justificabil pentru examenele compuse din 80 de itemi sau mai mult (Fig. 2). Se remarcă faptul că creșterea numărului de itemi a furnizat mai multe puncte de date , deci o fiabilitate mai mare și, prin urmare, este de asemenea probabil să crească precizia.

Aceste rezultate se încadrează în intervalul recomandat în literatura de specialitate, sugerând că un cut-score acceptabil ar putea fi atins dacă ar fi angajați 5-25 de judecători . Deoarece nu există un standard de aur pentru nicio definiție a „ceea ce este suficient de bun” în stabilirea standardelor , aplicarea Angoff cu un număr diferit de judecători ar putea fi justificată în funcție de contextul examinărilor.

Studiile anterioare care au utilizat date observate au determinat precizia Angoff prin variația între judecători . Alte studii care au folosit date observate au folosit parametrii IRT sau cut-scores generate prin metode alternative pentru a estima calitatea cut-scores generate de Angoff . Aceste metode sunt adecvate atunci când se utilizează date observate. În studiul actual, precizia a fost determinată de abaterea scorului de tăiere al juriului de la scorul de tăiere „adevărat”. Diferența dintre aceste definiții este mai mult decât semantică. Jalili et al. și alții au folosit măsuri indirecte pentru a estima validitatea, deoarece, de exemplu, Jalili et al. au declarat: „Nu avem un standard de referință cu ajutorul căruia să testăm validitatea”. Soluția lor elegantă a fost aceea de a utiliza corelația dintre scorurile de tăiere ale comisiilor și scorurile medii observate (scorurile acordate examinatorilor de către examinatori) pentru fiecare item ca măsură pentru estimarea validității. Studiul actual are avantajul de a avea un standard de referință pentru testarea validității, deoarece acesta a fost inclus în parametrii de simulare (scor de tăiere adevărat = 0). Constatarea noastră conform căreia corelația a fost scăzută (r = 0,226, p < 0,0001) indică faptul că, deși a existat o corelație, SD în cadrul panelului (acordul judecătorilor) a explicat doar 5,1 % din variația în ceea ce privește precizia cut-score-ului. Această constatare este importantă, deoarece sugerează că, deși identificarea sursei de eroare (de exemplu, în studiile de generalizare) este o modalitate validă de măsurare a fiabilității unei metode de stabilire a standardelor , utilizarea adevăratei cut-score, sau a unei aproximări acceptabile a acesteia (în cazul în care se utilizează date reale), reprezintă o referință neprețuită pentru măsurarea validității . În consecință, această constatare susține o regândire a componenței panelurilor Angoff.

Literatura sugerează că judecătorii Angoff ar trebui să fie experți , dar recunoaște că experții sunt mai riguroși și pot avea o influență mai mare asupra celorlalți judecători . Fig. 3 oferă o perspectivă asupra acestei discrepanțe prin demonstrarea interacțiunii dintre Rigurozitate și Precizie (a fi expert). Se pare că juriile care nu sunt nici prea riguroase, nici prea indulgente sunt mai precise, deoarece sunt mai puțin predispuse la prejudecăți. Cu toate acestea, nivelul de acuratețe (capacitatea individului de a estima scorul de tăiere corect) are doar un impact redus asupra preciziei scorului de tăiere al panelului. Acest lucru este plauzibil, deoarece scorul-limită este determinat de media scorurilor tuturor judecătorilor . Fără a exista o prejudecată în apreciere (presupunând că rigurozitatea este menținută constantă), scorul mediu obținut de judecători se apropie de valoarea reală pe măsură ce crește numărul de judecători . Impactul rigurozității asupra preciziei este evident (deoarece a fost unul dintre parametrii de simulare), dar sugerează, de asemenea, că un juriu format numai din experți sau numai din neexperți ar produce o notă de trecere mai puțin precisă decât o notă de trecere obținută de un juriu cu expertiză mixtă (Fig. 3), în special având în vedere asocierea deja documentată dintre rigurozitate și expertiză . În general, aceste constatări sugerează că o componență optimă a unei comisii Angoff ar trebui să includă o gamă diversă de judecători în ceea ce privește expertiza și rigurozitatea (dacă este cunoscută). Având în vedere impactul redus al acordului judecătorilor asupra preciziei scorului de tăiere (varianța explicată = 5,1 %), această practică este recomandată în ciuda probabilității de creștere a dezacordului între judecătorii din cadrul panelului.

Acest studiu a constatat că impactul unei a doua runde Angoff, în care judecătorii pot fi influențați de alții (adică influența „Leadership”), este neglijabil. Deși această constatare a fost neglijabilă chiar și atunci când a fost măsurată prin mărimea efectului standardizat (Cohen’s d = -0,083), trebuie interpretată cu prudență, în special deoarece măsurile sunt toate standardizate, iar cea de-a doua rundă a fost diferită de prima doar prin influența judecătorilor. Această constatare este susținută de studii empirice anterioare care demonstrează diferențe minore între două runde Angoff . Alți factori, cum ar fi prezentarea datelor de testare, nu au fost incluși în acest studiu. Este posibil ca o metodă diferită de ponderare să fi produs un impact mai mare și acest lucru ar trebui testat în studiile viitoare. Literatura de specialitate justifică a doua rundă ca fiind o modalitate de a crește acordul între judecători , însă, după cum s-a indicat mai sus, creșterea acordului în cadrul judecătorilor poate avea un impact redus asupra preciziei scorului de tăiere, ceea ce explică lipsa de impact observată a unei a doua runde asupra preciziei scorului de tăiere. Concluzia inevitabilă din aceste rezultate oarecum surprinzătoare sugerează că, cu condiția să existe suficienți judecători, metoda originală nemodificată a lui Angoff este suficient de robustă, iar discuția dintre membrii juriului nu îmbunătățește în mod semnificativ precizia scorului de tăiere al lui Angoff.

Cu toate acestea, metodele modificate ale lui Angoff care oferă informații suplimentare privind performanța testului în sine (de exemplu, parametrii itemului și ai elevului pe baza analizelor IRT) sunt binevenite. Astfel de modificări sunt susceptibile de a crește precizia judecătorilor fără impact asupra Stringenței, deoarece aceste cunoștințe suplimentare sunt legate doar de parametrii testului și nu de nivelul de expertiză.

Limitele studiului

Acest studiu are limitări, principala fiind aceea că este un studiu de simulare. Validitatea constatărilor depinde de validitatea simulării datelor, în special a variabilelor și a ipotezelor. Am presupus că atributele judecătorilor sunt distribuite normal, mai degrabă decât neparametric. Firește, este posibil ca un anumit examen și/sau un anumit set de examinați și/sau un anumit set de judecători din viața reală să aibă atribute diferite de cele descrise în acest studiu și, prin urmare, recomandările din acest studiu nu ar fi aplicabile pentru aceștia. Cu toate acestea, având în vedere numărul mare (4900) de panouri unice generate pentru acest studiu și concordanța cu rezultatele anterioare generate din date reale , este rezonabil să credem că rezultatele sunt generalizabile. Mai mult decât atât, după cum s-a explicat deja, ipotezele făcute în generarea datelor sunt fundamentate pe teoriile de măsurare a educației și a setărilor standard și pe constatările din practică . Rețineți că, așa cum era de așteptat de la un studiu de simulare, acest studiu măsoară calitatea unui model mai degrabă decât să analizeze orice date observate .

Sunt necesare cercetări suplimentare pentru a identifica impactul altor caracteristici ale metodelor Angoff modificate asupra preciziei scorurilor de tăiere, precum și repetarea acestui studiu folosind ipoteze modificate.

.