Insights into the Angoff method: results from a simulation study
W badaniu tym wykorzystano symulowane dane oparte na 4900 unikalnych panelach sędziowskich, co pozwoliło na pomiar różnicy między wyznaczonymi przez panele wskaźnikami odcięcia Angoffa a „prawdziwym” wskaźnikiem odcięcia. Główne ustalenia były następujące:
- (a)
Zwiększenie liczby sędziów zmniejsza wariancję w wynikach panelu, ale, co ważniejsze, zwiększa również precyzję wyników panelu; jednak wpływ na precyzję był mniej widoczny w przypadku testów z dużą liczbą pozycji;
- (b)
Rygorystyczność sędziów oraz, w mniejszym stopniu, Dokładność sędziów wpływają na precyzję wyników; oraz
- (c)
Zastosowanie drugiej rundy procesu Angoffa bez uwzględnienia osób badanych lub danych testowych nie ma znaczącego wpływu na precyzję wyników.
Ustalenia te są omówione w trzech sekcjach. Pierwsza omawia zalety i adekwatność symulacji; druga omawia wyniki i ich implikacje dla badaczy i praktyków; a trzecia sekcja omawia zalety i ograniczenia tego badania oraz możliwe kierunki dalszych badań.
Symulacja
Symulowane dane były wcześniej używane w badaniach nad oceną edukacyjną dla testów opartych na wiedzy i dla oceny opartej na wynikach. Jednak badania symulacyjne w dziedzinie ustalania standardów są nieliczne i nie znaleziono żadnego, który symulowałby decyzje sędziów w oparciu o ich symulowane atrybuty i porównując je z symulowaną „prawdziwą wartością”. Większość wcześniejszych badań symulacyjnych w tej dziedzinie symulowała wyniki uczniów/egzaminów, które miały być wykorzystane przez panele Angoffa składające się z prawdziwych sędziów, jednak żadne z tych badań nie mierzyło atrybutów sędziów i ich wpływu na precyzję cut-score. B. Clauser et al. porównali oszacowania sędziów dotyczące proporcji poprawnych odpowiedzi z danymi empirycznymi dotyczącymi proporcji poprawnych odpowiedzi egzaminowanych. Podejście to, choć ważne, mierzy zdolność sędziów do oszacowania wyników egzaminowanych na danym teście, ale bez żadnych empirycznych dowodów, które sugerowałyby punkt odcięcia pozwalający na odróżnienie kompetencji od niekompetencji. Obecne badanie opiera się na poprzednich pracach i rozszerza zastosowanie symulacji w tej dziedzinie poprzez symulację atrybutów sędziów, które, jak się zakłada, wpływają na ich decyzje, jak również mierzy precyzję wyników poprzez porównanie wyników ustalonych przez panele z „prawdziwymi” wynikami.
Wszystkie poprzednie badania zidentyfikowane w literaturze wykorzystywały wariancję w obrębie sędziów (lub porozumienie między nimi) jako miarę dokładności lub precyzji. Użycie takiej miary oznacza, że jeśli panel sędziów był bardzo rygorystyczny, ale wszyscy zgadzali się ze sobą, ich uzgodniony wynik byłby uznany za bardziej dokładny niż wynik uzyskany przez zrównoważony panel składający się z kilku rygorystycznych i kilku łagodnych sędziów, co naturalnie dałoby większą wariancję. W prawdziwym życiu nie ma sposobu na poznanie prawdziwego wyniku, który odróżnia kompetencję od niekompetencji, dlatego stosuje się ustalanie standardów. Na przykład (, str. 158) przedstawił dane pokazujące, że trzy różne panele szacujące te same pozycje dają różne uzgodnione wyniki i różną wariancję międzyosobniczą nawet przy użyciu tej samej metody ustalania standardów (Angoff lub Nedelsky). Inne badania (np. ), które wykorzystały analizę uogólnialności do pomiaru powtarzalności procedury Angoffa, stwierdziły, że duża część ogólnej wariancji błędu pochodzi od sędziów, jednak nie miały one złotego standardu, za pomocą którego można by zmierzyć odchylenie od prawdziwego wyniku. Jest to oczywiste, ponieważ analiza uogólnialności opiera się na źródłach błędów przy założeniu, że średnia jest bardzo bliska prawdziwemu wynikowi. Podczas mierzenia precyzji procesu ustalania standardu, badania symulacyjne, takie jak te przedstawione w tym artykule, mają unikalną zaletę włączenia prawdziwego wyniku jako ważnego standardu do porównania. Jednakże, czy symulowanie atrybutów sędziów jest uzasadnione? Verheggen et al. wykazali, że w procesie ustalania standardów, indywidualne decyzje sędziego dotyczące poszczególnych pozycji odzwierciedlają „wrodzoną surowość sędziego i jego wiedzę na dany temat” (, str. 209). Pojęcie to było szeroko przywoływane w literaturze. Tak więc, w kategoriach pomiarowych, jeśli wszystkie elementy są tak samo trudne (tj. poziom trudności =0), wówczas wynikowy wynik końcowy składa się z sumy uprzedzeń, tj. surowości sędziów i sumy błędów losowych, tj. dokładności i innych błędów losowych. Ponieważ poprzednie badania sugerują, że eksperci są bardziej rygorystyczni niż nieeksperci, i uważa się, że mają większy wpływ na panel, uwzględniliśmy te założenia w parametrach symulacji. Bezwzględny zakres, w jakim każdy z atrybutów wpływa na ocenę jest nieznany, dlatego symulacja składała się ze znormalizowanych parametrów (SD ≅ 1), aby umożliwić ustalenie względnego wpływu każdego parametru na punkty odcięcia. Należy zauważyć, że podobnie jak wszystkie badania symulacyjne, obecne badanie mierzy interakcje dla danych symulowanych warunków, w celu lepszego zrozumienia modelu oceny. Badanie to nie ma na celu pomiaru przyrody. Jednakże, badanie to jest podobne do badań wykorzystujących rzeczywiste dane, w tym sensie, że jedno badanie mierzy wpływ zaobserwowany na określonej próbce, a inne badanie stosuje podobne środki na innej próbce. Często wyniki są różne, ale różnica ta nie sugeruje, że jedno badanie jest bardziej poprawne od drugiego. Biorąc pod uwagę zgodność z poprzednimi badaniami, w których wykorzystano rzeczywiste dane, sugeruje się, że wyniki tego badania symulacyjnego można by zastosować do każdej populacji sędziów z atrybutami nie podobnymi do tych, które zostały zasymulowane w tym badaniu.
Ogólnie rzecz biorąc, badanie symulacyjne zawsze daje wyniki, które są określane przez parametry symulacji. Wkład tego badania do literatury dotyczącej ustalania standardów polega na tym, że mierzy ono wpływ atrybutów sędziów na poziomie indywidualnym na precyzję wyników panelu. Według naszej wiedzy, te związki nigdy wcześniej nie były mierzone, ani przy użyciu danych symulowanych, ani obserwowanych. Zgodność wyników tego badania z poprzednimi badaniami, szczególnie tam, gdzie wyniki mogą być porównywane (np. ryc. 2 vs. praca Hurtza i Hertza, ryc. 1), wspierają ważność założeń i parametrów symulacji, dodając w ten sposób siły do wyników badania.
Implications of the results
Angoff jest często używany do ustalania standardów w ocenach edukacyjnych na dużą skalę. W kontekście edukacji medycznej, Angoff został zastosowany do testów wiedzy medycznej (np. MCQ’s) lub egzaminów umiejętności klinicznych (np. OSCE).
W egzaminach klinicznych (np. OSCE), liczba pozycji (lub stacji) może wynosić od 10 do 20. Tak więc, biorąc pod uwagę, że zwiększenie liczby przedmiotów jest mało prawdopodobne, ze względu na wykonalność, nasze wyniki sugerują, że jeśli Angoff byłby używany, optymalna kombinacja wynosiłaby około 30 sędziów dla 10 przedmiotów, z minimum 20 sędziów dla 15 przedmiotów lub więcej. W przypadku pytań MCQ, gdzie liczba pozycji jest duża, minimum 15 sędziów powinno wystarczyć do ustanowienia możliwego do obrony wyniku Angoffa dla egzaminów składających się z 80 lub więcej pozycji (Rys. 2). Zauważono, że zwiększenie liczby pozycji zapewnia więcej punktów danych, a tym samym wyższą wiarygodność, a zatem prawdopodobnie zwiększa precyzję.
Wyniki te mieszczą się w zakresie zalecanym w literaturze, sugerując, że akceptowalny cut-score mógłby być osiągnięty, gdyby zatrudniono 5-25 sędziów. Ponieważ nie ma złotego standardu dla jakiejkolwiek definicji „co jest wystarczająco dobre” w ustalaniu standardów, zastosowanie Angoffa z różną liczbą sędziów może być uzasadnione w zależności od kontekstu badań.
Poprzednie badania wykorzystujące dane obserwowane określiły precyzję Angoffa na podstawie wariancji pomiędzy sędziami. Inne badania, które wykorzystywały obserwowane dane, wykorzystywały parametry IRT lub cut-scores wygenerowane przez alternatywne metody w celu oszacowania jakości wygenerowanych przez Angoff cut-scores . Metody te są odpowiednie, gdy wykorzystywane są dane obserwowane. W obecnym badaniu precyzja została określona przez odchylenie wartości odcięcia panelu od „prawdziwej” wartości odcięcia. Różnica między tymi definicjami jest więcej niż tylko semantyczna. Jalili et al. i inni używali pośrednich miar do oszacowania ważności, na przykład, Jalili et al. stwierdzili „Nie mamy standardu odniesienia, przez który moglibyśmy przetestować ważność”. Ich eleganckie rozwiązanie polegało na wykorzystaniu korelacji między punktami odcięcia w panelach a średnimi obserwowanymi wynikami (wynikami przyznanymi osobom egzaminowanym przez egzaminatorów) dla każdej pozycji jako miary szacowania trafności. Obecne badanie ma tę zaletę, że posiada standard odniesienia, według którego można testować ważność, ponieważ został on uwzględniony w parametrach symulacji (prawdziwy cut-score = 0). Nasze ustalenie, że korelacja była niska (r = .226, p < .0001) wskazuje, że chociaż istniała korelacja, wewnątrzpanelowe SD (porozumienie sędziów) wyjaśniało tylko 5,1% wariancji w precyzji wyników odcięcia. Ustalenie to jest ważne, ponieważ sugeruje, że chociaż identyfikacja źródła błędu (tj. w badaniach uogólnialności) jest ważnym sposobem pomiaru wiarygodności metody ustalania norm, to użycie prawdziwego wyniku odcięcia, lub jego akceptowalnego przybliżenia (jeśli używane są prawdziwe dane), jest nieocenionym punktem odniesienia dla pomiaru ważności. W konsekwencji, to odkrycie wspiera ponowne przemyślenie składu paneli Angoffa.
Literatura sugeruje, że sędziowie Angoffa powinni być ekspertami , ale uznaje, że eksperci są bardziej rygorystyczni i mogą mieć większy wpływ na innych sędziów . Rys. 3 przedstawia pewien wgląd w tę rozbieżność poprzez pokazanie interakcji pomiędzy Rygorystycznością a Dokładnością (byciem ekspertem). Wydaje się, że zespoły, które nie są ani zbyt rygorystyczne, ani zbyt łagodne, są bardziej dokładne, ponieważ są mniej podatne na stronniczość. Jednakże, poziom Dokładności (indywidualna zdolność do oszacowania poprawnego wyniku) ma jedynie niewielki wpływ na precyzję wyników panelu. Jest to prawdopodobne, ponieważ wynik jest ustalany na podstawie średniej z ocen wszystkich sędziów. Bez stronniczości w ocenie (zakładając, że Stringency jest utrzymywana na stałym poziomie), średnia ocena uzyskana przez sędziów staje się bliższa prawdziwej wartości wraz ze wzrostem liczby sędziów. Wpływ surowości na precyzję jest oczywisty (jako, że był to jeden z parametrów symulacji), ale sugeruje również, że panel, w którym zasiadają tylko eksperci lub tylko nie-eksperci, dałby wynik mniej precyzyjny niż wynik uzyskany przez panel o mieszanej wiedzy eksperckiej (Rys. 3), szczególnie biorąc pod uwagę już udokumentowany związek pomiędzy surowością a wiedzą ekspercką. Ogólnie rzecz biorąc, ustalenia te sugerują, że optymalny skład panelu Angoffa powinien obejmować zróżnicowany zakres sędziów pod względem wiedzy specjalistycznej i surowości (jeżeli jest znana). Biorąc pod uwagę niewielki wpływ porozumienia sędziów na precyzję punktów odcięcia (wariancja wyjaśniona = 5,1%), praktyka ta jest zalecana pomimo prawdopodobieństwa wzrostu różnicy zdań wewnątrz panelu sędziowskiego.
W badaniu tym stwierdzono, że wpływ drugiej rundy Angoffa, w której sędziowie mogą być pod wpływem innych osób (tj. wpływ „Przywództwa”), jest nieistotny. Chociaż wynik ten był nieistotny nawet przy pomiarze standaryzowanej wielkości efektu (Cohen’s d = -0,083), należy go interpretować z ostrożnością, zwłaszcza że wszystkie miary są standaryzowane, a druga runda różniła się od pierwszej jedynie wpływem sędziów. Wniosek ten potwierdzają wcześniejsze badania empiryczne wykazujące niewielkie różnice między dwiema rundami Angoffa. Inne czynniki, takie jak prezentacja danych testowych, nie zostały uwzględnione w tym badaniu. Możliwe, że inna metoda ważenia miałaby większy wpływ i należy to sprawdzić w przyszłych badaniach. Literatura uzasadnia drugą rundę jako sposób na zwiększenie porozumienia między sędziami, jednak jak wskazano powyżej, zwiększenie porozumienia między sędziami może mieć niewielki wpływ na precyzję wyników, co wyjaśnia zaobserwowany brak wpływu drugiej rundy na precyzję wyników. Nieunikniony wniosek z tych nieco zaskakujących wyników sugeruje, że pod warunkiem, że jest wystarczająco dużo sędziów, oryginalna, niezmodyfikowana metoda Angoffa jest wystarczająco solidna, a dyskusja między panelistami nie poprawia znacząco precyzji wyników Angoffa.
Niemniej jednak, zmodyfikowane metody Angoffa, które dostarczają dodatkowych informacji na temat samych wyników testu (np. parametry pozycji i ucznia oparte na analizach IRT) są mile widziane. Takie modyfikacje prawdopodobnie zwiększą precyzję sędziów bez wpływu na Stringency, ponieważ ta dodatkowa wiedza jest związana wyłącznie z parametrami testu, a nie z poziomem wiedzy specjalistycznej.
Ograniczenia badania
To badanie ma ograniczenia, z których głównym jest to, że jest to badanie symulacyjne. Poprawność wyników zależy od poprawności symulacji danych, zwłaszcza zmiennych i założeń. Założyliśmy, że atrybuty sędziów mają rozkład normalny, a nie nieparametryczny. Oczywiście, możliwe jest, że konkretny egzamin i/lub konkretny zestaw egzaminowanych i/lub konkretny zestaw sędziów w prawdziwym życiu miałby inne atrybuty niż te opisane w tym badaniu, a zatem zalecenia tego badania nie miałyby dla nich zastosowania. Jednakże, biorąc pod uwagę dużą liczbę (4900) unikalnych paneli wygenerowanych na potrzeby tego badania oraz zgodność z poprzednimi wynikami wygenerowanymi na podstawie rzeczywistych danych, uzasadnione jest przekonanie, że ustalenia te można uogólnić. Ponadto, jak już wyjaśniono, założenia poczynione podczas generowania danych są oparte na teoriach pomiaru edukacyjnego i ustawień standardowych oraz ustaleniach z praktyki. Należy zauważyć, że jak można się spodziewać po badaniu symulacyjnym, badanie to mierzy jakość modelu, a nie analizuje żadnych obserwowanych danych.
Potrzebne są dalsze badania w celu zidentyfikowania wpływu innych cech zmodyfikowanych metod Angoffa na precyzję wyników, jak również powtórzenia tego badania przy użyciu zmodyfikowanych założeń.