Perspectivas del método Angoff: resultados de un estudio de simulación

Este estudio utilizó datos simulados basados en 4900 paneles únicos de jueces, que permitieron medir la diferencia entre las puntuaciones de corte de Angoff determinadas por los paneles y la puntuación de corte «verdadera». Los principales resultados fueron:

  1. (a)

    El aumento del número de jueces reduce la variación de las puntuaciones de corte del panel pero, lo que es más importante, también aumenta la precisión de la puntuación de corte del panel; sin embargo, el efecto sobre la precisión fue menos evidente para las pruebas con un gran número de ítems;

  2. (b)

    El rigor de los jueces y, en menor medida, la exactitud de los jueces afectan a la precisión de la nota de corte; y

  3. (c)

    La aplicación de la segunda ronda del proceso Angoff sin tener en cuenta a los examinados o los datos de las pruebas no tiene un impacto significativo en la precisión de la nota de corte.

Los resultados se discuten en tres secciones. La primera discute el mérito y la idoneidad de la simulación; la segunda discute los hallazgos y sus implicaciones para los investigadores y profesionales; y la tercera sección discute el mérito y las limitaciones de este estudio y las posibles direcciones para futuras investigaciones.

La simulación

Los datos simulados se han utilizado previamente en la investigación de la evaluación educativa para las pruebas basadas en el conocimiento y para la evaluación basada en el rendimiento . Sin embargo, los estudios de simulación en el campo de la fijación de normas son escasos y no se encontró ninguno que simulara las decisiones de los jueces basándose en sus atributos simulados y comparándolos con un «valor verdadero» simulado . La mayoría de los estudios de simulación anteriores en este campo simulaban las puntuaciones de los estudiantes en los exámenes para que las utilizaran los paneles de Angoff formados por jueces reales, pero ninguno de estos estudios medía los atributos de los jueces y su impacto en la precisión de la nota de corte. B. Clauser et al. compararon las estimaciones de los jueces sobre la proporción de respuestas correctas con los datos empíricos de la proporción de respuestas correctas de los examinados. Este enfoque, aunque importante, mide la capacidad de los jueces para estimar el rendimiento de los examinados en una prueba concreta, pero sin ninguna prueba empírica que sugiera la puntuación de corte que distingue la competencia de la incompetencia . El presente estudio se basa en trabajos anteriores y amplía el uso de la simulación en este campo mediante la simulación de los atributos de los jueces que se supone que afectan a sus decisiones, así como la medición de la precisión de la puntuación de corte mediante la comparación de la puntuación de corte determinada por los paneles con la puntuación de corte «verdadera».

Todos los estudios anteriores identificados en la literatura utilizaban la varianza dentro de los jueces (o el acuerdo entre) como medida de exactitud o precisión. El uso de esta medida significa que si un panel de jueces es muy estricto pero todos están de acuerdo entre sí, su puntuación de corte acordada se considerará más precisa que la puntuación de corte obtenida por un panel equilibrado que incluya algunos jueces estrictos y otros indulgentes, lo que naturalmente producirá una mayor varianza. En la vida real no hay forma de conocer la verdadera puntuación de corte que distingue entre competencia e incompetencia, por lo que se emplea la fijación de normas. Por ejemplo, (, p. 158) presentó datos que mostraban que tres paneles diferentes que estimaban los mismos ítems arrojaban diferentes puntuaciones de corte acordadas y diferentes varianzas entre los evaluadores, incluso cuando se utilizaba el mismo método de ajuste estándar (Angoff o Nedelsky). Otros estudios (p. ej.) que utilizaron el análisis de generalizabilidad para medir la replicabilidad de un procedimiento de Angoff, concluyeron que una gran parte de la varianza global de los errores procedía de los jueces, aunque no tenían ningún estándar de oro con el que medir la desviación de la verdadera puntuación de corte. Esto es obvio, ya que el análisis de generalizabilidad se basa en las fuentes de error, mientras que se asume que la media está muy cerca de la verdadera puntuación . A la hora de medir la precisión de un proceso de establecimiento de normas, los estudios de simulación, como el que se presenta en este trabajo, tienen la ventaja única de incluir la verdadera puntuación de corte como estándar válido de comparación.

La justificación de la simulación de cada una de las variables se discute en detalle en la sección de Método y no se repite aquí. Sin embargo, ¿es válido simular los atributos de los jueces? Verheggen et al. demostraron que, en el establecimiento de normas, la decisión individual de un juez sobre un elemento individual refleja la «rigurosidad inherente al juez y sus conocimientos sobre la materia» (, p. 209). Esta noción ha sido ampliamente mencionada en la literatura. Así, en términos de medición, si todos los ítems son igualmente difíciles (es decir, nivel de dificultad =0), la puntuación de corte resultante se compone de la suma de los sesgos, es decir, la rigurosidad del juez, y la suma de los errores aleatorios, es decir, la precisión y otros errores aleatorios. Dado que los estudios anteriores sugieren que los expertos son más estrictos que los no expertos, y que se considera que tienen mayor influencia dentro del panel, incluimos estos supuestos en los parámetros de la simulación. Se desconoce el grado absoluto en que cada uno de los atributos afecta a la valoración, por lo que la simulación se compone de parámetros estandarizados (SD ≅ 1) para permitir que se determinen los impactos relativos de cada parámetro en las puntuaciones de corte. Obsérvese que, como todos los estudios de simulación, el presente estudio mide las interacciones para unas condiciones simuladas determinadas, para una mejor comprensión de un modelo de evaluación. Este estudio no trata de medir la naturaleza . Sin embargo, este estudio es similar a la investigación que utiliza datos reales, en el sentido de que un estudio mide el impacto observado en una muestra particular y otro estudio aplica medidas similares en una muestra diferente. A menudo los resultados son diferentes, pero la diferencia no sugiere que un estudio sea más correcto que el otro. Dada la concordancia con estudios anteriores que utilizaron datos reales, se sugiere que los resultados de este estudio de simulación serían aplicables a cualquier población de jueces con atributos no muy diferentes a los que se simularon en este estudio.

En general, un estudio de simulación siempre arroja resultados que están determinados por los parámetros de simulación. La contribución de este estudio a la literatura de fijación de estándares es que mide el impacto de los atributos de los jueces a nivel individual en la precisión de la puntuación de corte del panel. Hasta donde sabemos, estas asociaciones nunca se han medido antes, ni utilizando datos simulados ni observados. La concordancia de los resultados de este estudio con los estudios anteriores, en particular cuando los resultados pueden ser comparados (por ejemplo, la Fig. 2 frente al trabajo de Hurtz y Hertz , Fig. 1 ), apoyan la validez de los supuestos y parámetros de la simulación, añadiendo así fuerza a los resultados del estudio.

Implicaciones de los resultados

Angoff se utiliza a menudo para establecer normas en las evaluaciones educativas a gran escala . En el contexto de la educación médica, Angoff se ha aplicado a las pruebas de conocimientos médicos (por ejemplo, los MCQ), o a los exámenes de habilidades clínicas (por ejemplo, el OSCE).

En los exámenes clínicos (por ejemplo, el OSCE), el número de ítems (o estaciones) puede ser de entre 10 y 20 . Por lo tanto, dado que el aumento del número de ítems es poco probable, por razones de viabilidad, nuestros resultados sugieren que si se utilizara Angoff, una combinación óptima sería de unos 30 jueces para 10 ítems, con un mínimo de 20 jueces para 15 ítems o más. En el caso de los MCQ, donde el número de ítems es grande, un mínimo de 15 jueces debería ser suficiente para establecer una puntuación de corte de Angoff defendible para los exámenes que constan de 80 ítems o más (Fig. 2). Se observa que al aumentar el número de ítems se obtienen más puntos de datos y, por lo tanto, una mayor fiabilidad y, por consiguiente, también es probable que aumente la precisión.

Estos resultados se encuentran dentro del intervalo recomendado en la bibliografía, lo que sugiere que podría alcanzarse una puntuación de corte aceptable si se emplearan entre 5 y 25 jueces. Dado que no existe un estándar de oro para ninguna definición de «lo que es suficientemente bueno» en el establecimiento de normas, la aplicación de Angoff con diferentes números de jueces podría estar justificada dependiendo del contexto de los exámenes.

Estudios anteriores que utilizaron datos observados han determinado la precisión de Angoff por la varianza entre los jueces . Otros estudios que utilizaron datos observados emplearon parámetros de la TRI o puntuaciones de corte generadas por métodos alternativos para estimar la calidad de las puntuaciones de corte generadas por Angoff . Estos métodos son apropiados cuando se utilizan datos observados. En el presente estudio, la precisión se determinó por la desviación de la puntuación de corte del panel con respecto a la puntuación de corte «verdadera». La diferencia entre estas definiciones es más que semántica. Jalili et al. y otros utilizaron medidas indirectas para estimar la validez, ya que, por ejemplo, Jalili et al. afirmaron que «no tenemos un estándar de referencia para comprobar la validez». Su elegante solución fue utilizar la correlación entre las puntuaciones de corte de los paneles y las puntuaciones medias observadas (puntuaciones dadas a los examinados por los examinadores) para cada ítem como medida para estimar la validez. El presente estudio tiene la ventaja de contar con un estándar de referencia para comprobar la validez, ya que se incluyó en los parámetros de la simulación (puntuación de corte verdadera = 0). Nuestro hallazgo de que la correlación era baja (r = 0,226, p < 0,0001) indica que, aunque había una correlación, la DS dentro del panel (acuerdo de los jueces) explicaba sólo el 5,1% de la varianza en la precisión de la puntuación de corte. Este hallazgo es importante, ya que sugiere que, aunque la identificación de la fuente de error (es decir, en los estudios de generalizabilidad) es una forma válida de medir la fiabilidad de un método de establecimiento de normas, el uso de la verdadera puntuación de corte, o de una aproximación aceptable de la misma (si se utilizan datos reales), es una referencia inestimable para medir la validez. En consecuencia, este hallazgo apoya un replanteamiento de la composición de los paneles Angoff.

La bibliografía sugiere que los jueces Angoff deben ser expertos , aunque reconoce que los expertos son más estrictos y pueden tener mayor influencia sobre otros jueces . La Fig. 3 ofrece una idea de esta discrepancia al demostrar la interacción entre el rigor y la precisión (ser un experto). Parece que los paneles que no son ni demasiado estrictos ni demasiado indulgentes son más precisos, ya que son menos propensos al sesgo. Sin embargo, el nivel de Exactitud (la capacidad del individuo para estimar la puntuación de corte correcta) sólo tiene un pequeño impacto en la precisión de la puntuación de corte del panel. Esto es plausible, ya que la puntuación de corte se determina por la media de las puntuaciones de todos los jueces. Sin sesgo en el juicio (asumiendo que el rigor se mantiene constante), la puntuación media alcanzada por los jueces se acerca más al valor real a medida que aumenta el número de jueces. El impacto de la rigurosidad en la precisión es obvio (ya que era uno de los parámetros de la simulación), pero también sugiere que un panel que tenga sólo expertos o sólo no expertos dará una puntuación de corte menos precisa que la obtenida por un panel de experiencia mixta (Fig. 3), especialmente dada la asociación ya documentada entre la rigurosidad y la experiencia. En general, estos resultados sugieren que la composición óptima de un panel Angoff debería incluir una gama diversa de jueces en términos de experiencia y rigor (si se conoce). Dado el pequeño impacto del acuerdo de los jueces en la precisión de la puntuación de corte (varianza explicada = 5,1%), se recomienda esta práctica a pesar de la probabilidad de que aumente el desacuerdo de los jueces dentro del panel.

Este estudio encontró que el impacto de una segunda ronda de Angoff, en la que los jueces pueden ser influenciados por otros (es decir, la influencia del «Liderazgo»), es insignificante. Aunque este hallazgo fue insignificante incluso cuando se midió por el tamaño del efecto estandarizado (d de Cohen = -0,083), debe interpretarse con cautela, especialmente porque todas las medidas están estandarizadas y la segunda ronda fue diferente de la primera sólo por la influencia de los jueces. Esta conclusión está respaldada por estudios empíricos anteriores que demuestran que existen pequeñas diferencias entre dos rondas de Angoff. En este estudio no se incluyeron otros factores, como la presentación de los datos de las pruebas. Es posible que un método de ponderación diferente hubiera tenido un mayor impacto y esto debería comprobarse en futuros estudios. La literatura justifica la segunda ronda como una forma de aumentar el acuerdo entre los jueces, sin embargo, como se indicó anteriormente, el aumento del acuerdo dentro de los jueces puede tener poco impacto en la precisión de la puntuación de corte, lo que explica la falta de impacto observado de una segunda ronda en la precisión de la puntuación de corte. La conclusión inevitable de estos resultados un tanto sorprendentes sugiere que, siempre que haya suficientes jueces, el método original de Angoff sin modificar es lo suficientemente robusto y la discusión entre los panelistas no mejora significativamente la precisión de la puntuación de corte de Angoff.

Sin embargo, los métodos de Angoff modificados que proporcionan información adicional sobre el rendimiento de la prueba en sí (por ejemplo, los parámetros de los ítems y de los estudiantes basados en los análisis de la TRI) son bienvenidos. Es probable que estas modificaciones aumenten la precisión de los jueces sin afectar a la rigurosidad, ya que este conocimiento adicional está relacionado únicamente con los parámetros del test y no con el nivel de experiencia.

Limitaciones del estudio

Este estudio tiene limitaciones, siendo la principal que se trata de un estudio de simulación. La validez de los resultados depende de la validez de la simulación de los datos, especialmente de las variables y los supuestos. Asumimos que los atributos de los jueces se distribuyen normalmente, y no de forma no paramétrica. Naturalmente, es posible que un examen particular y/o un conjunto particular de examinados y/o un conjunto particular de jueces en la vida real tengan atributos diferentes de los descritos en este estudio y, por lo tanto, las recomendaciones de este estudio no serían aplicables para ellos. Sin embargo, dado el gran número (4.900) de paneles únicos generados para este estudio y la concordancia con resultados anteriores generados a partir de datos reales, es razonable creer que los resultados son generalizables. Además, como ya se ha explicado, los supuestos realizados en la generación de los datos se basan en las teorías de la medición educativa y de la configuración estándar y en los resultados obtenidos en la práctica. Nótese que, como se espera de un estudio de simulación, este estudio mide la calidad de un modelo en lugar de analizar cualquier dato observado.

Se necesita más investigación para identificar el impacto de otras características de los métodos de Angoff modificados en la precisión de las puntuaciones de corte, así como repetir este estudio utilizando supuestos modificados.