Insights into the Angoff method: results from a simulation study

Este estudo utilizou dados simulados baseados em 4900 painéis únicos de juízes, o que permitiu medir a diferença entre os painéis determinados pela Angoff cut-scores e o cut-score ‘verdadeiro’. As principais conclusões foram:

  1. (a)

    O aumento do número de juízes reduz a variação das notas de corte do painel mas, mais importante, também aumenta a precisão das notas de corte do painel; contudo, o efeito na precisão foi menos evidente nos testes com um grande número de itens;

  2. (b)

    Stringency dos juízes e, para um efeito menor, a Precisão dos juízes afeta a precisão das notas de corte; e

  3. (c)

    Aplicar a segunda rodada do processo Angoff sem considerar os examinadores ou os dados dos testes não tem um impacto significativo na precisão das notas de corte.

Os resultados são discutidos em três secções. A primeira discute o mérito e a adequação da simulação; a segunda discute os resultados e suas implicações para pesquisadores e profissionais; e a terceira seção discute o mérito e as limitações deste estudo e possíveis direções para pesquisas posteriores.

A simulação

Dados simulados foram usados anteriormente em pesquisas de avaliação educacional para testes baseados no conhecimento e para avaliação baseada no desempenho . Contudo, os estudos de simulação no campo da definição de padrões são escassos e não foi encontrado nenhum que simulasse as decisões dos juízes com base nos seus atributos simulados e os comparasse com um ‘valor verdadeiro’ simulado . A maioria dos estudos de simulação anteriores nesta área simularam as notas de desempenho/exame dos alunos para serem usadas pelos painéis Angoff, compostos por juízes reais, mas nenhum destes estudos mediu os atributos dos juízes e o seu impacto na precisão das notas de corte . B. Clauser et al. compararam as estimativas dos juízes de proporção de respostas corretas com dados empíricos de proporção de respostas corretas dos examinadores. Esta abordagem, embora importante, mede a capacidade dos juízes de estimar o desempenho dos examinadores num determinado teste, mas sem qualquer prova empírica que sugira o cut-score que distingue a competência da incompetência . O estudo atual se baseia em trabalhos anteriores e amplia o uso de simulação neste campo, simulando os atributos dos juízes que são supostos afetar suas decisões, bem como medindo a precisão do cut-score através da comparação do cut-score determinado pelos painéis com o cut-score ‘verdadeiro’.

Todos os estudos anteriores identificados na literatura utilizaram a variância dentro dos juízes (ou concordância entre eles) como uma medida de precisão ou precisão. Usando tal medida significa que se um painel de juízes fosse muito rigoroso mas todos concordassem entre si, a pontuação acordada seria considerada mais precisa do que uma pontuação de corte obtida por um painel equilibrado, compreendendo alguns juízes rigorosos e alguns indulgentes, o que naturalmente produziria uma variância maior. Na vida real não há forma de conhecer a verdadeira pontuação que distingue entre competência e incompetência, por isso é utilizada a definição de padrões. Por exemplo (, p. 158) apresentou dados mostrando que três painéis diferentes estimando os mesmos itens produzem diferentes pontos de corte acordados e diferentes variâncias entre os avaliadores mesmo quando se usa o mesmo método de ajuste padrão (Angoff ou Nedelsky). Outros estudos, (por exemplo) que utilizaram análise de generalizabilidade para medir a replicabilidade de um procedimento Angoff, concluíram que uma grande parte da variância total do erro veio dos juízes, mas não tinham um padrão de ouro com o qual medir o desvio do verdadeiro cut-score. Isto é óbvio, uma vez que a análise de generalisabilidade se baseia em fontes de erros, assumindo que a média está muito próxima da pontuação verdadeira. Ao medir a precisão de um processo de ajuste padrão, estudos de simulação como o apresentado neste trabalho, têm a vantagem única de incluir a pontuação verdadeira como um padrão válido para comparação .

A lógica que justifica a simulação de cada uma das variáveis é discutida em detalhes na seção Método e não é repetida aqui. Entretanto, é válido simular os atributos dos juízes? Verheggen et al. demonstraram que na definição de um padrão, a decisão individual de um juiz sobre um item individual reflete o ‘rigor inerente do juiz e seu conhecimento relacionado ao assunto’ (, p. 209). Esta noção foi amplamente mencionada na literatura . Assim, em termos de medida , se todos os itens são igualmente difíceis (i.e. nível de dificuldade =0) então o cut-score resultante é composto pela soma de vieses i.e. Stringency dos juízes e soma de erros aleatórios i.e. Precisão e outros erros aleatórios. Como estudos anteriores sugerem que os especialistas são mais rigorosos que os não especialistas, e são considerados como tendo maior influência dentro do painel , incluímos estas suposições nos parâmetros de simulação. O grau absoluto em que cada um dos atributos afeta o julgamento é desconhecido, portanto a simulação foi composta de parâmetros padronizados (DP ≅ 1) para permitir que os impactos relativos de cada parâmetro sobre os pontos de corte fossem determinados. Note-se que, como todos os estudos de simulação, o estudo atual mede interações para determinadas condições simuladas, para uma melhor compreensão de um modelo de avaliação. Este estudo não se trata de medir a natureza . No entanto, este estudo é semelhante à pesquisa usando dados reais, na medida em que um estudo mede o impacto observado numa determinada amostra e um estudo diferente aplica medidas semelhantes numa amostra diferente. Muitas vezes os resultados são diferentes, mas a diferença não sugere que um estudo seja mais correto do que o outro. Dada a concordância com estudos anteriores que utilizavam dados reais , sugere-se que os resultados deste estudo de simulação seriam aplicáveis a qualquer população de juízes com atributos não diferentes dos simulados neste estudo.

Overall, um estudo de simulação sempre produz resultados que são determinados pelos parâmetros da simulação. A contribuição deste estudo para a literatura de configuração padrão é que ele mede o impacto dos atributos dos juízes a nível individual na precisão do cut-score do painel. Para o nosso conhecimento, estas associações nunca foram medidas antes, quer através de dados simulados ou observados. A concordância dos resultados deste estudo com estudos anteriores, particularmente onde os resultados poderiam ser comparados (por exemplo, Fig. 2 vs. trabalho de Hurtz e Hertz , Fig. 1 ), suporta a validade das suposições e parâmetros da simulação, adicionando assim força aos resultados do estudo.

Implicações dos resultados

Angoff é frequentemente usado para estabelecer padrões em avaliações educacionais em larga escala . No contexto da educação médica, Angoff tem sido aplicado em testes de conhecimento médico (por exemplo, MCQ’s ) , ou exames de habilidades clínicas (por exemplo, OSCE) .

Em exames clínicos (por exemplo, OSCE), o número de itens (ou estações) pode estar entre 10 e 20 . Assim, dado que o aumento do número de itens é improvável, por razões de viabilidade, nossos resultados sugerem que se Angoff fosse usado, uma combinação ótima seria de cerca de 30 juízes para 10 itens, com um mínimo de 20 juízes para 15 itens ou mais. Para os MCQs, onde o número de itens é grande , um mínimo de 15 juízes deve ser suficiente para estabelecer uma pontuação de corte de Angoff defensável para exames que consistem em 80 itens ou mais (Fig. 2). Note-se que o aumento do número de itens forneceu mais pontos de dados , portanto maior confiabilidade e, portanto, também é provável que aumente a precisão.

Estas descobertas estão dentro do intervalo recomendado na literatura, sugerindo que uma pontuação aceitável poderia ser alcançada se 5-25 juízes fossem empregados. Como não existe um padrão de ouro para qualquer definição de ‘o que é suficientemente bom’ na definição padrão , a aplicação do Angoff com diferentes números de juízes pode ser justificável, dependendo do contexto dos exames.

Estudos anteriores usando dados observados determinaram a precisão do Angoff pela variância entre os juízes. Outros estudos que utilizaram dados observados utilizaram parâmetros IRT ou cut-scores gerados por métodos alternativos para estimar a qualidade dos cut-scores gerados pela Angoff . Estes métodos são apropriados quando os dados observados são utilizados. No estudo atual, a precisão foi determinada pelo desvio da pontuação de corte do painel em relação à pontuação de corte ‘verdadeira’. A diferença entre estas definições é mais do que semântica. Jalili et al. e outros usaram medidas indiretas para estimar a validade, como por exemplo, Jalili et al. afirmaram: “Não temos um padrão de referência pelo qual testar a validade”. Sua solução elegante foi usar a correlação entre as notas de corte dos painéis e as notas médias observadas (notas dadas para os examinadores) para cada item como uma medida para estimar a validade. O estudo atual tem a vantagem de ter um padrão de referência para testar a validade, uma vez que foi incluído nos parâmetros de simulação (pontuação verdadeira = 0). Nosso achado de que a correlação foi baixa (r = .226, p < .0001) indica que, embora houvesse uma correlação, o DS dentro do painel (concordância dos juízes) explicou apenas 5,1 % da variância na precisão do cut-score. Este achado é importante porque sugere que embora a identificação da fonte de erro (ou seja, em estudos de generalização) seja uma forma válida de medir a confiabilidade de um método de ajuste padrão , usando o cut-score verdadeiro, ou um proxy aceitável do mesmo (se forem usados dados reais), é uma referência inestimável para medir a validade . Consequentemente, este achado suporta um repensar da composição dos painéis Angoff.

A literatura sugere que os juízes da Angoff devem ser peritos , mas reconhece que os peritos são mais rigorosos e podem ter maior influência sobre outros juízes . A figura 3 fornece alguma visão desta discrepância, demonstrando a interação entre Stringency e Accuracy (ser um especialista). Parece que os painéis que não são demasiado rigorosos nem demasiado indulgentes são mais precisos, uma vez que são menos propensos a enviesamentos. No entanto, o nível de Precisão (capacidade individual de estimar a pontuação correcta) tem apenas um pequeno impacto na precisão da pontuação do painel. Isto é plausível, uma vez que o cut-score é determinado pela média de todas as pontuações dos juízes. Sem preconceitos no julgamento (assumindo que a Stringency é mantida constante), a pontuação média obtida pelos juízes aproxima-se do valor real à medida que o número de juízes aumenta . O impacto de Stringency na precisão é óbvio (como foi um dos parâmetros da simulação), mas também sugere que um painel que tem apenas especialistas ou apenas não especialistas produziria uma pontuação de corte menos precisa do que uma pontuação de corte obtida por um painel de especialistas mistos (Fig. 3), particularmente dada a associação já documentada entre rigor e perícia . No geral, estas conclusões sugerem que a composição ideal de um painel Angoff deve incluir uma gama diversificada de juízes em termos de perícia e rigor (se conhecido). Dado o pequeno impacto da concordância dos juízes na precisão das notas (variância explicada = 5.1 %), esta prática é recomendada apesar da probabilidade de aumentar a discordância entre juízes dentro do painel.

Este estudo concluiu que o impacto de uma segunda ronda da Angoff, onde os juízes podem ser influenciados por outros (i.e. influência da ‘Liderança’), é insignificante. Embora este achado tenha sido insignificante mesmo quando medido pelo tamanho do efeito padronizado (Cohen’s d = -0,083), precisa ser interpretado com cautela, particularmente porque as medidas são todas padronizadas e a segunda rodada foi diferente da primeira apenas pela influência dos juízes. Esta constatação é apoiada por estudos empíricos anteriores que demonstraram pequenas diferenças entre duas rondas de Angoff . Outros fatores, como a apresentação dos dados do teste, não foram incluídos neste estudo. É possível que um método de ponderação diferente tivesse produzido um impacto maior e isto deveria ser testado em estudos futuros. A literatura justifica a segunda ronda como forma de aumentar a concordância entre os juízes, mas como indicado acima, aumentar a concordância entre os juízes pode ter pouco impacto na precisão das notas de corte, o que explica a falta de impacto observada de uma segunda ronda na precisão das notas de corte. A conclusão inevitável destes resultados algo surpreendentes sugere que, desde que haja juízes suficientes, o método Angoff original não modificado é suficientemente robusto e a discussão entre os jurados não melhora significativamente a precisão da pontuação de corte do Angoff.

Nonetheless, os métodos Angoff modificados que fornecem informações adicionais sobre o desempenho do teste em si (por exemplo, parâmetros do item e do aluno baseados em análises de IRT) são bem-vindos. Tais modificações provavelmente aumentarão a precisão dos juízes sem impacto no Stringency, já que este conhecimento adicional está relacionado apenas aos parâmetros do teste e não ao nível de conhecimento.

Limitações do estudo

Este estudo tem limitações, sendo a principal delas que é um estudo de simulação. A validade dos resultados depende da validade da simulação dos dados, especialmente das variáveis e das suposições. Assumimos que os atributos dos juízes são normalmente distribuídos, ao invés de não-paramétricos. Naturalmente, é possível que um exame em particular e/ou um conjunto particular de examinadores e/ou um conjunto particular de juízes na vida real tenha atributos diferentes dos descritos neste estudo e, portanto, as recomendações deste estudo não seriam aplicáveis a eles. Contudo, dado o grande número (4900) de painéis únicos gerados para este estudo e a concordância com resultados anteriores gerados a partir de dados reais , é razoável acreditar que os resultados são generalizáveis. Além disso, como já foi explicado, as suposições feitas na geração dos dados são fundamentadas em teorias de medição educacional e de configuração padrão e em resultados na prática. Note que, como esperado de um estudo de simulação, este estudo mede a qualidade de um modelo em vez de analisar quaisquer dados observados.

Outras pesquisas são necessárias para identificar o impacto de outras características dos métodos Angoff modificados na precisão das notas de corte, bem como repetir este estudo usando suposições modificadas.