concordância intra e interavaliação
intra e inter-rater Concordância
Adalberto Campo-Ariias1 Edwin Herazo2
1 médico psiquiatra. Msc (c). Grupo de pesquisa de comportamento humano, instituto de pesquisa para o comportamento humano. Bogotá, Colômbia.
2 médico psiquiatra. Grupo de Pesquisa de Comportamento Humano, Instituto de Pesquisa de Comportamento Humano, Bogotá, Colômbia.
Mapa Adalberto Campo-Arias Research Grupo Human Comportamento Instituto Humancalle Comportamento Instituto 58 No. 5-24, Office 202 Bogotá, Colômbia Camias @ Comporadohumano .org
Recipado para avaliação: 28 de janeiro de 2010 aceito para publicação: 27 de abril de 2010
Resumo
Introdução: em estudos de concordância de psiquiatria, intra e interavaliação são importantes medir a confiabilidade ou reprodutibilidade das avaliações (entrevistas ou escalas hetero-noddent). Objetivo: apresentar alguns princípios sobre o processo de validação de entrevistas diagnósticas ou escalas hetero-cortadas e a gestão e compreensão dos testes estatísticos mais úteis para esses fins. Método: revisão da literatura. RESULTADOS: A concordância é entendida como o grau de concordância ou desacordo entre as avaliações feitas no mesmo assunto sucessivamente por uma avaliação ou entre dois ou mais entrevistadores. Este processo é da validação de instrumentos, seja para identificar possíveis casos ou confirmar a presença de um transtorno mental. Na concordância de interavaliação, dois ou mais psiquiatras realizam uma entrevista de forma independente e quase simultaneamente a uma pessoa e, portanto, o grau de concordância, a convergência ou concordância (ou não) pode ser estimado entre as avaliações e o consequente diagnóstico. A concordância intra-avaliadora é o grau de concordância no diagnóstico que possui o mesmo avaliador ao longo do tempo. O teste Kappa de Cohen é usado para estimar a concordância e são geralmente valores esperados maiores que 0,50; Mas é necessário conhecer a prevalência esperada de desordem mental, o número de avaliadores ou avaliações e o número de possíveis categorias de diagnóstico ou categorias.
Palavras-chave: Psicometria, escalas, Resultados de reprodutibilidade, revisão de validação, revisão.
Resumo
INTRODUÇÃO: Estudos de concordância intra e craters são importantes para medir a confiabilidade ou a reproduibilidade das avaliações (entrevistas ou escalas aplicadas por um avaliador) em psiquiatria. Objetivo: apresentar alguns princípios retardando o processo de validação de entrevistas diagnósticas ou escalas aplicadas por um avaliador e retardar o manuseio e compreensão de testes estatísticos mais úteis. Método: revisão da literatura. RESULTADOS: A concordância é entendida como o grau de concordância ou desacordo entre avaliações feitas à mesma sucessivamente por um avaliador ou entre dois ou mais entrevistadores. Este processo faz parte da validação de instrumentos, a confiabilidade da escala, a fim de identificar possíveis casos ou para confirmar a presença de transtorno mental. Concordância InterRater refere-se ao caso quando dois ou mais psiquiatras fazem uma entrevista de forma independente e quase simultaneamente à pessoa; Isso pode ajudar a estimar o grau de concordância, convergência ou concordância (e discordar, divergência ou discordância) entre as avaliações e os consequentes diagnósticos. A concordância intra-rater é o grau de acordo sobre o diagnóstico feito pelo mesmo avaliador em diferentes momentos. O Kappa de Cohen é usado para estimar concordância e valores superiores a 0,50 são esperados em geral. Para estimar discordenadamente o Kappa de Cohen é necessário saber anteriormente a prevalência esperada de transtorno mental, o número de avaliações ou avaliadores, e o número de categorias de diagnóstico possíveis.
Palavras-chave: psicométricos, escalas, reprodutibilidade dos resultados, Estudos de validação, revisão.
Introdução
O desenvolvimento de psiquiatria nas últimas décadas salva uma estreita relação com a implementação sistemática de critérios diagnósticos para o uso de prestadores de serviços de saúde mental, apesar das limitações desses critérios (1,2).
A padronização dos critérios de diagnóstico foi complementada pelo projeto e validação de entrevistas diagnósticas, com o objetivo de padronizar a maior parte do processo de avaliação de pessoas na prática clínica e Pesquisa epidemiológica (3). Entrevistas estruturadas ou semiestruturadas foram projetadas para aplicação por pessoas sem treinamento técnico ou profissional em saúde mental ou por pessoas com treinamento e experiência clínica formal (4).
No entanto, discussões acadêmicas iniciais sobre o possível impacto negativo dessa abordagem dos sintomas das pessoas que consultam por distúrbios mentais (1), revisão cuidadosa de manifestações clínicas e a apresentação de um diagnóstico, provisório ou mais revisado, demanda profissionais em saúde mental bem treinada e estudiosos e, em particular, psiquiatras, que em última análise são os profissionais chamados para liquidar as controvérsias diagnósticas em saúde mental. O diagnóstico em quase todos os contextos da medicina, e especialmente da psiquiatria, requer um julgamento clínico cuidadoso para dar aos sintomas uma conotação não adaptativa ou disfuncional, isto é, importância ou relevância clínica (5).
concordância é entendido como o grau de concordância, ou desacordo, entre as avaliações de que uma pessoa realiza sucessivamente para outra pessoa ou entre dois ou mais entrevistadores que fazem uma avaliação para o mesmo assunto (6,7). Este processo faz parte da validação de instrumentos, para verificar a confiabilidade, seja para identificar possíveis casos ou confirmar a presença de um transtorno mental (6).
O objetivo desta revisão é apresentar alguns princípios por considerar No processo de validação de entrevistas diagnósticas ou escalas hetero-cortadas, e o manuseio e compreensão dos testes estatísticos mais úteis para esses propósitos.
Princípios
O objetivo central de uma entrevista diagnóstica É definir qual pessoa reúne critérios para um transtorno mental e qual é o transtorno mental específico, independentemente de quem realiza a entrevista (8). A determinação da concordância no caso das escalas auto-heterociladas, que normalmente fornecem as pontuações, é realizada pelo processo como rewind de teste (teste-reteste, em inglês) (9). Este processo é válido de testes estatísticos, como a correlação de Pearson (10,11), o coeficiente de correlação intraclasse (12), o coeficiente de concordância de LIN (13) ou o coeficiente de concordância de Altman e Bland (14).
Tanto na validação de escalas quanto na validação de entrevistas, a segunda avaliação é realizada com um período definido, de acordo com o distúrbio avaliado. Supõe-se que durante esses sintomas permaneçam estáveis, com poucas ou pequenas variações, e que as condições de medição ou entrevista são semelhantes (15).
É importante ter em mente que em psiquiatria a mudança de diagnóstico Com a passagem do tempo é um fenômeno frequente. Este facto diagnóstico não estruturado ou padronizado, alterações nos critérios diagnósticos ou a mesma história natural dos transtornos mentais avaliados; isto é, a instabilidade ou alterações mostrando o conjunto de sintomas ao longo do tempo (15,16).
Outro ponto que deve ser mantido é que, se dois ou mais profissionais realizem uma entrevista com a mesma pessoa de forma independente ou O mesmo avaliador faz duas ou mais entrevistas em um período, um dos avaliadores ou uma das avaliações deve ser tomado como critérios de referência (padrão de ouro) (17). Os critérios de referência perfeitos são excepcionais em medicina, ainda mais em psiquiatria (18). No entanto, faz parte da suposição de que este critério considerado um ponto de comparação faz uma classificação perfeita de diagnósticos, sem erros; Isto é, com 100% de sensibilidade e 100% de especificidade (17-20). Esta comparação com um critério de referência também faz parte do critério (concorrente) validação de qualquer escala ou instrumento (21,22).
Concordância intra e interavaliação ou observadores
Se dois Ou mais psiquiatras realizam uma entrevista de forma independente e quase simultaneamente uma pessoa pode estimar o grau de concordância, convergência ou concordância (e desacordo, divergência ou discordância) entre avaliações e diagnósticos conseqüentes, se alguém tivesse um dos avaliadores como um critério de referência. Faz parte do fato de que ambos os profissionais têm o mesmo treinamento; Esta estimativa é chamada de concordância ou interobservador de interavaliação (6,23,24).
Por outro lado, se um psiquiatra executar duas ou mais avaliações para a mesma pessoa com a finalidade de saber ou confirmar um diagnóstico com O uso de uma técnica idêntica, que pode ser estabelecido no diagnóstico que possui o mesmo avaliador ao longo do tempo. Este cálculo é conhecido como concordância intra-avaliadora ou intraobserver (7,25). Sem dúvida, a concordância intra-avaliadora tem o viés que induz a memória do avaliador que pode se lembrar de detalhes da avaliação anterior que ele mesmo realizou (26).
testes estatísticos para a concordância interavaliando com resultados qualitativos
O diagnóstico em psiquiatria é, em geral, qualitativo ou categórico, ou seja, conclui que a pessoa coleta critérios ou não para um distúrbio mental no momento da avaliação ou em algum momento da vida (5). O número de possíveis categorias de diagnóstico é K e o número de avaliadores é M. Se a avaliação de um avaliador for comparada com a de outro avaliador que é tomada como um critério de referência e apenas dois diagnósticos são possíveis, ou seja, K = 2 e M = 2, uma tabela de contingência 2×2 pode ser construída, com um mínimo de quatro caixas (tetracóricas), para observar a concordância entre os avaliadores (24,27-29).
abaixo de um exemplo do estudo de um exemplo de um investigou a concordância de interavaliação. Em uma investigação que foi realizada em Navarra, Espanha, Landa e colaboradores quantificaram a concordância na identificação de um transtorno mental entre pediatras e profissionais de saúde mental. Na investigação, 207 crianças ou adolescentes foram incluídos, menores de 16 anos; Eles encontraram uma concordância observada (PO) para a presença de um distúrbio mental de 64,3% e um valor de Cohen Kappa Kappa de 0,58, com um intervalo de confiança de 95% entre 0,51 e 0,66 (30).
poucos estudos são realizados para explorar a concordância intraeva-luxuosa. Por exemplo, Conradsson e Colaboradores avaliados em 45 idosos em Umea, Suécia, as pontuações que o mesmo avaliador deu em escala para quantificar o equilíbrio, de um a três dias após a primeira aplicação. Este instrumento consiste em 14 perguntas, com um padrão de resposta politômica (Likert), com cinco opções qualificadas de zero a quatro. Eles relataram concordância intraevalua-dor para cada questão através do coeficiente de K ponderado e intervalo de confiança de 95%. Os valores de K (Kappa) ponderados foram encontrados entre 0,55 e 0,83 (31).
da mesma forma, é possível projetar uma tabela de contingência mais complexa, na qual é comparada, por exemplo, concordância no diagnóstico específico entre um grupo de pacientes que atendem aos critérios para várias categorias possíveis (k > 2), por exemplo, um distúrbio depressivo (transtorno depressivo maior, distrito de desordem, depressivo desordem devido a uma condição médica, transtorno depressivo devido ao uso de substância ou medicamento, ou transtorno depressivo não especificado). E ao mesmo tempo, dois avaliadores participam ou separam avaliações são realizadas no tempo (m = 2). Para esta situação, a tabela de contingência KXM será de 5 * 2 (25).
Como um exemplo de concordância de mais de duas categorias diagnósticas, Lin e colaboradores observaram a concordância em 579 adultos, depois de responder Uma escala disponível na Internet para identificar distúrbios depressivos (transtorno depressivo maior, transtorno depressivo inferior, sintomas depressivos subindrômicos e ausência de distúrbio depressivo), entre aplicativos que foram feitos a cada duas semanas (duas, quatro ou mais semanas) e relataram o K ponderado Valores: 0,80, 0,42 e 0,51, até a segunda semana, na quarta semana e mais semanas, respectivamente (32).
Concordância entre dois avaliadores ou entre duas ou mais observações do mesmo avaliador pode ser real ou produto ou resultado aleatório. Portanto, além disso, da concordância observada, é necessário estimar até que ponto a média aleatória ou probabilidade (33,34). O teste estatístico usado para este propósito é o teste K de Cohen (35). Quando é calculado a partir de duas categorias possíveis e dois avaliadores apenas, K = 2 e M = 2, de uma tabela de contingência 2 * 2, é chamada de Cohen Media ou, simplesmente, K. No entanto, em casos naqueles que são calculados com k > 2 (ou com um resultado ordinal) ou m > 2 é estimado um valor de K ponderado (24, 27,36) ( Veja a Tabela 1).
O KiT Cohen K pode ser calculado com a Fórmula 1. No entanto, os programas estatísticos mais utilizados No mundo, como Epiinfo (37), PASW (anteriormente, SPSS) (38), SAS (39) ou Stata (40), estimam mais rapidamente e relatam o intervalo de confiança de 95%, como uma medida de precisão de estimativa (41-43). Os valores de K podem ser entre zero e um, para uma maior proximidade com o maior acordo nas medições que foram feitas pelo mesmo avaliador ou diferentes avaliadores. A maneira como é interpretada de forma racional, este coeficiente é apresentado na Tabela 2 (44,45). A interpretação do teste estatístico deve considerar a utilidade clínica das medições em estudo (46).
consideração importante
Como a sensibilidade, a especificidade e os valores preditivos que são calculados com os dados de uma tabela de contingência de 2 * 2, o teste K é diretamente proporcional à frequência ou prevalência de transtorno mental que é estudado (47 48). Consequentemente, o K pode ser baixo, no entanto alto valor para concordância observada (49). O K é geralmente mais robusto quando a prevalência do distúrbio que é investigada é alta e enfraquecida quando a prevalência é baixa (50,51).
Tamanho da amostra
O tamanho da amostra é muitas vezes ignorada em estudos de validação ou observação do desempenho psicométrico dos instrumentos de saúde (18). O cálculo da amostra para um estudo de concordância e o cálculo de um valor K deve considerar vários pontos: o número de avaliadores ou avaliações (52) e o número de possíveis categorias de diagnóstico (53). Da mesma forma, a prevalência esperada ou estimada de transtorno mental deve ser ponderada, como se fosse estimar sensibilidade ou especificidade, e faz parte de uma tabela de contingência 2 * 2 (54). Tendo muito presente este ponto permite ter um número suficiente de participantes em cada caixa na tabela para construção (48,50-52,55). Isso alcança um melhor grau de precisão, com um intervalo de confiança mais estreito (42-44,56).
Conclusões
Entregação de estudos de concordância são importantes para medir a confiabilidade ou reprodutibilidade das avaliações (Entrevistas ou escalas) em psiquiatria. Para avaliações com resultados categóricos (qualitativos), o acordo além aleatório é estimado com o coeficiente de K de Cohen (média ou ponderada). O coeficiente de K pode ser encontrado entre zero e um, e geralmente esperado entre 0,41 e 0,60 ou mais. A prevalência de desordem ou distúrbios que são investigados podem afetar a estimativa do coeficiente. Uma amostra razoável seaBel é necessária para almoçar um valor de suficiente o suficiente.
Referências
2. Rogler lh. Fazendo sentido de mudanças históricas no manual diagnóstico e estatístico de distúrbios mentais: cinco provisões. J saúde soc comportamento. 1997; 38 (1): 9-20.
3. Páez f, Nicolini H. As entrevistas para o diagnóstico clínico em psiquiatria. Saúde mental. 1996; 19 (Supl 2): 19-25.
4. Calinou I, entrevistas de diagnóstico McClellan J.. Cur Psychiatry Rep. 2004; 6 (2): 88-95.
5. Eaton WW, Hall Al, Macdonald R, McKibben J. Identificação de caso em epidemiologia psiquiátrica: uma revisão. Int rev novamente psiquiatria. 2007; 19 (5): 497-507.
7. Alarcón Am, Medição de Saúde de Muñoz S.: Algumas considerações metodológicas. Rev Med Chile. 2008; 136 (1): 125-30.
8. Othmer E, Othmer SC. Dsm-iv-tr. A entrevista clínica. Fundamentos Tomo I. Madrid: Masson; 2001.
9. Sánchez R, Echery J. Validação de medir escalas em saúde. Rev saúde pública. 2004; 6 (3): 302-18.
10. Pearson K. Determinação do coeficiente de correlação. Ciência 1909; 30 (757): 23-5.
11. Correlação de Spearman C. Calculado de dados defeituosos. BR J Psicol. 1910; 3: 271-95.
12. Peça PE, Fleiss Jl. Correlações Intraclass: usos na avaliação da confiabilidade do avaliador. Psychol Bull. 1979; 86 (2): 420-8.
13. Lin L. Uma concordância correlati em coefffical para avaliar a reprodução. Biometrics. 1989; 45 (1): 255-68.
14. Bland JM, Altman DG. Métodos estatísticos para avaliar o acordo entre dois métodos de medição clínica. Lanceta 1986; 1 (8476): 307-10.
15. Lecrubier e refinamento do diagnóstico e classificação de doenças em psiquiatria. EUR Arco Psiquiatria Clin Neurosci. 2008; 258 supra 1: 6-11.
16. Vizinhos HW, Trieweiler SJ, Ford BC, Muroff Jr. Diferenças raciais no diagnóstico do DSM usando um instrumento semiestruturado: a importância do julgamento clínico no diagnóstico dos afro-americanos. J saúde soc comportamento. 2003; 44 (3): 237-56.
17. Rielgelman Rk, Hirsch RP Doença Definição: Teste de ouro. Bol of Sanit Panam. 1991; 111 (6): 534-38.
18. Knottnerus ha, van weel c, muris jwm. Avaliação de procedimentos diagnósticos. BMJ. 2002; 324 (7335): 477-80.
19. López-Jiménez F, Rohde Lef, Luna-Jiménez Ma. Problemas e soluções na interpretação dos testes diagnósticos. Rev Invest Clin. 1998; 50 (1): 65-72.
20. Castro-Jiménez Ma, Cabrera-Rodríguez D, Castro-Jiménez Mi. Avaliação de tecnologias de diagnóstico: conceitos básicos em um estudo transversal. Rev Colomb Obette Gynecol. 2007; 58 (1): 45-52.
21. Morgan Ga, Gliner Ja, Harmon RJ. Validade de medição. J am acad criança Ado-lesc psiquiatria. 2001; 40 (6): 729-31.
22. Bland JM, Altman DG. Validando escalas e índices. BMJ. 2002; 324 (7337): 606-7.
23. Ludbrook j.Técnicas estatísticas para comparar os medidores e métodos de medições: revisão crítica. Clin exp farmacol fisiol. 2002; 29 (7): 527-36.
24. Watkins MW, Acordo de Pacheco M. Interobserver em Pesquisa Comportamental: Importância e Cálculo. J comportamento educ. 2000; 10 (4): 205-12.
25. Kramer HC, Periyakoyl vs, Noda A. Kappa Coeficientes em pesquisa médica. Stat Med 2002; 21 (14): 2109-29.
26. Ibáñez C, Maganho C. O processo de avaliação clínica: cognitions avaliadores. Summa Psicol Ust 2009; 6 (1): 81-99.
27 McGinn T, Wyer PC, Newmann TB, Keitz, Leipzig R, para GG, et al. Dicas para os alunos para medicina baseada em evidências: 3. Medidas de variabilidade do observador (estatística Kappa). Claj. 2004; 171 (11): 1369-73.
28. Álvarez-Martínez Ele, Pérez-Fields E. Utilidade Clínica da Tabela 2×2. Rev eviden investir clin. 2009; 2 (1): 22-7.
29. Colimon k-m. Programa de estudo e programa de controle. Em: Colimon Km. Fundamentos da epidemiologia. 3a edição. Medellín: Corporação para investigações biológicas; 2010. p. 123-124.
30. LANTA N, Goñi A, García de Jalón E, López-Goñi JJ. Concordância no diagnóstico entre pediatra e saúde mental. Um Sist Sanit Navar. 2009, 32 (2): 161-8.
31 Conradsson M, Lundin-Olsson L, Lindelòf N, Littbrand H, Malmqvist L, Gustafson e et al. Escala de equilíbrio Berg: Confiabilidade de testes de teste intra-sarras entre pessoas mais velhas dependentes de atividades diárias e vivendo em instalações de cuidados residenciais. Phys. 2007; 87 (9): 1155-63.
32 Lin cc, bai ym, liu cy hsiao mc, chen jy tsai sj, et al. As ferramentas baseadas na Web podem ser usadas de forma confiável para detectar pacientes com maior transtorno depressivo e sintomas depressivos sub-nromais. BMC psiquiatria. 2007; 7: 12.
33. Schuster C. Kappa como parâmetro de um modelo de simetria para contrato de taxa. J de comportamento de educação. 2001; 26 (3): 331-42.
34. Barnhart HX, Song J, Haber MJ. Avaliando o acordo intra, inter e total com leituras replicadas. Stat Med 2005; 24 (9): 1371-84.
35. Cohen J. um coeficiente de agraio para escalas nominais. Psicol Educ que mea. 1960; 20 (3): 37-46.
36. Cohen J. Weighted Kappa: Acordo de escala nominal com provisão para desacordo escalonado ou crédito parcial. Psychol Bull. 1968; 70 (4): 213-20.
37. EPI-INFO 3.5.1. Atlanta: Centros de Controle e Prevenção de Doenças (CDC); 2008.
38. PAWS 18.0. Chicago: SPSS. Inc; 2009.
39. SAS 9. SAS Institute Inc.; 2009.
40. Stata 11 para Windows. Estação de faculdade: Statacorp LP; 2009.
42. Montori VM, Kleinbart J, Newman TB, Keitz S, Wyer PC, Moyer v, et al. Medidas de precisão (intervalos de confiança). Claj. 2004; 171 (6): 611-5.
43. CEPEDA-Cuervo E, Aguilar W, Cervantes V, Corrales M, Díaz I, Rodríguez D. Intervalos de Confiança e Intervalos de Credibilidade para uma Proporção. Rev Colomb Estat. 2008; 31 (2): 211-28.
44. Abrira V. O índice Kappa. Semerce. 2000; 27 (5): 247-9.
45. McGinn T, Wyer PC, Newmann TB, Keitz S, Leipzig R, Guyatt G, et al. Compreensão e calcular kappa. Claj. 2004; 171 (11): 1-9. Disponível em: http://www.cmaj.ca/cgi/data/171/11/1369/DC1/1.
46. CEPEDA MS, Pérez A. Estudos de Concordância. Em: Ruiz A, Gómez C, Londoño D. Pesquisa Clínica: Epidemiologia Clínica Aplicada: Bogotá: Centro Editorial Javericano, ECJA; 2001. p. 287-301.
47. FEINSTEIN AR, CICCHETTI DV. Alta Acordo Mas Baixo Kappa: I. Os problemas de dois paradoxos. J clin Epidemiol. 1990; 43 (6): 543-9.
48. Byrt T, Bispo J, Carlin JB. Viés, prevalência e kappa. J clin Epidemiol. 1993; 46 (5): 422-9.
49. Cicchetti DV, Feinstein AR. Alta Acordo, mas baixo Kappa: II. Resolvendo os paradoxos. J cli n epidemiol. 1990; 43 (6): 551-8.
50. Streiner DL. Aprender como differer: estatísticas de acordo e confiabilidade em psiquiatria. J pode psiquiatria. 1995; 40 (2): 60-6.
51. Guggenmoos-Holzmann I. O significado de Kappa: conceitos probabilísticos de confiabilidade e validade revisitados. J clin Epidemiol. 1996; 49 (7): 775-82.
52. Cantor AB. Cálculos de tamanho de amostra para Kappa de Cohen. Métodos psíquicos. 1996; 1 (2): 150-3.
53. Streiner DL. Diagnosticar testes: usando e abusando testes de diagnóstico e triagem. J pers avaliar. 2003; 81 (3): 209-19.
54. Flahamb A, Cadilhal M, Thomas G. O cálculo do tamanho da amostra deve ser realizado para a precisão do projeto nos estudos de teste diagnósticos. J clin Epidemiol. 2005; 58 (8): 859-62.
55. Kramer HC, Bloch da. Uma nota sobre a amostragem de caso-controle para estimar coeficientes Kappa. Biometrics. 1990; 46 (1): 49-59.
56. Scotto Mg, Garcés em. Executando corretamente em saúde pública, estimativas de pontos, intervalos de confiança e contratações hipotéticas. Mex saúde pública. 2003; 45 (6): 505-11.
Conflito de interesses: os autores se manifestam que não têm conflito de interesses neste artigo.