Concordancia intra- e interevaluación
Concordancia intra e inter-rater
Adalberto Campo-Arias1 Edwin Herazo2
1 médico psiquiatra. MSC (C). Grupo de investigación de comportamento humano, Instituto de Investigación de Comportamento Humano. Bogotá, Colombia.
2 médico psiquiatra. Grupo de investigación de comportamento humano, Instituto de Investigación de Comportamento Humano, Bogotá, Colombia.
Mapa Adalberto Campo-Arias Instituto de Investigación Human Human Humancalle Comportamento Instituto 58 No. 5-24, Office 202 Bogotá, Colombia Camparias @ Comportadohumano .org
Recuperado para a avaliación: 28 de xaneiro de 2010 Aceptado para a publicación: 27 de abril de 2010
Resumo
Introdución: en Psiquiatría, Intra e Interevaluación Estudos de concordancia son importantes para medir a fiabilidade ou reproducibilidade das avaliacións (entrevistas ou escalas hetero-noddent). Obxectivo: presentar algúns principios sobre o proceso de validación de entrevistas de diagnóstico ou escalas hetero-nicked ea xestión e comprensión das probas estatísticas máis útiles para estes fins. Método: Revisión da literatura. Resultados: a concordancia enténdese como o grao de acordo ou desacordo entre as avaliacións realizadas ao mesmo tema sucesivamente por unha avaliación ou entre dous ou máis entrevistadores. Este proceso é da validación de instrumentos, xa sexa para identificar posibles casos ou confirmar a presenza dun trastorno mental. Na interevaluación de concordancia, dous ou máis psiquiatras realizan unha entrevista de forma independente e case simultaneamente a unha persoa e, polo tanto, o grao de acordo, a converxencia ou a concordancia (ou doutra forma) pódense estimar entre as avaliacións eo consecuente diagnóstico. A concordancia intra-avaliación é o grao de acordo no diagnóstico que ten o mesmo avaliador ao longo do tempo. A proba de Kappa de Cohen úsase para estimar a concordancia e xeralmente son valores esperados superiores a 0,50; Pero é necesario coñecer a prevalencia esperada de trastorno mental, o número de avaliadores ou avaliacións eo número de posibles categorías ou categorías de diagnóstico.
Palabras clave: Psicometría, escalas, reprodución de resultados, estudos de validación, revisión.
Resumo
Introdución: estudos de concordancia intra- rater son importantes para medir a fiabilidade ou a reprimibilidade das avaliacións (entrevistas ou escalas aplicadas por un rater) en psiquiatría. Obxectivo: presentar algúns principios retardando o proceso de validación de entrevistas ou escalas de diagnóstico aplicado por un rater e retardando o manexo e comprensión de probas estatísticas máis útiles. Método: Revisión da literatura. Resultados: a concordancia enténdese como o grao de acordo ou desacordo entre as avaliacións realizadas do mesmo sucesivamente por un avaliador ou entre dous ou máis entrevistadores. Este proceso forma parte da validación de instrumentos, a fiabilidade da escala, a fin de identificar posibles casos ou confirmar a presenza de trastorno mental. O interrrater concordancia refírese ao caso cando dous ou máis psiquiatras fan unha entrevista de forma independente e case simultaneamente á persoa; Isto pode axudar a estimar a nota de acordo, converxencia ou concordancia (e desacordo, diverxencia ou discordancia) entre as avaliacións eo consecuente diagnóstico. A concordancia intra-rater é o grao de acordo sobre o diagnóstico feito polo mesmo rater en diferentes momentos. Kappa de Cohen úsase para estimar a concordancia e os valores superiores a 0,50 espérase en xeral. Para estimar de xeito relacionado a Kappa de Cohen é necesario coñecer anteriormente a prevalencia esperada do trastorno mental, o número de avaliacións ou os avaliadores e o número de posibles categorías de diagnóstico.
Palabras clave: psicometría, escalas, reproducibilidade dos resultados, Estudos de validación, revisión.
Introdución
O desenvolvemento da psiquiatría nas últimas décadas garda unha estreita relación coa implementación sistemática de criterios de diagnóstico para o uso de provedores de servizos de saúde mental, a pesar das limitacións destes criterios (1,2).
A estandarización dos criterios de diagnóstico foi complementada polo deseño e validación das entrevistas de diagnóstico, co propósito de estandarizar a maior parte do proceso de avaliación das persoas en práctica clínica e Investigación epidemiolóxica (3). As entrevistas estruturadas ou semiestructuradas foron deseñadas para a aplicación por persoas sen formación técnica ou profesional na saúde mental ou por persoas con formación e experiencia clínica formal (4).
Con todo, as discusións académicas iniciais sobre o posible impacto negativo deste enfoque dos síntomas das persoas que consultan por trastornos mentais (1), unha revisión coidadosa das manifestacións clínicas e a presentación dun diagnóstico, provisional ou máis Revisado, esixe profesionais en saúde mental e eruditos ben adestrados e, en particular, os psiquiatras, que en definitiva son os profesionais chamados para resolver as controversias de diagnóstico na saúde mental. O diagnóstico en case todos os contextos de medicina, e especialmente da psiquiatría, require un xuízo clínico coidadoso para dar síntomas unha connotación non adaptativa ou disfuncional, é dicir, importancia ou relevancia clínica (5).
concordancia é Entendido como o grao de acordo ou desacordo, entre as avaliacións que unha persoa realiza sucesivamente a outra persoa ou entre dous ou máis entrevistadores que realizan unha avaliación ao mesmo tema (6,7). Este proceso forma parte da validación dos instrumentos, para verificar a fiabilidade, xa sexa para identificar posibles casos ou confirmar a presenza dun trastorno mental (6).
O obxectivo desta revisión é presentar algúns principios por considerar No proceso de validación de entrevistas de diagnóstico ou escalas hetero-nicked, eo manexo e comprensión das probas estatísticas máis útiles para estes fins.
Principios
O obxectivo central dunha entrevista diagnóstica É de definir que persoa recolle criterios para un trastorno mental e cal é o trastorno mental específico, independentemente de quen realice a entrevista (8). A determinación da concordancia no caso das escalas auto-heterociladas, que normalmente dá puntuacións, realízase polo procedemento como proba-rebobinado (Test-Retest, en inglés) (9). Este proceso é válido a partir de probas estatísticas, como a correlación de Pearson (10,11), o coeficiente de correlación intraclass (12), o coeficiente de concordancia de LIN (13) ou o coeficiente de concordancia de Altman e Bland (14).
tanto na validación das escalas como na validación das entrevistas, a segunda avaliación realízase cun período definido, segundo o trastorno avaliado. Suponse que durante estes síntomas permanecen estables, con poucas ou pequenas variacións e que as condicións de medición ou entrevista son similares (15).
É importante ter en conta que na psiquiatría o cambio de diagnóstico Co paso do tempo é un fenómeno frecuente. Este feito de diagnóstico non estruturado ou estandarizado, cambia nos criterios de diagnóstico ou a mesma historia natural dos trastornos mentais que se avalían; é dicir, a inestabilidade ou os cambios que mostran o conxunto de síntomas ao longo do tempo (15,16).
Outro punto que se debe manter é que se dous ou máis profesionais realizan unha entrevista coa mesma persoa de forma independente ou a O mesmo avaliador fai dúas ou máis entrevistas nun período, un dos avaliadores ou unha das avaliacións debe tomarse como criterio de referencia (patrón de ouro) (17). Os criterios de referencia perfectos son excepcionais na medicina, aínda máis en Psiquiatría (18). Non obstante, forma parte da suposición de que este criterio que se considera un punto de comparación fai unha clasificación perfecta de diagnósticos, sen erros; É dicir, con 100% de sensibilidade e especificidade do 100% (17-20). Esta comparación cun criterio de referencia tamén forma parte da validación do criterio (concorrente) de calquera escala ou instrumento (21,22).
Intra e interevaluación de concordancia ou observadores
Se dous Ou máis psiquiatras realizan unha entrevista de forma independente e case simultaneamente unha persoa pode estimar o grao de acordo, converxencia ou concordancia (e desacordo, diverxencia ou discordancia) entre avaliacións e diagnósticos consecuentes, se se leva a un dos avaliadores como criterio de referencia. Forma parte do feito de que ambos profesionais teñen a mesma formación; Esta estimación chámase concordancia ou interobreserver interevaluación (6,23,24).
Por outra banda, se un psiquiatra realiza dúas ou máis avaliacións á mesma persoa co propósito de coñecer ou confirmar un diagnóstico con O uso dunha técnica idéntica, de acordo co diagnóstico que ten o mesmo avaliador ao longo do tempo. Este cálculo é coñecido como concordancia intra-avaliación ou intraobserver (7.25). Sen dúbida, a concordancia intra-avaliación ten o sesgo que induce a memoria do evaluador que pode lembrar detalles da avaliación anterior que el mesmo realizou (26).
Probas estatísticas para a avaliación de concordancia con resultados cualitativos
O diagnóstico da psiquiatría é, en xeral, cualitativo ou categórico, é dicir, conclúese que a persoa recolle criterios ou non para un trastorno mental no momento da avaliación ou nalgún momento da vida (5). O número de posibles categorías de diagnóstico é K eo número de avaliadores é M. Se a avaliación dun avaliador compárase con outro avaliador que se toma como criterio de referencia e só dous diagnósticos son posibles, é dicir, k = 2 e m = 2, pódese construír unha táboa de continxencia 2×2, cun mínimo de catro caixas (tetracóricas), para observar a concordancia entre avaliadores (24,27-29).
Abaixo dun exemplo do estudo dun mesmo investigou a concordancia interevaluación. Nunha investigación que se celebrou en Navarra, España, Landa e Colaboradores cuantificaron a concordancia na identificación dun trastorno mental entre pediatras e profesionais da saúde mental. Na investigación, incluíronse 207 nenos ou adolescentes, menores de 16 anos; Atoparon unha concordancia observada (PO) por presenza dun trastorno mental do 64,3% e un cohen kappa kappa valor de 0,58, cun intervalo de confianza do 95% entre 0,51 e 0,66 (30).
poucos estudos realízanse para explorar a concordancia intreeva-luxosa. Por exemplo, Conradsson e colaboradores valoraron en 45 anciáns en Umea, Suecia, as puntuacións que o mesmo avaliador deu a escala para cuantificar o equilibrio, dun a tres días despois da primeira aplicación. Este instrumento consta de 14 preguntas, cun patrón de resposta politótica (Likert), con cinco opcións cualificadas de cero a catro. Informaron de concordancia intreevalua-dor por cada pregunta a través do coeficiente K PIGHTED e un intervalo de confianza do 95%. Os valores ponderados K (KAPPA) foron atopados entre 0,55 e 0,83 (31).
Do mesmo xeito, é posible deseñar unha táboa de continxencia máis complexa, na que se compara, por exemplo , concordancia no diagnóstico específico entre un grupo de pacientes que cumpren os criterios de varias categorías posibles (k > 2), por exemplo, un trastorno depresivo (maior trastorno depresivo, distrito de desorde, depresivo trastorno debido a unha condición médica, trastorno depresivo debido ao uso de substancia ou medicamento, ou trastorno depresivo non especificado). E ao mesmo tempo que participan dous avaliadores ou as avaliacións separadas realízanse a tempo (M = 2). Para esta situación, a táboa de continxencia KXM será de 5 * 2 (25).
Como exemplo dun estudo de concordancia de máis de dúas categorías de diagnóstico, Lin e colaboradores observaron a concordancia en 579 adultos, despois de responder unha escala dispoñible en Internet para identificar trastornos depresivos (trastorno depresivo maior, trastorno depresivo menor, síntomas depresivos subindrómicos e ausencia de trastorno depresivo), entre as aplicacións que se fixeron cada dúas semanas (dúas, catro ou máis semanas) e informou o k ponderado Valores: 0,80, 0,42 e 0,51, ata a segunda semana, na cuarta semana e máis semanas, respectivamente (32).
A concordancia entre dous avaliadores ou entre dúas ou máis observacións do mesmo avaliador pode ser real ou produto ou resultado aleatorio. Polo tanto, ademais, da concordancia observada, é necesario estimar ata en que medida a media aleatoria ou a probabilidade (33,34). A proba estatística utilizada para este fin é a proba K Cohen (35). Cando se calcula a partir de dúas posibles categorías e só dous avaliadores, k = 2 e m = 2, dunha táboa de continxencia 2 * 2, chámase Cohen Media ou, simplemente, K. Con todo, en casos nos que se calculan con k > 2 (ou cun resultado ordinal) ou m > estímase que un valor K ponderado (24, 27,36) ( Vexa a táboa 1).
O cohen kid k pode ser calculado coa fórmula 1. Con todo, os programas estatísticos máis utilizados No mundo, como Epiinfo (37), Pasw (anteriormente, SPSS) (38), SAS (39) ou STATA (40), estiman máis rápido e informa o intervalo de confianza do 95%, como unha medida de precisión de estimación (41-43). Os valores de K poden estar entre cero e un, a unha maior proximidade co maior acordo nas medidas que foron feitas polo mesmo avaliador ou avaliadores diferentes. O xeito en que se interpreta dun xeito racional este coeficiente preséntase na Táboa 2 (44,45). A interpretación da proba estatística debe considerar a utilidade clínica das medidas en estudo (46).
consideración importante
como a sensibilidade, a especificidade e os valores predictivos calculados cos datos dunha táboa de continxencia de 2 * 2, a proba K é directamente proporcional á frecuencia ou prevalencia do trastorno mental que se estuda (47 48). En consecuencia, o K pode ser baixo, con todo valor de concordancia observada (49). O K é normalmente máis robusto cando a prevalencia do trastorno que se investigue é alta e debilitada cando a prevalencia é baixa (50,51).
Tamaño de mostra
O tamaño da mostra é a miúdo ignorado en estudos de validación ou observación do desempeño psicométrico dos instrumentos de saúde (18). O cálculo da mostra para un estudo de concordancia e o cálculo dun valor K debe considerar varios puntos: o número de avaliadores ou avaliacións (52) eo número de posibles categorías de diagnóstico (53). Do mesmo xeito, a prevalencia esperada ou estimada do trastorno mental debe ser reflexionada, coma se fose estimar a sensibilidade ou a especificidade, e é parte dunha táboa de continxencia 2 * 2 (54). Tendo moi presente este punto permite ter un número suficiente de participantes en cada caixa da táboa para a construción (48.50-52,55). Isto logra un mellor grao de precisión, cun intervalo de confianza máis estreito (42-44,56).
As conclusións
Inter-avaliación Os estudos de concordancia son importantes para medir a fiabilidade ou reproducibilidade das avaliacións (Entrevistas ou escalas) en Psiquiatría. Para avaliacións con resultados categóricos (cualitativos), o acordo máis alá do aleatorio estímase co coeficiente de K de Cohen (media ou ponderada). O coeficiente de K pode atoparse entre cero e un, e normalmente esperado entre 0,41 e 0,60 ou máis. A prevalencia de trastornos ou trastornos que se investigan poden afectar a estimación do coeficiente. Unha mostra de mostra razoable é necesaria para xantar un valor preciso suficiente.
Referencias
2. Rogler LH. Ten sentido de cambios históricos no manual de diagnóstico e estatístico de trastornos mentais: cinco disposicións. J Health Soport Combat. 1997; 38 (1): 9-20.
3. Páez F, Nicolini H. As entrevistas para o diagnóstico clínico na psiquiatría. Saúde mental. 1996; 19 (SUPL 2): 19-25.
4. Calinou I, McClellan J. Entrevistas de diagnóstico. Cur Psychiatry Rep. 2004; 6 (2): 88-95.
5. Eaton WW, Hall Al, MacDonald R, McKibben J. Case Identificación en epidemioloxía psiquiátrica: unha revisión. Int revelo psiquiatría. 2007; 19 (5): 497-507.
7. Alarcón Am, Muñoz S. Medida de saúde: algunhas consideracións metodolóxicas. Rev Med Chile. 2008; 136 (1): 125-30.
8. Othmer E, Othmer SC. DSM-IV-TR. A entrevista clínica. Fundamentos Tomo I. Madrid: Masson; 2001.
9. Sánchez R, Echeverry J. Validación de medición de escalas en saúde. Rev saúde pública. 2004; 6 (3): 302-18.
10. Pearson K. Determinación do coeficiente de correlación. Ciencia 1909; 30 (757): 23-5.
11. Spearman C. Correlación calculada a partir de datos defectuosos. BR J Psychol. 1910; 3: 271-95.
12. SHOUR PE, FLEISS JL. Correlacións intraclass: usa na avaliación da fiabilidade do rater. Psychol Bull. 1979; 86 (2): 420-8.
13. Lin L. un correlati de concordancia en coeficiente para avaliar a reprodución. Biometría 1989; 45 (1): 255-68.
14. Bland JM, Altman DG. Métodos estatísticos para avaliar o acordo entre dous métodos de medida clínica. Lancet. 1986; 1 (8476): 307-10.
15. Locrubier e refinamento do diagnóstico e clasificación da enfermidade na psiquiatría. EUR Arch Psiquiatría Clin Neurosci. 2008; 258 suppl 1: 6-11.
16. Veciños HW, Trieweiler SJ, Ford BC, Muroff Jr. Diferenzas raciais no diagnóstico DSM usando un instrumento semiestructurado: a importancia do xuízo clínico nos diagnósticos dos afroamericanos. J Health Soport Combat. 2003; 44 (3): 237-56.
17. RIELGELMAN RK, Hirsch RP Enferment Definición: Golden Test. Bol de Sanit Panam. 1991; 111 (6): 534-38.
18. Knottnerus Ha, Van Weel C, Muris JWM. Avaliación de procedementos de diagnóstico. BMJ. 2002; 324 (7335): 477-80.
19. López-Jiménez F, Rohde Lef, Luna-Jiménez Ma. Problemas e solucións na interpretación das probas de diagnóstico. Rev Invest Clin. 1998; 50 (1): 65-72.
20. Castro-Jiménez MA, Cabrera-Rodríguez D, Castro-Jiménez Mi. Avaliación de tecnoloxías de diagnóstico: conceptos básicos nun estudo de sección transversal. Rev Colomb Obette Gynecol. 2007; 58 (1): 45-52.
21. Morgan GA, Gliner Ja, Harmon RJ. Valididade de medición. J Am Acad Child Ado-Lesc psiquiatría. 2001; 40 (6): 729-31.
22. Bland JM, Altman DG. Validar escalas e índices. BMJ. 2002; 324 (7337): 606-7.
23. Ludbrook J.Técnicas estatísticas para comparar medidores e métodos de medición: revisión crítica. Clin Exp Pharmacol Physiol. 2002; 29 (7): 527-36.
24. Watkins MW, Pacheco M. Interobserver Acordo en investigación de comportamento: importancia e cálculo. J comporta educ. 2000; 10 (4): 205-12.
25. Kramer HC, Periyakoyl vs, Noda A. Kappa Coeficientes en investigación médica. Stat med 2002; 21 (14): 2109-29.
26. Ibáñez C, Maganto C. O proceso de avaliación clínica: cognicións de avaliadores. Summa Psicol Ust 2009; 6 (1): 81-99.
27 McGinn T, Wyer PC, Newmann TB, Keitz, Leipzig R, para GG, et al. Consellos para estudantes para a medicina baseada en evidencias: 3. Medidas de variabilidade do observador (estatística kappa). Claj. 2004; 171 (11): 1369-73.
28. Álvarez-Martínez El, Pérez-Fields E. Clínica Utilidade da Táboa 2×2. Rev eviden investir clin. 2009; 2 (1): 22-7.
29. Colimon K-M. Programa de estudo e programa de control. En: Colimon Km. Fundamentos da epidemioloxía. 3a edición. Medellín: Corporación de Investigacións Biolóxicas; 2010. p. 123-124.
30. Landa N, Goñi A, García de Jalón e, López-Goñi JJ. Concordancia no diagnóstico entre pediatra e saúde mental. Un SIST Sanit Navar. 2009, 32 (2): 161-8.
31 Conradsson M, Lundin-Olsson L, Lindelòf N, Littbrand H, Malmqvist L, Gustafson e et al. Berg Balance Scale: a fiabilidade intraratánica de proba de proba entre as persoas maiores depende das actividades da vida diaria e vivindo en instalacións de coidados residenciais. Phys Ther. 2007; 87 (9): 1155-63.
32 Lin CC, Bai Ym, Liu Cy Hsiao MC, Chen JY TSAI SJ, et al. As ferramentas baseadas na web pódense usar de forma fiable para detectar pacientes con grandes trastornos depresivos e síntomas depresivos subshndromales. Psiquiatría BMC. 2007; 7: 12.
33. Schuster C. Kappa como parámetro dun modelo de simetría para o acordo de taxa. J Educe comportamento. 2001; 26 (3): 331-42.
34. Barnhart HX, Song J, Haber MJ. Avaliación do acordo intra, inter e total con lecturas replicadas. Stat med 2005; 24 (9): 1371-84.
35. Cohen J. Un coeficiente de agasallo para escalas nominais. Educh Psychol Meal. 1960; 20 (3): 37-46.
36. Cohen J. Kappa ponderada: Acordo de escala nominal con disposición para o desacordo escalado ou o crédito parcial. Psychol Bull. 1968; 70 (4): 213-20.
37. EPI-INFO 3.5.1. Atlanta: Centros de Control e Prevención de Enfermidades (CDC); 2008.
38. Patas 18.0. Chicago: SPSS. Inc; 2009.
39. SAS 9. SAS Institute Inc.; 2009.
40. STATA 11 para Windows. College Station: Statacorp LP; 2009.
42. Montori VM, Kleinbart J, Newman TB, Keitz S, Wyer PC, Moyer V, et al. Medidas de precisión (intervalos de confianza). Claj. 2004; 171 (6): 611-5.
43. CEPEDA-CUERVO E, AGUILAR W, CERVANTES V, CORRALES M, DÍAZ I, RODRÍGUEZ D. Intervalos de confianza e intervalos de credibilidade para unha proporción. Rev Colomb Estat. 2008; 31 (2): 211-28.
44. Abraira V. O índice KAPPA. Semécné 2000; 27 (5): 247-9.
45. McGinn T, Wyer PC, Newmann TB, Keitz S, Leipzig R, Guyatt G, et al. Comprensión e calculación KAPPA. Claj. 2004; 171 (11): 1-9. Dispoñible en: http://www.cmaj.ca/cgi/data/171/11/1369/DC1/1.
46. Cepeda MS, Pérez A. Estudos de concordancia. En: Ruiz A, Gómez C, Londoño D. Research clínica: Epidemioloxía clínica aplicada: Bogotá: Centro Editorial Javeriano, Ecja; 2001. p. 287-301.
47. FEINSTEIN AR, CICCHETTI DV. Alto Acordo pero baixo Kappa: I. Os problemas de dúas paradojas. J Clin epidemiol. 1990; 43 (6): 543-9.
48. BYRT T, Bishop J, Carlin JB. Bias, prevalencia e kappa. J Clin epidemiol. 1993; 46 (5): 422-9.
49. Cicchetti DV, Feinstein AR. Alto Acordo pero baixo Kappa: II. Resolvendo as paradoxos. J cli n epidemiol. 1990; 43 (6): 551-8.
50. STREINER DL. Aprender a DIFFFER: estatísticas de acordo e fiabilidade en psiquiatría. J Can Psiquiatría. 1995; 40 (2): 60-6.
51. Guggenmoos-Holzmann I. O significado de Kappa: conceptos probabilísticos de fiabilidade e validez revisitados. J Clin epidemiol. 1996; 49 (7): 775-82.
52. Cantor AB. Cálculos de tamaño de mostra para Kappa de Cohen. Métodos de psicol. 1996; 1 (2): 150-3.
53. STREINER DL. Diagnóstico de probas: usar e mal uso das probas de diagnóstico e de diagnóstico. J persiana. 2003; 81 (3): 209-19.
54. Flahamb A, Cadilhac M, THOMAS G. Cálculo de tamaño da mostra debe realizarse para a precisión do deseño nos estudos de proba de diagnóstico. J Clin epidemiol. 2005; 58 (8): 859-62.
55. Kramer HC, Bloch Da. Unha nota sobre a mostraxe de maiúsculas para estimar os coeficientes de Kappa. Biometría 1990; 46 (1): 49-59.
56. Scotto MG, Garcés at. Actuando correctamente en saúde pública, estimacións de punto, intervalos de confianza e contratos hipotéticos. Saúde pública MEX. 2003; 45 (6): 505-11.
Conflito de interese: os autores manifestan que non teñen conflito de interese neste artigo.