Concordança intra- i interavaluadors
Intra- and Inter-Rater Concordance
a Adalberto Camp-Arias1 Edwin Herazo2
1 Metge psiquiatre. MSc (c). Grup d’Investigació de l’Comportament Humà, Institut de Recerca de l’Comportament Humà. Bogotà, Colòmbia.
2 Metge psiquiatre. Grup d’Investigació de l’Comportament Humà, Institut de Recerca de l’Comportament Humà, Bogotà, Colòmbia.
Correspondència Adalberto Camp-Arias Grup de Recerca de l’Comportament Humà Institut d’Investigació de l’Comportament HumanoCalle 58 No. 5-24, oficina 202 Bogotà, Colòmbia [email protected]
Rebut per avaluació: 28 de gener de l’any 2010 Acceptat per publicació: 27 d’abril de l’any 2010
Resum
Introducció : En psiquiatria, els estudis de concordança intra i interevaluador són importants per mesurar la fiabilitat o reproductibilitat de les avaluacions (entrevistes o escales heteroaplicadas). Objectiu: Presentar alguns principis sobre el procés de validació d’entrevistes diagnòstiques o escales heteroaplicadas i el maneig i comprensió de les proves estadístiques més útils per a aquestes finalitats. Mètode: Revisió de literatura. Resultats: S’entén per concordança el grau d’acord o de desacord entre les avaluacions fetes a un mateix subjecte de forma successiva per part d’un avaluador o entre dos o més entrevistadors. Aquest procés és de la validació d’instruments, ja sigui per identificar possibles casos o confirmar la presència d’un trastorn mental. A la concordança interevaluador, dues o més psiquiatres realitzen una entrevista de manera independent i gairebé simultània a una persona i així es pot estimar el grau d’acord, convergència o concordança (o el contrari) entre les avaluacions i els consegüents diagnòstics. La concordança intraavaluador és el grau d’acord en el diagnòstic que té en el temps un mateix avaluador. La prova kappa de Cohen es fa servir per estimar la concordança i s’esperen, en general, valors superiors a 0,50; però cal conèixer la prevalença esperada de l’trastorn mental, el nombre d’avaluadors o avaluacions i el nombre de categories o caselles diagnòstiques possibles.
Paraules clau: psicometria, escales, reproductibilitat de resultats, estudis de validació, revisió .
Abstract
Introduction: Intra- and inter-rater Concordance studies are important in order to measure the reliability or the reproducibility of évaluations (interviews or fiscals applied by a rater) in psychiatry . Objective: To present some principles regarding the validation process of diagnòstic interviews or fiscals applied by a rater, and regarding the serveis de terra and comprehension of more useful statistical tests. Method: Review of literature. Results: Concordance is understood as the grade of agreement or disagreement among évaluations made to the same subject successively by an evaluator or among two or more interviewers. This process is part of the validation of instruments, scale reliability, in order to identify possible cases or to confirm the presence of a mental disorder. Interrater Concordance refers to the case when two or more Psychiatrists realitzi an interview independently and almost simultaneously to a person; this can help to estimate the grade of agreement, convergence or Concordance (and Disagree, Divergence or Discordance) among the évaluations and the consequent diagnostics. Intra-rater Concordance is the grade of agreement on the diagnosi made by the same rater in different times. Cohen ‘s kappa is used to estimate Concordance, and values higher than 0.50 are expected in general. To reliably estimate Cohen ‘s kappa is necessary to know Previously the expected prevalence of mental disorder, the number of évaluations or raters, and the number of possible diagnosi categories.
Key words: Psychometrics, fiscals, reproducibility of results, validation studies, review.
Introducció
el desenvolupament de la psiquiatria en les últimes dècades guarda una estreta relació amb la implementació sistemàtica de criteris diagnòstics per a l’ús dels proveïdors de serveis en salut mental, tot i les limitacions d’aquests criteris (1,2).
l’estandardització dels criteris diagnòstics es va complementar amb el disseny i validació d’entrevistes diagnòstiques, amb el propòsit d’estandarditzar la major part de l’procés d’avaluació de les persones en la pràctica clínica i en investigació epidemiològica (3). Es van dissenyar entrevistes estructurades o semiestructurades per a l’aplicació per persones sense formació tècnica o professional en salut mental o per persones amb entrenament i experiència clínica formal (4).
No obstant això, les discussions acadèmiques inicials sobre el possible impacte negatiu d’aquest abordatge dels símptomes de les persones que consulten per trastorns mentals (1), la revisió acurada de les manifestacions clíniques i la presentació d’un diagnòstic , provisional o un més revisat, demanda professionals en salut mental ben entrenats i estudiosos i, en particular, psiquiatres, que en última instància són els professionals cridats a dirimir les controvèrsies diagnòstiques en salut mental. El diagnòstic en gairebé tots els contextos de la medicina, i especialment de la psiquiatria, exigeix un judici clínic acurat per donar als símptomes una connotació no adaptativa o disfuncional, és a dir, importància o rellevància clínica (5).
La concordança s’entén com el grau d’acord, o desacord, entre les avaluacions que una persona realitza en forma successiva a una altra persona o entre dos o més entrevistadors que fan una avaluació a un mateix subjecte (6,7). Aquest procés fa part de la validació d’instruments, de comprovar la fiabilitat, ja sigui per identificar possibles casos o confirmar la presència d’un trastorn mental (6).
L’objectiu d’aquesta revisió és presentar alguns principis per considerar en el procés de validació d’entrevistes diagnòstiques o escales heteroaplicadas, i el maneig i comprensió de les proves estadístiques més útils per a aquestes finalitats.
Principis
l’objectiu central d’una entrevista diagnòstica és definir quina persona reuneix criteris per un trastorn mental i quin és el trastorn mental específic, independentment de qui dugui a terme l’entrevista (8). La determinació de la concordança en el cas de les escales auto- o heteroaplicadas, que habitualment donen puntuacions, es realitza mitjançant el procediment que es coneix com a prova-reprova (test-retest, en anglès) (9). Aquest procés es val de proves estadístiques, com la correlació de Pearson (10,11), el coeficient de correlació intraclasse (12), el coeficient de concordança de Lin (13) o el coeficient de concordança d’Altman i Bland (14).
Tant en la validació d’escales com en la validació d’entrevistes, la segona avaluació es realitza amb un període definit, segons el trastorn que s’avaluï. Se suposa que durant aquest els símptomes es mantenen estables, amb poques o petites variacions, i que les condicions de mesurament o entrevista són similars (15).
És important tenir present que en psiquiatria el canvi de diagnòstic amb el pas de el temps és un fenomen freqüent. Aquest fet cions diagnòstiques no estructurades o estandarditzades, canvis en els criteris diagnòstics o la mateixa història natural dels trastorns mentals que s’avaluen; és a dir, la inestabilitat o canvis que mostra el conjunt de símptomes en el temps (15,16).
Un altre punt que s’ha de tenir present és que si dos o més professionals realitzen una entrevista a la mateixa persona en forma independent o el mateix avaluador fa dos o més entrevistes en un període, s’ha de prendre un dels avaluadors o una de les avaluacions com a criteri de referència (gold standard) (17). Els criteris de referència perfectes són excepcionals en medicina, més encara en psiquiatria (18). No obstant això, es parteix de l’supòsit que aquest criteri que es considera punt de comparació fa una classificació perfecta dels diagnòstics, sense errors; és a dir, amb 100% de sensibilitat i 100% d’especificitat (17-20). Aquesta comparació amb un criteri de referència fa part, igualment, de la validació criteri (concurrent) de qualsevol escala o instrument (21,22).
Concordança intra- i interavaluadors o observadors
si dos o més psiquiatres realitzen una entrevista de manera independent i gairebé simultània a una persona es pot estimar el grau d’acord, convergència o concordança (i de desacord, divergència o discordança) entre les avaluacions i els consegüents diagnòstics, si es pren 1 dels avaluadors com a criteri de referència. Es parteix de el fet que tots dos professionals tenen el mateix entrenament; a aquesta estimació se l’anomena concordança interavaluadors o interobservadors (6,23,24).
D’altra banda, si un psiquiatre realitza dos o més avaluacions a una mateixa persona amb el propòsit de conèixer o confirmar un diagnòstic amb l’ús d’una tècnica idèntica, es pot establir la concordança en el diagnòstic que té en el temps el mateix avaluador. A aquest càlcul se li coneix com concordança intraavaluador o intraobservador (7,25). Sens dubte, la concordança intraavaluador té el biaix que indueix la memòria de l’avaluador que pot recordar detalls de l’avaluació precedent que ell mateix va realitzar (26).
Proves estadístiques per concordança inter- o intraavaluador amb resultats qualitatius
El diagnòstic en psiquiatria és, en general, qualitatiu o categòric, o sigui que s’arriba a la conclusió que la persona reuneix criteris o no per un trastorn mental a l’hora de l’avaluació o en algun moment de la vida (5). El nombre de categories diagnòstiques possibles és K i el nombre d’avaluadors és el Sr. Si es compara l’avaluació d’un avaluador amb la d’un altre avaluador que es pren com a criteri de referència i només són possibles dos diagnòstics, és a dir K = 2 i M = 2, es pot construir una taula de contingència de 2X2, amb un mínim de quatre caselles (tetracórica), per observar la concordança entre avaluadors (24,27-29).
A continuació un exemple d’un estudi que investigava la concordança interevaluador. En una investigació que es va realitzar a Navarra, Espanya, Landa i col·laboradors van quantificar la concordança en la identificació d’un trastorn mental entre pediatres i els professionals de salut mental. En la investigació es van incloure 207 nens o adolescents, menors de 16 anys; trobaren una concordança observada (Po) per la presència d’un trastorn mental de el 64,3% i un valor de kappa mitjana de Cohen de 0,58, amb un interval de confiança de l’95% entre 0,51 i 0,66 (30 ).
Pocs estudis es realitzen per explorar la concordança intraeva-valuador. Per exemple, Conradsson i col·laboradors van avaluar en 45 adults majors en Umea, Suècia, les puntuacions que va donar el mateix avaluador en una escala per quantificar equilibri, d’un a tres dies després de la primera aplicació. Aquest instrument consta de 14 preguntes, amb un patró de resposta politòmic (Likert), amb cinc opcions que es qualifiquen de zero a quatre. Van informar la concordança intraevalua-dor per a cada pregunta mitjançant el coeficient de K ponderada i interval de confiança de l’95%. Els valors de K (kappa) ponderada es van trobar entre 0,55 i 0,83 (31).
De la mateixa manera, és possible dissenyar una taula de contingència més complexa, en la qual es compara, per exemple, la concordança en el diagnòstic específic entre un grup de pacients que reuneix criteris per a diverses categories possibles (K > 2), per exemple, un trastorn depressiu (trastorn depressiu major, trastorn distímic, trastorn depressiu a causa d’una condició mèdica, trastorn depressiu a causa de l’ús de substància o medicament, o trastorn depressiu no especificat). I alhora participen dos avaluadors o es realitzen avaluacions separades en el temps (M = 2). Per aquesta situació, la taula de contingència KxM serà de 5 * 2 (25).
A manera d’exemple d’un estudi de concordança de més de dues categories diagnòstica, Lin i col·laboradors van observar la concordança en 579 adults , després de respondre una escala disponible a Internet per identificar trastorns depressius (trastorn depressiu major, trastorn depressiu menor, símptomes depressius subsindrómicos i absència de trastorn depressiu), entre les aplicacions que es van realitzar cada dues setmanes (dues, quatre o més setmanes) i van informar els valors de K ponderada: 0,80, 0,42 i 0,51, a la segona setmana, a la quarta setmana i més setmanes, respectivament (32).
la concordança entre dos avaluadors o entre dues o més observacions de el mateix avaluador pot ser real o producte o resultat de l’atzar. Per això, a més, de la concordança observada, cal estimar fins a quin grau d’acord el mitja l’atzar o la probabilitat (33,34). La prova estadística que es fa servir per a aquest propòsit és la prova K de Cohen (35). Quan es calcula a partir de dues categories possibles i dos avaluadors únicament, K = 2 i M = 2, d’una taula de contingència 2 * 2, es diu K mitjana de Cohen o, simplement, K. No obstant això, en els casos en els que es calcula amb K > 2 (o amb un resultat ordinal) o M > 2 s’estima un valor de K ponderada (24 , 27,36) (vegeu Taula 1).
la K mitjana de Cohen es pot calcular amb la Fórmula 1. no obstant això, els programes estadístics més usats en el món, com EpiInfo (37), PASW (anteriorment, SPSS) (38), SAS (39) o STATA (40), ho estimen més ràpidament i informen l’interval de confiança de l’95 %, com una mesura de precisió de l’estimació (41-43). Els valors de K poden trobar-se entre zero i un, a major proximitat amb l’un major concordança en els mesuraments que es van realitzar pel mateix avaluador o diferents avaluadors. La forma com s’interpreta de manera racional aquest coeficient es presenta a la Taula 2 (44,45). La interpretació de la prova estadística de considerar la utilitat clínica dels mesuraments en estudi (46).
Consideració important
a l’igual que la sensibilitat, l’especificitat i els valors predictius que es calculen amb les dades d’una taula de contingència de 2 * 2, la prova K és directament proporcional a la freqüència o prevalença de l’trastorn mental que s’estudia ( 47,48). En conseqüència, la K pot ser baixa, no obstant això l’alt valor per a la concordança observada (Po) (49). La K sol ser més robusta quan la prevalença de l’trastorn que s’investiga és alta i debilitar quan la prevalença és baixa (50,51).
Mida de la mostra
La mida de la mostra s’ignora amb freqüència en els estudis de validació o observació de l’acompliment psicomètric dels instruments en salut (18). El càlcul de la mostra per a un estudi de concordança i el càlcul d’un valor K de considerar diversos punts: el nombre d’avaluadors o avaluacions (52) i el nombre de categories o caselles diagnòstiques possibles (53). De la mateixa manera, s’ha de ponderar la prevalença esperada o estimada de l’trastorn mental, com si s’anés a estimar la sensibilitat o l’especificitat, i es parteix d’una taula de contingència 2 * 2 (54). Tenir molt present aquest punt permet comptar amb un nombre suficient de participants en cada casella de la taula per construir (48,50-52,55). Amb això s’aconsegueix un millor grau de precisió, amb un interval de confiança més estret (42-44,56).
Conclusions
Els estudis de concordança inter- i intraavaluador són importants per mesurar la fiabilitat o reproductibilitat de les avaluacions (entrevistes o escales) en psiquiatria. Per a les avaluacions amb resultats categòrics (qualitatius), la concordança més enllà de l’atzar s’estima amb el coeficient de K de Cohen (mitjana o ponderada). El coeficient de K es pot trobar entre zero i un, i en general s’espera entre 0,41 i 0,60 o més. La prevalença de l’trastorn o trastorns que s’investiguen pot afectar l’estimació de l’coeficient. Cal un tripijoc de mostra raonable per Lontar un valor de K el suficienteente precís.
Referències
2. Rogler LH. Making sense of historical changes in the diagnòstic and statistical manual of mental disorders: five propositions. J Health Soc Behav. 1997; 38 (1): 9-20.
3. Páez F, Nicolini H. Les entrevistes per al diagnòstic clínic en psiquiatria. Salut Mental. 1996; 19 (Supl 2): 19-25.
4. Calinou I, McClellan J. Diagnostic interviews. Cur Psychiatry Rep. 2004; 6 (2): 88-95.
5. Eaton WW, Hall A EL, MacDonald R, McKibben J. Casi identification in Psychiatric Epidemiology: a review. Int Rev Psychiatry. 2007; 19 (5): 497-507.
7. Alarcón AM, Muñoz S. Mesura en salut: Algunes consideracions metodològiques. Rev Med Xile. 2008; 136 (1): 125-30.
8. Othmer I, Othmer SC. DSM-IV-TR. L’entrevista clínica. Fonaments. Tom I, Madrid: Masson; 2001.
9. Sánchez R, Echeverry J. Validació d’escales de mesurament en salut. Rev Salut Pública. 2004; 6 (3): 302-18.
10. Pearson K. Determination of the coefficient of correlation. Science. 1909; 30 (757): 23-5.
11. Spearman C. Correlation Calculated from Faulty data. Br J Psychol. 1910; 3: 271-95.
12. Shrout PE, Fleiss JL. Intraclass correlations: facis servir in Assessing rater reliability. Psychol Bull. 1979; 86 (2): 420-8.
13. Lin L. A Concordance correlati on coefficient to evaluate reproducibility. Biometrics. 1989; 45 (1): 255-68.
14. Bland JM, Altman DG. Statistical methods for Assessing agreement between two methods of clinical measurement. Lancet. 1986; 1 (8476): 307-10.
15. Lecrubier I Refinement of diagnosi and disease classification in psychiatry. Eur Arch Psychiatry Clin Neurosci. 2008; 258 Suppl 1: 6-11.
16. Neighbors HW, Trieweiler SJ, Ford BC, Muroff JR. Racial differences in DSM diagnosi using a semi-structured instrument: The importance of clinical judgment in the diagnosi of African Americans. J Health Soc Behav. 2003; 44 (3): 237-56.
17. Rielgelman RK, Hirsch RP Definició de malaltia: la prova d’or. Bol Of Sanit Panamà. 1991; 111 (6): 534-38.
18. Knottnerus JA, van Weel C, Muris JWM. Evaluation of diagnòstic procedures. BMJ. 2002; 324 (7335): 477-80.
19. López-Jiménez F, Rohde LEF, Lluna-Jiménez MA. Problemes i solucions en la interpretació de proves diagnòstiques. Rev Invest Clin. 1998; 50 (1): 65-72.
20. Castro-Jiménez MA, Cabrera-Rodríguez D, Castro-Jiménez MI. Avaluació de tecnologies diagnòstiques: conceptes bàsics en un estudi amb mostres-treo transversal. Rev Colomb Obstet Ginecol. 2007; 58 (1): 45-52.
21. Morgan GA, Gliner JA, Harmon RJ. Measurement validity. J Am Acad Child Ado-lesc Psychiatry. 2001; 40 (6): 729-31.
22. Bland JM, Altman DG. Validating fiscals and indexes. BMJ. 2002; 324 (7337): 606-7.
23. Ludbrook J.Statistical techniques for comparing measurers and methods of measurements: a critical review. Clin Exp Pharmacol Physiol. 2002; 29 (7): 527-36.
24. Watkins MW, Pacheco M. Interobserver agreement in behavioral research: importance and calculation. J Behav Educ. 2000; 10 (4): 205-12.
25. Kramer HC, Periyakoil VS, Noda A. Kappa Coefficients in medical research. Stat Med. 2002; 21 (14): 2109-29.
26. Ibáñez C, Maganto C. El procés d’avaluació clínica: cognicions de l’avaluador. Summa Psicol UST 2009; 6 (1): 81-99.
27. McGinn T, Wyer PC, Newmann TB, KeitzS, Leipzig R, For GG, et al. Tips for learners for evidence-based medicine: 3. Measures of observer variability (kappa statistic). CMAJ. 2004; 171 (11): 1369-73.
28. Álvarez-Martínez HE, Pérez-Camps E. Utilitat clínica de la taula 2×2. Rev evidents Invest Clin. 2009; 2 (1): 22-7.
29. Colimon K-M. Programa d’estudi i programa de control. En: Colimon KM. Fonaments d’epidemiologia. 3a edició. Medellín: Corporació per a Investigacions Biològiques; 2010. p. 123-124.
30. Landa N, Goñi A, García de Jalón E, López-Goñi JJ. Concordança en el diagnòstic entre pediatre i salut mental. An Sist Sanit Navar. 2009; 32 (2): 161-8.
31. Conradsson M, Lundin-Olsson L, Lindelof N, Littbrand H, Malmqvist L, Gustafson I et al. Berg Balanç Scale: Intrarater test-retest reliability among older people dependent in activities of daily living and living in residential care facilities. Phys Ther. 2007; 87 (9): 1155-1163.
32. Lin CC, Bai IM, Liu CY Hsiao MC, Chen JI Tsai SJ, et al. Web-based tools can be used reliably to detect patients with major Depressive disorder and subsyndromal Depressive symptoms. BMC Psychiatry. 2007; 7: 12.
33. Schuster C. Kappa es a parameter of a symmetry model for rater agreement. J Educ Behav Stat. 2001; 26 (3): 331-42.
34. Barnhart HX, Song J, Haver MJ. Assessing intra, inter and total agreement with replicated readings. Stat Med. 2005; 24 (9): 1371-1384.
35. Cohen J. A coefficient of agreement for nominal fiscals. Educ Psychol Meas. 1960; 20 (3): 37-46.
36. Cohen J. Weighted kappa: nominal scale agreement with provision for Scaled disagreement or partial credit. Psychol Bull. 1968; 70 (4): 213-20.
37. Epi-Info 3.5.1. Atlanta: Centers for Disease Control and Prevention (CDC); 2008.
38. PAWS 18.0. Chicago: SPSS. Inc; 2009.
39. SAS 9. SAS Institute Inc .; 2009.
40. STATA 11 for windows. College Station: StataCorp LP; 2009.
42. Montori VM, Kleinbart J, Newman TB, Keitz S, Wyer PC, Moyer V, et al. Measures of precisió (confidence intervals). CMAJ. 2004; 171 (6): 611-5.
43. Cepeda-Corb I, Aguilar W, Cervantes V, Corrals M, Díaz I, Rodríguez D. Intervals de confiança i intervals de credibilitat per a una proporció. Rev Colomb Estat. 2008; 31 (2): 211-28.
44. Abraira V. L’índex kappa. Semergen. 2000; 27 (5): 247-9.
45. McGinn T, Wyer PC, Newmann TB, Keitz S, Leipzig R, Guyatt G, et al. Understanding and Calculating kappa. CMAJ. 2004; 171 (11): 1-9. Disponible a: http://www.cmaj.ca/cgi/data/171/11/1369/DC1/1.
46. Cepeda MS, Pérez A. Estudis de concordança. En: Ruiz A, Gómez C, Londoño D. Recerca clínica: epidemiologia clínica aplicada: Bogotà: Centre Editorial Javerià, CELLA; 2001. p. 287-301.
47. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two Paradoxes. J Clin Epidemiol. 1990; 43 (6): 543-9.
48. Byrt T, Bishop J, Carlin JB. Bias, prevalence and kappa. J Clin Epidemiol. 1993; 46 (5): 422-9.
49. Cicchetti DV, Feinstein AR. High agreement but low kappa: II. Resolving th i Paradoxes. J Cli n Epidemiol. 1990; 43 (6): 551-8.
50. Streiner DL. Learning how to differ: agreement and reliability statistics in psychiatry. J Can Psychiatry. 1995; 40 (2): 60-6.
51. Guggenmoos-Holzmann I. The meaning of kappa: Probabilistic concepts of reliability and validity revisited. J Clin Epidemiol. 1996; 49 (7): 775-82.
52. Cantor AB. Sample-size calculations for Cohen s Kappa. Psychol Methods. 1996; 1 (2): 150-3.
53. Streiner Dl. Diagnosing tests: Using and misusing diagnòstic and screening tests. J Pers ASSESS. 2003; 81 (3): 209-19.
54. Flahault A, Cadilhac M, Thomas G. Sample size calculation should be performed for design accuracy in diagnòstic test studies. J Clin Epidemiol. 2005; 58 (8): 859-62.
55. Kramer HC, Bloch DA. A noti on casi-control sampling to estimate kappa Coefficients. Biometrics. 1990; 46 (1): 49-59.
56. Scotto MG, Garcés AT. Interpretar correctament en salut pública estimacions puntuals, intervals de confiança i contrastos d’hipòtesis. Salut Publica Mex. 2003; 45 (6): 505-11.
Conflicte d’interès: els autors manifesten que no tenen cap conflicte d’interès en aquest article.