Anàlisi Interí en ensayos clínics: una guia metodológica
Anàlisi provisionals en assajos clínics: A
Guia metodològica
Sergio R Muñoz n, Shrikant i Bangdiwala
Anàlisi provisional de dades acumulades en assajos clínics és un aspecte del seguiment del progrés de l’estudi . Normalment es fa per avaluar si hi ha diferències significatives en l’eficàcia entre els grups de tractament experimentals i de control, per tal de decidir si es detenen o no el judici prematurament. Entre moltes raons per a la interrupció primerenca d’un judici és la consideració ètica que els subjectes no haurien d’estar exposats a un tractament insegur, inferior o ineficaç. Els investigadors no entenen els mètodes estadístics adequats per fer anàlisis provisionals, que permeten controlar la probabilitat de rebutjar incorrectament la hipòtesi nul·la de no diferències de tractament, sovint no són ben enteses pels investigadors. En aquest article presentem una explicació intuïtiva i no matemàtica dels mètodes estadístics per fer anàlisi provisional en assajos clínics juntament amb un exemple il·lustratiu de l’aplicació dels mètodes en un conjunt de dades hipotètic (Rev Méx Xile 2000; 128: 935- 41).
(paraules clau: protocols clínics; disseny de la investigació; estadístiques & Dades numèriques.
Recibido el 27 d’Enero, 2000. Acceptado El 23 de Marzo , 2000.
Financiado en part de les beques # 1980373 i 7980063 DE FONDO NACIONAL DE CIENCIAS I TEC – NOLOGÍA (FONDECYT) de Xile.
Facultat de Medicina, Universitat de la Frontera, Temuco, Xile.
Departament de Biostatistics, Universitat de Carolina del Nord a Chapel Hill, EUA.
Este Artículo Presenta la metodología i els aspectes relatius relacionats amb l’anticipat de l’Ensaidos Clínicos Dentro del Contexto de la Visió de l’INVESTIGADOR CLÍNICO. EL Objetivo Principal d’Este Artículo Es Pedagógico y Su Intenció Es Ayudar al Investigador Clínico Entendre Los Principios estadísticos de monitorització i los aspectes que afectán la interpretació dels resultados de l’ONU ensayo clínico.
Un ensayo clínicos es un estudi Disseny experimental Para Avaluar La Eficacia de Un Tratamiento en seres Humanos A Tra Vés de la Comparació de los Resultats en un Grupo de Pacientes Surtidos un Tratamiento Experimental Con Otro Grupo de Pacients Que reciben un tratamiento de control. En general, El Disseny de l’ONU ensàyo clínic Consideracions Aspectos éticos que es relaciona amb el paciente, y per lo Tanto Involucra Anàlisi Interinos Previos al Término de la Recolección Total de los Datos Definido Para El Estudio. EL ANÁLISIS INTERINA Realizado Sobre Los Datos Acumulados A UN TIEMPO DADO, SE Realiza con El FIN de Determinar La Existencia de Diferencias Significativas entre los tratamientos en comparació de modo de determinar La Posibilitat de Detener El Estudio en Forma Anticipada1.
Razones para una detenció anticipada d’un ensayo clínico. Entre Las Múltiples Razones per realitzar El Anàlisi de Dades Interino, SE Encuentra La Posible Evidencia de Encontrar Diferencias de Eficacia Entre Los Tratamientos en Etapas Tempranas de la conducción del Estudi, Como A la Vez La Consideració ética de Que los Pacientes No Deberían Estar Expuestos A Un tratamiento Que Sea Inseguro, inferior o INEEFECTIVO2.
Las Razones para un término anticipat d’un ensayo clínic Pueden Agruparse en les siguientes Categories: (i) Consideracions relacionades a la conducción general de l’estudi; (ii) Consideracions relacionades a la Respesta Clínica Que Se Acumula Durant El Estudio; Y (iii) Informació externa al Estudio (Tabla 1).
La consideració primària és que els pacients que participen que participen Estudi d’Esta Naturaleza, Confían en que l’Estudio No se segueixi una vez que se encuenten Evidencias Razonables de toxicidad destacat, o si la diferencia entre la eficàcia dels tratamientos se establyecido más allá de la debida a variaciones producto del azar, o SI Evidencia ONU Final del Estudio Sin Conclusions concloenta clares. UN ESTUDIO MAL CONDUCTIDO DEBIDO A UN POBRE RECLUTAMIENTO DE PACIENTES, MALA ASIGNACIÓ DE PACIENTES, PROBLEMAS DE SEGUIMIENT, D’ENMASSARAMIENTO, D’ADHESIÓ A LOS TRATATAMIENTOS, O DE MEEMEJO DE DATOS, HACE QUE PROBBABLEMENTE SE PRODUZCA UN SESGO EN LA COMADACIONA HAPIA EL EFECTO Nulo Y de Este Modo resultarà un estudio con una potencia estadística sub-valorada. Generalmente, Este Tipo de Consideracions SE Avaluan Durant la Etapa de Disseny de l’Estudi, Pero También deben SER Contrastadas Durant la Ejecución del Mismo. Se Consideren Factores externs a Aquellos Que Están Más Allá del Control de los investigadors, Pero estos entran en les deliberacions del llamado Comité de Monitorització de Dades i de Seguridad (taula de monitorització de dades i seguretat).Els aspectes relacionats a la resposta als tractaments són els que reben consideració estadística i corresponen als que es presenten en aquest treball.
Implicacions de el terme anticipat d’un assaig clínic. El terme anticipat d’un assaig clínic (abans de el terme programat) té implicacions tant de tipus estadístic, com en la disseminació dels seus resultats. Entre les implicacions estadístiques, tenim el fet potencial que les diferències entre els tractaments siguin petites, i d’aquesta manera els valors p de les proves de significació estadística, les estimacions puntuals i per intervals de confiança han de ser ajustados3-5 causa de aquestes anàlisis anomenats interins. Una detenció anticipada d’un estudi augmenta la variabilitat de l’estimació a causa de el menor nombre d’esdeveniments observats, fent poc probable l’estudi d’efectes a llarg termini. El terme d’un estudi involucra decisions complexes que van des de la detenció de l’reclutament dels pacients, de l’assignació d’intervenció a pacients ja aleatoritzats a alguna de les branques de l’estudi, fins a la detenció completa de l’estudi. Això porta també dificultats en la decisió de com, quan i a qui disseminar els resultats; els procediments normals de terme especificats en el protocol han de ser accelerats, i si no es fan de la manera adequada, pot afectar la credibilitat dels resultats de l’estudi als ulls de la comunitat científica i dels participants de l’estudi, els que òbviament van acceptar participar en ell.
Terme anticipat i el paper de l’comitè de monitorització de dades. Les consideracions de tipus estadístic corresponen a una de les moltes involucrades en el procés de decidir per una potencial detenció anticipada d’un assaig clínic. El monitoratge de el progrés d’un estudi descansa en les mans de l’anomenat comitè extern de monitorització de dades. Aquest comitè està generalment compost per metges clínics, epidemiòlegs, estadístics, eticistas i altres professionals d’afins, es reuneix periòdicament durant la conducció de l’estudi, i són responsables tant per la seguretat dels pacients, com de les recomanacions sobre el potencial terme anticipat de l’ estudi6.
Dissenys estadístics. La majoria dels estudis epidemiològics requereixen d’un disseny estadístic que contempla una mida de mostra fix, el qual es calcula de manera que l’estudi tingui potència estadística suficient com per detectar diferències que s’han determinat com clínicament significatives. No obstant això, aquest tipus de disseny no és adequat per a assajos clínics a causa essencialment de problemes de tipus ètic. Es considera no ètic esperar fins al terme d’un estudi quan s’observen reaccions adverses que mereixen una detenció anticipada de l’estudi.
Una alternativa als dissenys amb mida de mostra fix, són els anomenats dissenys seqüencials, en els quals no s’especifica per endavant el nombre total de pacients a estudiar. En aquest tipus de disseny es recluta un grup de pacients, es aleatorizan als tractaments, i després d’un seguiment, s’avalua la hipòtesi en estudi. Si no s’obtenen resultats significatius, es recluta un segon grup de pacients, es aleatorizan, es fa el seguiment i es prova la hipòtesi novament. Des d’un punt de vista ètic, aquests dissenys seqüencials clàssics són millors que els de mida de mostra fix pel fet que permeten una potencial detenció anticipada de l’estudi quan un dels tractaments és clarament superior que l’altre. La major desavantatge d’aquest tipus de disseny seqüencial és que tant el cost total com la durada de l’estudi són desconeguts, i en teoria la mida mostral màxim no està acotat. Aquest disseny pot ser utilitzat en estudis amb resposta inmediata7.
Durant les últimes dues dècades, s’han proposat diversos procediments estadístics alternatius que permeten la realització d’anàlisis estadístiques interins basats en l’acumulació de dades, ia la mateixa vegada permeten mantenir el nivell de significació especificat. Anàlisi interí es defineix com una avaluació de dades feta durant l’etapa de enrolament de pacients així com en l’etapa de seguiment dels mateixos, i el propòsit principal (entre d’altres) és el d’avaluar l’efecte dels tractaments. Una anàlisi interí comporta, possiblement, a la decisió d’aturar l’estudi.
Si un estudi s’atura anticipadament pel fet que el tractament experimental augmenta la incidència de la resposta negativa, llavors no s’ha de considerar seguir acumulant més dades, i no han d’haver altres consideracions estadístiques que no vagin més enllà de l’estimació de la incidència. No obstant això, tot i que l’estudi no s’aturi en forma anticipada, tant les proves d’hipòtesis com els intervals de confiança requereixen d’un ajustament per aquestes anàlisis previs.
Aspectes estadístics en anàlisi interins i dissenys seqüencials agrupats. La solució als problemes més amunt plantejats la proveeix el disseny anomenat “disseny seqüencial agrupat« 8. Aquest tipus de disseny està especialment destinat a les anàlisis interins pel fet que permet controlar la probabilitat de l’error tipus I, que se sap augmenta com a conseqüència de la successió de proves estadístiques realitzades sobre dades que es acumulan9. L’ús dels mètodes basats en mostres de mida fixa no és adequat pel fet que aquests no permeten la correcció de l’nivell de significació. La decisió estadística d’aturar o continuar l’estudi es basa en la seqüència de proves estadístiques sobre les dades que s’acumulen després de l’avaluació feta una vegada efectuat el reclutament de cada grup de pacients. D’aquesta manera, un estudi que mostri un benefici d’hora o efectes adversos inesperats, obliga a la consideració d’una detenció anticipada de l’assaig.
El procediment general de l’anàlisi seqüencial agrupat requereix que l’avaluació de l’tractament experimental contra el control en una mostra total de N subjectes s’efectuï en un nombre pre-especificat de temps K i que els N subjectes hagin estat aleatoritzats en K grups de 2n pacients cadascun (N = 2nK). Suposem que s’inicia l’estudi amb 2n pacients de manera que es aleatorizan n subjectes a cadascuna de les dues branques de l’assaig. La decisió estadística d’aturar l’estudi es basa en la realització de proves estadístiques usant les dades que s’acumulen després de l’avaluació de cada grup de 2n pacients. El problema és que aquest requeriment és molt restrictiu atès que les dades s’obtenen en forma contínua. D’altra banda, aquesta forma de recol·lecció de dades i d’anàlisi implica el tenir una resposta immediata als tractaments.
Lan i DeMets10 van proposar un mètode basat en el que van cridar “funció de despesa”, la qual permet tenir proves estadístiques més flexibles que les descrites. El procediment es basa en l’elecció d’una funció a (t), anomenada “funció de despesa”, que especifica la taxa a la qual es desitja gastar la probabilitat total d’error de tipus I. Suposant que l’estudi comença a el temps 0 i s’acaba a el temps T, es escala de tal manera que T = 1, perquè la funció a (t) es construeix de manera que a (0) = 0 ja (l) = a. Aquesta funció lliura la probabilitat acumulada d’error de tipus I i permet fixar la quantitat d’error que es desitja gastar en cada anàlisi. L’increment a (tk) – a (tk-1) representa el nivell de significació addicional que s’usa a el temps tk.
Hi ha diversos criteris de selecció d’aquesta funció de gasto11-13 que satisfan la condició de que el total de probabilitat d’error Tipus I sigui a. Algunes de les eleccions més comunes es presenten més endavant.
Exemple numèric de l’aplicació de l’anàlisi interí i funcions de despesa. La primera consideració és l’estadística a ser utilitzada. S’assumeix que la hipòtesi de nul·litat és la d’absència de diferències entre els tractaments, i que la hipòtesi alterna és que hi ha alguna diferència. La hipòtesi alterna s’anomena com d’una cua si la direcció de la diferència és especificada, i com de dues cues si la direcció de la diferència no és especificada. L’estadística que s’utilitza és la de logrank13, la qual és equivalent a l’estadística estandarditzada Z. En el k-èsim anàlisi interí, es calcula ZK (k = 1,2, …., K). Per il·lustrar la metodologia, assumim que tenim un estudi de 24 mesos de durada de l’seguiment, amb anàlisis interins possibles cada tres mesos.
Les funcions de despesa considerades en aquest treball inclouen els procediments més comuns per a anàlisis seqüencials agrupats , adaptats per la metodologia de funcions de despesa proposat per Lan i DeMets10. Pocock14 va suggerir un ajust constant per als K punts crítics fixos relacionats amb les K proves estadístiques repetides dels K anàlisi interins planificats. Els punts crítics proposats per O Brien – Fleming15 disminueixen monotónicamente amb k. Això és més intuïtiu, i ha resultat que aquest procediment sigui bastant popular, ja que no és desitjable acabar l’estudi en les etapes properes a l’començament de l’estudi a menys que les diferències entre els grups sent comparats siguin substancials. DeMets i Lan16 proposen una classe general de funcions de despesa ATP, on p > 0 és una constant que si < 1 correspon a despesa d’hora , si = 1 és per a despesa lineal o constant, i si > 1 correspon a despesa tardà de l’total de aaa. La Taula 2 compara les funcions de despesa de Pocock, O Brien i Fleming, i les funcions de despesa per p = 0,5; 1,0; 1,5, en termes dels valors de p necessaris a la mirada intermèdia k per satisfer el control de l’nivell de significació global d’un a = 0,05.
De la Taula 2 es nota que el procediment de Pocock implica nivells de despeses que disminueix el procediment d’O Brien i Fleming ofereix nivells de despeses que augmenten des d’un nivell molt baix, i que les funcions de despesa de tipus aaatP gasten en augment depenent si p > 1 op < 1.
Exemple de l’aplicació de l’anàlisi seqüencial agrupat a assajos clínics. Penseu un assaig clínic on els participants són assignats aleatòriament a un tractament experimental o un de control. Assumeixi que hi ha un nombre no especificat de K anàlisi interins durant el període de l’estudi, i que la decisió d’aturar l’estudi es basa en proves de significació estadístiques. En addició, assumeixi que la decisió d’aturar anticipadament l’estudi es basa en proves de significació estadístiques repetides després que cada grup sigui avaluat. Si t denota el temps d’estudi, les anàlisis interins es duen a terme en els temps t1, …, tk, on K no és especificat, i 0 < t1 < … < TK “£ 1. La Taula 3 presenta valors hipotètics dels números d’esdeveniments observats en cada grup durant el transcurs de l’estudi, el valor de l’estadística de Logrank a cada temps, així com el valor de p nominal no-ajustat per a l’estadística. És important notar que en un estudi real, a el temps tk només es té informació prèvia a aquest temps.
els grups de tractament són consistentment diferents durant tots els períodes de l’estudi, i arriben significació estadística nominalment en el temps t = 12. a la mesura que el temps de l’estudi transcorre, els números d’esdeveniments en els dos grups s’apropen i el valor de l’estadística de logrank disminueix. la decisió estadística de si s’ha assolit significació es basa en el valor de p nominal a el temps tk, el qual es compara amb el valor de l’increment en la funció de despesa de la Taula 2, per a una funció de despesa en particular i escollida a priori. Cal notar que si no hi ha ajust per proves repetides, s’arriba a la significació estadística en l’anàlisi interí a el temps t = 12. No obstant això, depenent de qual funció de despesa és escollida, i de quan es decideix fer les anàlisis interins, s’arriba a la significació estadística en diferents temps, com es mostra a la Taula 4.
Sota l’escenari a, on les anàlisis interins són cada 6 mesos uniformement, un arriba significació en el tercer anàlisi, a el temps t = 18 si fa servir les funcions de despesa ( b) o (i) que guarden el a per les anàlisis tardans, però no assoleix significació amb funcions de despesa (a), (c), o (d), que van malgastar el a aviat. Amb l’escenari B, una mirada primerenca s’efectua a l’inici de l’estudi, però les mirades subsegüents són efectuades cada 6 mesos; totes les funcions de despesa excepte el (c) arriben significació a l’tercera anàlisi, a el temps t = 15; la funció de despesa (c) és una malgastador d’hora i per tant no arriba a la significació estadística. Finalment, sota l’escenari C, on la primera anàlisi interí no s’efectua fins al novè mes d’iniciat l’estudi, i després cada 3 mesos per dos períodes i una anàlisi final als 2 anys, els resultats no arriben significació per a les funcions de despesa primerenques (a), (c) i (d); trobant significació estadística només a la fi de l’estudi per a les funcions de despesa d’O Brien-Fleming (b) i la definida en (i). Cal notar que si les anàlisis interins s’efectuen cada tres mesos (Taula 2), la significació mai s’obté. L’elecció, tant de la funció de despesa com de la freqüència i periodicitat de les anàlisis interins afecten la significació.
DISCUSSIÓ
En aquest treball intentem proveir una explicació de la necessitat de portar a terme anàlisis interins en assajos clínics, així com d’il·lustrar la implementació de les anàlisis estadístiques. A més de les consideracions d’ètica, les anàlisis interins poden resultar en augments importants en l’eficiència, i per tant, en disminucions dels costos de la conducció dels assaigs clínics. Si no manejar-apropiadament des del punt de vista estadístic, el resultat dels múltiples anàlisis de la informació acumulada podria ser la possibilitat de falsament rebutjar la hipòtesi de nul·litat de cap diferència entre els tractaments sent comparats.
La presa de decisions per part de l’comitè extern de monitorització de l’estudi per a una possible terminació anticipada d’un assaig clínic, utilitza la informació estadística com una de diverses consideracions que són avaluades per arribar a aquesta difícil i complexa decisió.Van ser les intencions d’aquest treball de proveir en forma clara i accessible les consideracions metodològiques estadístiques perquè la comunitat mèdica treballant en investigacions clíniques experimentals les pugui apreciar.
Correspondència a: Sergio R Muñoz Navarro. Unitat d’Epidemiologia Clínica. Departament de Salut Pública. Facultat de Medicina. Universitat de la Frontera. M. Montt 112, Temuco. Xile. Telèfon: (56) 45-325.744. Fax: (56) 45-325.741. Correu electrònic: [email protected].
1. EMERSON SS, FLEMING TR. Interim analyses in clinical trials, Oncology 1990; 4: 126-36.
2. JENNISON C, TURNBULL B. Group sequential tests and repeated confidence intervals. Handbook of Sequential Analysis vol 12 (Ghosh BK and Sen PK, eds), Marcel Dekker LNC, New York, 1991; 283-311.
3. EMERSON SS, FLEMING TR. Parameter estimation following group sequential hypothesis testing. Biometrika 1990; 77: 875-92.
4. Siegmund D. Estimation following sequential tests. Biometrika 1978; 65: 341-49.
5. TSIATIS AA, ROSNAR GL, MEHTA CR. Exact confidence intervals following a group sequential test. Biometrics 1984; 40: 797-803.
6. WHITEHEAD J. On being the statistician on the data and safety monitoring board. Statistics in Medicine 1999; 18: 3425-34.
7. WHITEHEAD J. The design and analysis of sequential clinical trials. Halsted Press, New York 1983.
8. D’METS DL. Practical aspects in data monitoring: A brief review. Statistics in Medicine 1987; 6: 753-60.
9. Armitage P, MCPHERSON CK, ROWE BC. Repeated significance tests on Accumulating data. Journal of the Royal Statistical Society 1969; 132: 235-44.
10. LAN KKG, DE METS DL. Discrete sequential boundaries for clinical trials. Biometrika 1983; 70: 659-63.
11. KIM K, DE METS DL. Design and analysis of group sequential tests based on the type I error spending function rate. Biometrika 1987; 74: 149-54.
12. Hwang IK, SHIH WJ, DE CANI JS. Group sequential designs using a family of type l error probability spending functions. Statistics in Medicine 1990; 9: 1439-1445.
13. PETO R, PIKE MC, Armitage P, Breslow A, COX DR, HOWARD SV, ESTOVALLES N, MCPHERSON K, PETO J, SMITH PG. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. B J Cancer 1976; 34: 585-612.
14. Pocock SJ. Group sequential methods in the design and analysis of clinical trials. Biometrika 1977; 64: 1919.
15. O Brien PC, FLEMING TH. A múltiple testing procedure for clinical trials. Biometrics 1979; 35: 549-56.
16. D’METS DL, LAN KKG. Interim analyses: the alpha spending function approach, Statistics in Medicine 1994; 13: 1341-1352.