Introducción
Antes de un ensayo de intervención definitivo, se puede realizar un estudio piloto. Los ensayos piloto son a menudo versiones pequeñas del ensayo principal, realizadas para probar métodos y procedimientos de ensayo.1,2 El objetivo general de los estudios piloto es demostrar que se puede realizar un ensayo en el futuro. Para alcanzar este objetivo, hay una serie de objetivos para un estudio piloto que incluyen evaluar las tasas de reclutamiento y retención, obtener estimaciones de los parámetros necesarios para el cálculo del tamaño de la muestra y proporcionar pruebas preliminares del potencial de eficacia.3-6
Ilustramos cómo utilizar los estudios piloto para informar el diseño de futuros ensayos controlados aleatorios (ECA) para que la probabilidad de responder a la pregunta de investigación sea alta. Mostramos cómo los estudios piloto pueden abordar cada uno de los objetivos enumerados anteriormente, cómo diseñar de manera óptima un ensayo piloto y cómo realizar un análisis de sensibilidad del tamaño de la muestra. Nuestro ejemplo utiliza un resultado continuo, pero la mayor parte del contenido se puede aplicar a estudios piloto en general.
Consideraciones para el diseño del ensayo
Al diseñar un ensayo definitivo, se debe tener en cuenta
- El tamaño del efecto objetivo, como la diferencia de medias para los resultados continuos;
- La varianza sobre las estimaciones de resultados continuos, que se utiliza para dar una variedad de respuestas para las personas en el ensayo; Viabilidad
- , incluidas las tasas de remisión, reclutamiento y retención.
Los resultados de los ensayos piloto pueden informar cada uno de estos elementos. Factores como el error de tipo I y la potencia se establecen independientemente del piloto y se discuten en detalle en otra parte.7 Nos centramos en estudios piloto externos, en los que el ensayo se realiza antes del ensayo principal y los resultados no se combinan.8
Viabilidad
La primera consideración es la viabilidad: ¿podrán los investigadores reclutar el número requerido de participantes dentro del período de tiempo del estudio y retenerlos en el ensayo principal? Si bien la revisión de los registros clínicos se puede utilizar para dar alguna indicación del grupo de participantes potenciales, los estudios piloto proporcionan estimaciones del número de participantes que realmente se inscriben y dan su consentimiento para la aleatorización, y estas estimaciones se deben incluir en los manuscritos que informan los resultados del estudio piloto.9 Muchos ensayos tienen dificultades para alcanzar su objetivo de tamaño de muestra, lo que puede resultar en extensiones de ensayo o en que no se reclute a su tamaño de muestra preespecificado.10 La falta de reclutamiento es un problema importante en los ensayos financiados con fondos públicos del Reino Unido, donde el 45% no alcanza el tamaño de muestra objetivo.10 Junto con la revisión de ensayos previos en los mismos centros en poblaciones similares, los estudios piloto también pueden proporcionar estimaciones de las tasas de retención y adherencia.11 Los datos faltantes y los abandonos son problemas en la mayoría de los ECA 12 y deben considerarse en cada paso del proceso de investigación13,incluido el diseño, la notificación,9 y la progresión a un ensayo definitivo más grande.11,14
Tamaño del efecto objetivo y eficacia potencial
Hislop et al15 realizaron una revisión sistemática para identificar siete abordajes para determinar el tamaño del efecto objetivo para un ECA y los clasificaron como clínicamente importantes y / o realistas. Un tipo específico de diferencia clínicamente importante es el valor más pequeño que marcaría una diferencia para los pacientes o que podría cambiar la atención, una cantidad conocida como diferencia mínima importante (MID) o, a veces, diferencia mínimamente importante clínica. La media puede ser difícil de determinar, sobre todo porque puede cambiar con la población de pacientes. Sin embargo, investigadores de diversos campos han investigado la estimación media y proporcionan orientación sobre la estimación.16,17 En ausencia de una MEDIA conocida para los resultados continuos, en particular los resultados notificados por los pacientes, se ha recomendado un tamaño de efecto estandarizado15 entre 0,3 y 0,5.17,18 La opinión de los expertos también se utiliza para especificar diferencias importantes.15 Aunque algunos investigadores utilizan el tamaño del efecto piloto para impulsar el ensayo definitivo, esta es una práctica que debe evitarse en general, ya que la estimación es deficiente debido al pequeño tamaño de la muestra y es probable que induzca a error.19
El tamaño del efecto objetivo también debe ser realista, y el tamaño estimado del efecto y el intervalo de confianza (IC) del piloto pueden proporcionar alguna evidencia, es decir, si hay alguna indicación de que la intervención es efectiva y se podrían obtener diferencias importantes en el ensayo principal.5 El pequeño tamaño de muestra de un piloto hace que la estimación sea incierta, por lo que se debe tener precaución.19,20 Un enfoque para manejar esta incertidumbre es utilizar niveles de significación distintos del 5% «tradicional» para proporcionar evidencia preliminar de eficacia, con IC correspondientes como 85 y 75%, además de IC del 95%.21 Una figura que muestre estos valores CIs, MID y null puede ser una forma útil de mostrar los resultados piloto, al facilitar una evaluación tanto de la significación estadística como del potencial de significación clínica.31 Mientras que algunos autores argumentan en contra de llevar a cabo pruebas de hipótesis y evaluar la eficacia de los pilotos, incluso la eficacia potencial, la mayoría de los estudios piloto realizan pruebas de hipótesis.6 Enfatizamos fuertemente que las pruebas preliminares de eficacia de un estudio piloto no deben exagerarse, y los investigadores deben evitar la tentación de renunciar al ensayo principal.20,22
Estimación de la desviación estándar (DE)
La DE poblacional es otro elemento clave de la estimación del tamaño de la muestra para los resultados continuos, y su estimación es uno de los objetivos para la realización de un estudio piloto. Sin embargo, al igual que el tamaño del efecto, el SD puede estimarse imprecisamente debido al pequeño tamaño de la muestra del piloto. Se ha demostrado que el uso de la SD de un estudio piloto para diseñar un tamaño de muestra futuro a menudo resulta en un estudio con poca potencia.23,24 Por lo tanto, deben realizarse análisis de sensibilidad.
Análisis de sensibilidad para el tamaño de la muestra
Los análisis de sensibilidad son importantes para evaluar la solidez de los resultados del estudio a las suposiciones hechas en el análisis primario.25 También deben realizarse análisis de sensibilidad en la etapa de diseño26, que pueden tomar la forma de contabilizar la incertidumbre en la estimación calculando tamaños de muestra basados en una gama de FDS plausibles y tasas de retención/abandono escolar. Browne23 sugirió utilizar el límite superior del IC del 80% del estudio piloto para el DE para calcular el tamaño de la muestra en el ensayo posterior. También se puede considerar la SDs de la literatura.
Tamaño de la muestra del estudio piloto
Para tener la mejor oportunidad de responder a la pregunta de investigación, los investigadores deben considerar cuidadosamente el tamaño no solo del ensayo definitivo, sino también del piloto. Aunque los cálculos de potencia tradicionales no son apropiados para los estudios piloto (ya que el objetivo principal de un estudio piloto no es probar la superioridad de un tratamiento sobre el otro), es importante justificar el tamaño de la muestra. Si bien hay varias reglas generales para el tamaño de un estudio piloto, que van de 12 a 35 individuos por brazo,5,27 ninguna de estas pautas explica el tamaño probable del ensayo futuro.
Whitehead et al27 mostraron cómo, si conoce el tamaño del efecto objetivo del ensayo principal, puede estimar el tamaño de muestra óptimo del estudio piloto, minimizando el número de pacientes reclutados en los dos estudios. A partir de este trabajo, propusieron reglas empíricas escalonadas para estudios piloto basadas en el tamaño del efecto objetivo y el tamaño del ensayo futuro. Estas normas se resumen en el cuadro 1. Por ejemplo, si el ensayo futuro se diseñará en torno a un efecto pequeño, el número de pacientes por grupo para el estudio piloto debería ser de 25 para una potencia del 90%. El uso de estas reglas aumenta la probabilidad de poder apropiado para el juicio futuro. Gallos y Torgerson5 también recomiendan basar el tamaño del estudio piloto en el tamaño del futuro ensayo, si se conoce la SD.
Tabla 1 Reglas básicas escalonadas para el tamaño de la muestra del estudio piloto por brazo, como función del tamaño del efecto objetivo (diferencia estandarizada) y potencia del ensayo principal Notas: . También se muestra el tamaño probable correspondiente del ensayo principal. int es el brazo de intervención, y ctl es el brazo de control. |
Ejemplo
Supongamos que un equipo de investigación está planeando un piloto en previsión de diseñar un ensayo definitivo. El ensayo principal será un ECA de dos grupos en el que se comparará un nuevo régimen de cuidados de apoyo para pacientes de cáncer con la atención habitual, con evaluaciones al inicio, 6 semanas y 3 meses. Su desenlace primario es la calidad de vida a los 3 meses, medida por la Evaluación Funcional de la Terapia del Cáncer en General (FACT-G), un cuestionario de 27 elementos que cubre aspectos de bienestar físico, social, familiar, emocional y funcional.28
Tamaño de la muestra del estudio piloto
Para utilizar las reglas empíricas escalonadas para el tamaño de la muestra piloto, los investigadores deben considerar el tamaño del efecto objetivo y la SD para el ensayo principal a fin de calcular la diferencia estandarizada (tamaño del efecto). Encuentran que la estimación de FACT – G MID está entre tres y seis puntos29 y una estimación de DS a partir de la literatura30 es de 14 en poblaciones similares. Utilizando una estimación media de cuatro puntos y una DE DE 14, el tamaño del efecto estandarizado es de 4/14=0,29. Para una prueba principal con un 90% de potencia, deben usar un tamaño de muestra de 25 por brazo para el piloto (Tabla 1).
Resultados del estudio piloto
Supongamos que ahora los investigadores realizan el estudio piloto de 50 participantes con reclutamiento durante 2 meses. De los 100 participantes potenciales, 70 fueron remitidos por su oncólogo, 60 cumplieron los criterios de elegibilidad y 50 aceptaron participar. Esto indica una tasa de reclutamiento del 50% de los pacientes elegibles, a razón de 25 reclutamientos por mes. De los 50 participantes, 40 participantes completaron las tres evaluaciones; la retención es del 80%. Estas tasas ayudarán a estimar la duración principal del ensayo.
La diferencia en la calidad de vida entre los grupos a los 3 meses se estima en 3,1 puntos, con IC del 95% -1,8 a 8,0 y DE =11,2. La Figura 1 muestra varios IC demostrando que la intervención es prometedora, ya que cada IC contiene la MITAD de 4. Por lo tanto, se ha cumplido el objetivo del estudio piloto de proporcionar pruebas preliminares de eficacia.
Figura 1 Diferencia media en las puntuaciones FACT-G entre los grupos de intervención del estudio piloto y de control con intervalos de confianza. Abreviaturas: FACT-G, Evaluación Funcional del Tratamiento del Cáncer-Géneros; MEDIA, diferencia importante mínima. |
Cálculos de tamaño de muestra y análisis de sensibilidad
La tabla 2 muestra los tamaños de muestra basados en la DE del estudio piloto, su límite superior de IC del 80% (tomado como la raíz cuadrada del IC para la varianza) y la estimación original de la literatura. También se dan tamaños de muestra para la tasa de abandono observada (20%) y para >5 y <5%. Para una potencia del 90%, el tamaño de la muestra varía de 392 a 692. Para una potencia del 80%, los tamaños de muestra varían de 296 a 518. Obsérvese que el análisis de sensibilidad se cuantifica en términos del efecto de las hipótesis sobre el tamaño de la muestra. Un enfoque alternativo es fijar el tamaño de la muestra (en 392, por ejemplo) y observar cómo varía la potencia en función de las suposiciones.
la Tabla 2 Una gama de tamaños de muestra diferentes de abandono, tasa de contratación de personal, y se estima SD suponiendo un tamaño del efecto de cuatro puntos Notas: humillado en 1,5 años de contratación. Basado en la tasa de contratación del estudio piloto de 25 participantes al mes. Abreviatura: DE, desviación estándar. |
la Viabilidad del juicio principal
ahora Podemos considerar la viabilidad. Específicamente, ¿es probable que los investigadores puedan reclutar el número requerido de participantes dentro del período de tiempo del estudio? Sobre la base de la financiación y el tiempo de seguimiento de 3 meses, la contratación puede tardar 1,5 años. Si la tasa de reclutamiento piloto de 25 participantes por mes es una buena estimación, el estudio podrá reclutar e inscribir a 450 participantes. Esta cifra es inferior a varias de las estimaciones del cuadro 2. Tal vez sea necesario seguir examinando la forma de ampliar el grupo de participantes.
Conclusión
Hemos ilustrado cómo los estudios piloto pueden ayudar en el diseño de ensayos futuros con resultados continuos al proporcionar estimaciones de la DE de la población, evidencia del potencial de efectividad de la intervención y cuantificación de la viabilidad en forma de tasas de reclutamiento y retención. Hemos introducido directrices sobre el tamaño de la muestra del estudio piloto y hemos demostrado el análisis de sensibilidad del tamaño de la muestra. El ejemplo demostró cómo las estimaciones del tamaño de la muestra del ensayo principal pueden variar drásticamente al alterar plausiblemente las suposiciones.
La decisión de pasar de un ensayo piloto a un ensayo principal generalmente se toma utilizando estimaciones de viabilidad, así como cuestiones como la no adhesión al protocolo. Para obtener más información sobre la progresión, consulte Avery et al,11 y para obtener información sobre el contexto de los pilotos internos, consulte Hampson et al.14 Ya sea que los investigadores decidan avanzar a un ensayo definitivo o no, los resultados de los estudios piloto deben publicarse. Una extensión CONSORT para informar de los resultados de los estudios piloto y de viabilidad proporciona directrices detalladas.9
Reconocimientos
Esta investigación no recibió ninguna subvención específica de ninguna agencia de financiación en los sectores público, comercial o sin fines de lucro. La dirección actual de ALW es Southampton Clinical Trials Unit, University of Southampton, Southampton, Reino Unido.
Divulgación
El Profesor MLB cuenta con el apoyo del Centro Oncológico de la Universidad de Arizona, a través de la subvención P30CA023074 del NCI. El profesor SAJ está financiado por la Universidad de Sheffield. El Dr. ALW fue financiado por una beca de la Universidad de Sheffield. Los autores no informan de ningún otro conflicto de intereses en este trabajo.
Thabane L, Ma, J, Chu R, et al. Un tutorial sobre estudios piloto: el qué, el por qué y el cómo. BMC Med Res Del. 2010;10:1. |
|||
Arain M, Campbell MJ, Cooper CL, Lancaster GA. ¿Qué es un estudio piloto o de viabilidad? Una revisión de la práctica actual y la política editorial. BMC Med Res Del. 2010;10:67. |
|||
Craig P, Dieppe P, Macintyre S, et al. Developing and evaluating complex interventions: the new Medical Research Council guidance (en inglés). BMJ. 2008; 337: a1655. |
|||
Lancaster G, Campbell M, Eldridge S, et al. Ensayos en atención primaria: cuestiones estadísticas en el diseño, la realización y la evaluación de intervenciones complejas. Stat Methods Med Res. 2010; 19 (4): 349-377. |
|||
Pollas K, Torgerson DJ. Cálculos del tamaño de la muestra para ensayos piloto aleatorizados: un enfoque de intervalo de confianza. J Clin Epidemiol. 2013;66(2):197–201. |
|||
Shanyinde M, Pickering RM, Weatherall M. Preguntas y respuestas en el piloto y la viabilidad de los ensayos controlados aleatorios. BMC Med Res Del. 2011;11(1):117. |
|||
Julious SA. Tamaños de muestra para ensayos clínicos con datos normales. Stat Med. 2004;23(12):1921–1986. |
|||
Wittes J, Brittain E. The role of internal pilot studies in increasing the efficiency of clinical trials. Stat Med. 1990;9(1–2):65–72. |
|||
Eldridge SM, Chan CL, Campbell MJ, et al. Declaración CONSORT 2010: ampliación de los ensayos piloto aleatorios y de viabilidad. BMJ. 2016; 355: i5239. |
|||
Sully B, Julious SA, J. Nicholl A reinvestigation of recruitment to randomised, controlled, multicenter trials: a review of trials funded by two UK funding agencies. Prueba. 2013;14:166. |
|||
Avery KNL, PR Williamson, Apostar C, et al. Informing efficient randomised controlled trials: exploration of challenges in developing progression criteria for internal pilot studies. BMJ Abierto. 2017; 7(2): e013537. |
|||
Bell ML, Fiero M, Horton NJ, Hsu CH. Manejo de datos faltantes en ECA; una revisión de las principales revistas médicas. BMC Med Res Del. 2014;14(1):118. |
|||
Bell ML, Fairclough DL. Problemas prácticos y estadísticos en los datos faltantes para los resultados longitudinales notificados por los pacientes. Stat Methods Med Res. 2014; 23 (5): 440-459. |
|||
Hampson LV, Williamson PR, Wilby MJ, Jaki T. Un marco para la definición prospectiva de reglas de progresión para los estudios piloto internos de seguimiento del reclutamiento. Métodos estadísticos Med Res. Epub 2017 Ene 01. |
|||
Hislop J, Adewuyi TE, Vale LD, et al. Métodos para especificar la diferencia objetivo en un ensayo controlado aleatorio: revisión sistemática de la obtención de diferencias en ensayos (DELTA). PLoS Med. 2014; 11 (5): e1001645. |
|||
Revicki DA, Cella D, Hays RD, Sloan JA, Lenderking WR, Aaronson NK. Capacidad de respuesta y diferencias mínimas importantes en los resultados notificados por los pacientes. Resultados de Vida de Calidad de Salud. 2006;4:70. |
|||
el Rey M. Un punto de mínima diferencia importante (MID): una crítica de la terminología y los métodos. Expert Rev Pharmacoecon Outcomes Res. 2011; 11(2):171–184. |
|||
Norman GR, Sloan JA, Wyrwich KW. La universalidad verdaderamente notable de media desviación estándar: confirmación a través de otra mirada. Expert Rev Pharmacoecon Outcomes Res. 2004; 4 (5): 581-585. |
|||
Kraemer HC, Mintz J, Noda Una, Tinklenberg J, Yesavage JA. Precaución con respecto al uso de estudios piloto para guiar los cálculos de potencia para las propuestas de estudio. Arch Gen Psychiatry. 2006;63(5):484–489. |
|||
Loscalzo J. Piloto de pruebas en la investigación clínica: ¿de qué valor son? Circulación. 2009;119(13):1694–1696. |
|||
Lee CE, Whitehead AL, Jacques RM, Julious SA. Interpretación estadística de los ensayos piloto: ¿deberían reconsiderarse los umbrales de significación? BMC Med Res Del. 2014;14(1):41. |
|||
Lancaster GA, Dodd S, PR Williamson. Diseño y análisis de estudios piloto: recomendaciones de buenas prácticas. J Eval Clin Pract. 2004;10(2):307–312. |
|||
Browne RH. Sobre el uso de una muestra piloto para la determinación del tamaño de la muestra. Stat Med. 1995;14(17):1933–1940. |
|||
Vickers AJ. Potencia insuficiente en ensayos aleatorizados que informan un cálculo del tamaño de la muestra. J Clin Epidemiol. 2003;56(8):717–720. |
|||
Thabane L, Mbuagbaw L, Zhang S, et al. Un tutorial sobre análisis de sensibilidad en ensayos clínicos: el qué, el por qué, el cuándo y el cómo. BMC Med Res Del. 2013;13(1):92. |
|||
Lewis JA. Principios estadísticos para ensayos clínicos (ICH E9): nota introductoria sobre una directriz internacional. Stat Med. 1999; 18(15):1903–1942. |
|||
Whitehead Una, Julious S, Cooper C, Campbell MJ. Estimación del tamaño de la muestra de un ensayo piloto aleatorizado para minimizar el tamaño global de la muestra del ensayo para el ensayo piloto externo y el ensayo principal para una variable de resultado continuo. Métodos estadísticos Med Res. 2016;25(3):1057-1073. |
|||
Cella DF, Tulsky DS, Gris G, et al. Escala de evaluación funcional de la terapia del cáncer: desarrollo y validación de la medida general. J Clin Oncol. 1993;11(3):570–579. |
|||
Webster K, Cella D, Yost K. El sistema de medición de la evaluación funcional de la terapia de enfermedades crónicas (FACIT): propiedades, aplicaciones e interpretación. Resultados de Vida de Calidad de Salud. 2003;1:79. |
|||
Bell ML, McKenzie JE. Diseño de ensayos aleatorizados de psicooncología y ensayos aleatorizados por conglomerados: componentes de varianza y correlación intragrupo de las medidas psicosociales de uso común. Psicooncología. 2013;22(8):1738–1747. |
|||
Bell, ML, Fiero MH, Dhillon HM, Bray VJ y Vardy JL. Controversias estadísticas en la investigación del cáncer: uso de gráficos estandarizados del tamaño de los efectos para mejorar la interpretabilidad de los ensayos clínicos relacionados con el cáncer con resultados notificados por los pacientes. Ann Oncol. 2017;28(8):1730–1733. |