Einleitung
Vor einer endgültigen Interventionsstudie kann eine Pilotstudie durchgeführt werden. Pilotversuche sind oft kleine Versionen der Hauptstudie, die durchgeführt werden, um Versuchsmethoden und -verfahren zu testen.1,2 Übergeordnetes Ziel der Pilotstudien ist es, nachzuweisen, dass eine künftige Studie durchgeführt werden kann. Um dieses Ziel zu erreichen, gibt es eine Reihe von Zielen für eine Pilotstudie, darunter die Bewertung der Rekrutierungs- und Retentionsraten, das Erhalten von Schätzungen der Parameter, die für die Berechnung der Stichprobengröße erforderlich sind, und die Bereitstellung vorläufiger Nachweise für das Wirksamkeitspotenzial.3-6
Wir veranschaulichen, wie Pilotstudien verwendet werden können, um das Design zukünftiger randomisierter kontrollierter Studien (RCTs) so zu gestalten, dass die Wahrscheinlichkeit, die Forschungsfrage zu beantworten, hoch ist. Wir zeigen, wie Pilotstudien jedes der zuvor aufgeführten Ziele erreichen können, wie man einen Pilotversuch optimal gestaltet und wie man eine Stichprobengrößensensitivitätsanalyse durchführt. Unser Beispiel verwendet ein kontinuierliches Ergebnis, aber der größte Teil des Inhalts kann auf Pilotstudien im Allgemeinen angewendet werden.
Überlegungen zum Studiendesign
Beim Entwurf einer definitiven Studie muss die Zieleffektgröße berücksichtigt werden, z. B. die Differenz der Mittelwerte für kontinuierliche Ergebnisse;
Die Ergebnisse von Pilotversuchen können jedes dieser Elemente beeinflussen. Faktoren wie Typ-I-Fehler und Leistung werden unabhängig vom Piloten eingestellt und an anderer Stelle ausführlich erörtert.7 Wir konzentrieren uns auf externe Pilotstudien, bei denen die Studie vor der Hauptstudie durchgeführt wird und die Ergebnisse nicht kombiniert werden.8
Machbarkeit
Die erste Überlegung ist die Machbarkeit: werden die Forscher in der Lage sein, die erforderliche Anzahl von Teilnehmern innerhalb des Studienzeitrahmens zu rekrutieren und sie in der Hauptstudie zu behalten? Während die Überprüfung klinischer Aufzeichnungen verwendet werden kann, um einen Hinweis auf einen potenziellen Teilnehmerpool zu geben, Pilotstudien liefern Schätzungen der Anzahl der Teilnehmer, die sich tatsächlich einschreiben und der Randomisierung zustimmen, und diese Schätzungen sollten in die Manuskripte aufgenommen werden, die die Ergebnisse der Pilotstudie melden.9 Viele Studien haben Schwierigkeiten, ihr Ziel für die Stichprobengröße zu erreichen, was dazu führen kann, dass die Studie verlängert wird oder die vorgegebene Stichprobengröße nicht erreicht wird.10 Die fehlende Rekrutierung ist ein Hauptproblem in öffentlich finanzierten Studien im Vereinigten Königreich, in denen 45% die Zielstichprobengröße nicht erreichen.10 Neben der Überprüfung früherer Studien an denselben Zentren in ähnlichen Populationen können Pilotstudien auch Schätzungen der Retentionsraten und Adhärenzraten liefern.11 Fehlende Daten und Studienabbrüche sind Probleme in den meisten RCTs12 und müssen bei jedem Schritt des Forschungsprozesses berücksichtigt werden13, einschließlich Design, Berichterstattung,9 und Fortschreiten zu einer größeren definitiven Studie.11,14
Zieleffektgröße und potenzielle Wirksamkeit
Hislop et al15 führten eine systematische Überprüfung durch, um sieben Ansätze zur Bestimmung der Zieleffektgröße für eine RCT zu identifizieren und sie als klinisch wichtig und / oder realistisch einzustufen. Eine spezifische Art von klinisch wichtigem Unterschied ist der kleinste Wert, der einen Unterschied für Patienten machen würde oder die Pflege ändern könnte, eine Menge, die als Minimum Important Difference (MID) bezeichnet wird, oder manchmal minimal klinisch wichtiger Unterschied. Die MID kann schwierig zu bestimmen sein, zumal sie sich mit der Patientenpopulation ändern kann. Forscher auf verschiedenen Gebieten haben jedoch die MID-Schätzung untersucht und geben Hinweise zur Schätzung.16,17 In Ermangelung eines bekannten Indikators für kontinuierliche Ergebnisse, insbesondere von Patienten berichtete Ergebnisse, wurde eine standardisierte Effektgröße15 zwischen 0,3 und 0,5 empfohlen.17,18 Expertenmeinung wird auch verwendet, um wichtige Unterschiede zu spezifizieren.15 Obwohl einige Forscher die Piloteffektgröße für die definitive Studie verwenden, sollte diese Praxis im Allgemeinen vermieden werden, da die Schätzung aufgrund der geringen Stichprobengröße schlecht ist und wahrscheinlich irreführend ist.19
Die Zieleffektgröße muss ebenfalls realistisch sein, und die geschätzte Effektgröße und das Konfidenzintervall (CI) des Piloten können hier einige Hinweise geben, dh ob es Hinweise darauf gibt, dass die Intervention wirksam ist und wichtige Unterschiede in der Hauptstudie erhalten werden könnten.5 Die geringe Stichprobengröße eines Piloten macht die Schätzung unsicher, daher ist Vorsicht geboten.19,20 Ein Ansatz zur Behandlung dieser Unsicherheit besteht darin, andere Signifikanzniveaus als die „traditionellen“ 5% zu verwenden, um vorläufige Nachweise für die Wirksamkeit zu erbringen, wobei entsprechende CIs wie 85 und 75% zusätzlich zu 95% CIs verwendet werden.21 Eine Abbildung, die diese CIs, den MID und den Nullwert zeigt, kann eine hilfreiche Methode zur Anzeige von Pilotergebnissen sein, indem sie eine Bewertung sowohl der statistischen Signifikanz als auch des Potenzials für die klinische Signifikanz erleichtert.31 Während einige Autoren gegen die Durchführung von Hypothesentests und die Bewertung der Wirksamkeit von Piloten, sogar der potenziellen Wirksamkeit, argumentieren, führen die meisten Pilotstudien Hypothesentests durch.6 Wir betonen nachdrücklich, dass vorläufige Wirksamkeitsnachweise aus einer Pilotstudie nicht überbewertet werden sollten, und Forscher sollten die Versuchung vermeiden, auf die Hauptstudie zu verzichten.20,22
Schätzung der Standardabweichung (SD)
Die Populations-SD ist ein weiteres Schlüsselelement der Stichprobengrößenschätzung für kontinuierliche Ergebnisse, und ihre Schätzung ist eines der Ziele für die Durchführung einer Pilotstudie. Ähnlich wie bei der Effektgröße kann die SD jedoch aufgrund der geringen Stichprobengröße des Piloten ungenau geschätzt werden. Es hat sich gezeigt, dass die Verwendung des SD einer Pilotstudie zum Entwerfen einer zukünftigen Stichprobengröße häufig zu einer unterdurchschnittlichen Studie führt.23,24 Daher sollten Sensitivitätsanalysen durchgeführt werden.
Sensitivitätsanalyse für die Stichprobengröße
Sensitivitätsanalysen sind wichtig, um die Robustheit der Studienergebnisse gegenüber den in der Primäranalyse getroffenen Annahmen zu beurteilen.25 Sensitivitätsanalysen sollten auch in der Entwurfsphase durchgeführt werden26 und können in Form der Berücksichtigung der Unsicherheit bei der Schätzung durch Berechnung der Stichprobengrößen auf der Grundlage einer Reihe plausibler SDs und der Retention- / Dropout-Raten erfolgen. Browne23 schlug vor, die obere Grenze der Pilotstudie von 80% CI für die SD zu verwenden, um die Stichprobengröße in der nachfolgenden Studie zu berechnen. Man kann auch SDs aus der Literatur betrachten.
Stichprobengröße der Pilotstudie
Um die beste Chance zu haben, die Forschungsfrage zu beantworten, sollten Forscher die Größe nicht nur der endgültigen Studie, sondern auch der Pilotstudie sorgfältig prüfen. Obwohl traditionelle Leistungsberechnungen für Pilotstudien ungeeignet sind (da das Hauptziel einer Pilotstudie nicht darin besteht, die Überlegenheit einer Behandlung gegenüber der anderen zu testen), ist eine Stichprobengröße wichtig. Während es mehrere Faustregeln für die Größe einer Pilotstudie gibt, die von 12 bis 35 Personen pro Arm reichen,5,27 Keine dieser Richtlinien berücksichtigt die wahrscheinliche Größe der zukünftigen Studie.Whitehead et al27 zeigten, wie Sie, wenn Sie die Zieleffektgröße der Hauptstudie kennen, die optimale Stichprobengröße der Pilotstudie abschätzen können, wodurch die Anzahl der Patienten, die in den beiden Studien rekrutiert wurden, minimiert wird. Aus dieser Arbeit schlugen sie zwei Faustregeln für Pilotstudien vor, die auf der Zieleffektgröße und der Größe der zukünftigen Studie basieren. Diese Regeln sind in Tabelle 1 zusammengefasst. Wenn die zukünftige Studie beispielsweise auf einen kleinen Effekt ausgelegt ist, sollte die Anzahl der Patienten pro Arm für die Pilotstudie 25 für 90% Leistung betragen. Die Verwendung dieser Regeln erhöht die Wahrscheinlichkeit einer angemessenen Leistung für den zukünftigen Prozess. Cocks und Torgerson5 empfehlen auch, die Größe der Pilotstudie auf die Größe der zukünftigen Studie zu stützen, wenn die SD bekannt ist.
Tabelle 1: Faustregeln für die Stichprobengröße der Pilotstudie pro Arm in Abhängigkeit von der Zieleffektgröße (standardisiert unterschied) und Leistung der Hauptstudie Anmerkungen: . Die entsprechende wahrscheinliche Größe der Hauptstudie wird ebenfalls angezeigt. int ist der Interventionsarm und ctl ist der Kontrollarm. |
Beispiel
Angenommen, ein Forschungsteam plant ein Pilotprojekt in Erwartung einer endgültigen Studie. Die Hauptstudie wird eine zweiarmige RCT sein, bei der ein neues unterstützendes Behandlungsschema für Krebspatienten mit der üblichen Behandlung verglichen wird Bewertungen zu Studienbeginn, 6 Wochen und 3 Monate. Ihr primäres Ergebnis ist die Lebensqualität nach 3 Monaten, gemessen an der Functional Assessment of Cancer Therapy-General (FACT-G), einem 27-Punkte-Fragebogen, der Aspekte des körperlichen, sozialen, familiären, emotionalen und funktionellen Wohlbefindens abdeckt.28
Pilotstudienstichprobengröße
Um die gleichen Faustregeln für die Pilotstichprobengröße zu verwenden, müssen die Forscher die Zieleffektgröße und SD für die Hauptstudie berücksichtigen, um die standardisierte Differenz (Effektgröße) zu berechnen. Sie stellen fest, dass der geschätzte FAKT-G-MID zwischen drei und sechs Punkten liegt29 und eine SD-Schätzung aus der Literatur30 ist 14 in ähnlichen Populationen. Unter Verwendung einer MID-Schätzung von vier Punkten und einer SD von 14 beträgt die standardisierte Effektgröße 4/14 = 0,29. Für eine zu 90% angetriebene Hauptstudie sollten sie eine Stichprobengröße von 25 pro Arm für den Piloten verwenden (Tabelle 1).
Ergebnisse der Pilotstudie
Angenommen, jetzt führen die Forscher die Pilotstudie mit 50 Teilnehmern mit Rekrutierung über 2 Monate durch. Von den 100 potenziellen Teilnehmern wurden 70 Teilnehmer von ihrem Onkologen überwiesen, 60 Teilnehmer erfüllten die Zulassungskriterien und 50 Teilnehmer stimmten der Teilnahme zu. Dies deutet auf eine Rekrutierungsrate von 50% der in Frage kommenden Patienten bei 25 Rekrutierungen pro Monat hin. Von den 50 Teilnehmern haben 40 Teilnehmer alle drei Assessments abgeschlossen; die Retention beträgt 80%. Diese Raten helfen bei der Schätzung der Hauptversuchsdauer.
Der Unterschied in der Lebensqualität zwischen den Armen nach 3 Monaten wird auf 3,1 Punkte geschätzt, mit 95% CI -1,8 bis 8,0 und SD =11,2. Abbildung 1 zeigt mehrere CIs, die zeigen, dass die Intervention vielversprechend ist, da jedes CI die MID von 4 enthält. Damit wurde das Ziel der Pilotstudie, einen vorläufigen Wirksamkeitsnachweis zu erbringen, erreicht.
Abbildung 1 Mittlere Differenz der FACT-G-Werte zwischen Pilotstudienintervention und Kontrollarmen mit Konfidenzintervallen.Abkürzungen: FACT-G, Functional Assessment of Cancer Therapy-Genera; MID, minimum wichtiger Unterschied. |
Stichprobengrößenberechnungen und Sensitivitätsanalysen
Tabelle 2 zeigt Stichprobengrößen basierend auf der SD der Pilotstudie, ihrer oberen 80% CI-Grenze (als Quadratwurzel des CI für die Varianz) und der ursprünglichen Schätzung aus der Literatur. Stichprobengrößen sind auch für die beobachtete Dropout-Rate (20%) und für >5 und <5% angegeben. Für 90% Leistung reicht die Stichprobengröße von 392 bis 692. Für 80% Leistung reichen die Stichprobengrößen von 296 bis 518. Beachten Sie, dass die Sensitivitätsanalyse anhand der Auswirkung von Annahmen auf die Stichprobengröße quantifiziert wird. Ein alternativer Ansatz besteht darin, die Stichprobengröße (bei 392 MB) festzulegen und zu beobachten, wie die Leistung basierend auf Annahmen variiert.
Tabelle 2 Eine Reihe von Stichprobengrößen mit unterschiedlichem Dropout, Rekrutierungsrate und geschätzter SD unter der Annahme einer Effektgröße von vier Punkten Anmerkungen: Basierend auf 1,5 Jahren Rekrutierung. Bbasierend auf der Rekrutierungsrate der Pilotstudie von 25 Teilnehmern pro Monat. Abkürzung: SD, Standardabweichung. |
Machbarkeit der Hauptstudie
Wir prüfen nun die Machbarkeit. Insbesondere sind die Forscher wahrscheinlich in der Lage, die erforderliche Anzahl von Teilnehmern innerhalb des Studienzeitrahmens zu rekrutieren? Basierend auf der Finanzierung und der Nachbeobachtungszeit von 3 Monaten kann die Rekrutierung 1,5 Jahre dauern. Wenn die Pilotrekrutierungsrate von 25 Teilnehmern pro Monat eine gute Schätzung ist, kann die Studie 450 Teilnehmer rekrutieren und einschreiben. Dies unterschreitet einige der Schätzungen in Tabelle 2. Möglicherweise müssen weitere Überlegungen angestellt werden, wie der Teilnehmerpool erweitert werden kann.
Fazit
Wir haben gezeigt, wie Pilotstudien bei der Gestaltung zukünftiger Studien mit kontinuierlichen Ergebnissen helfen können, indem sie Schätzungen der Populations-SD, den Nachweis des Potenzials für die Interventionswirksamkeit und die Quantifizierung der Machbarkeit in Form von Rekrutierungs- und Retentionsraten liefern. Wir haben Richtlinien für die Stichprobengröße der Pilotstudie eingeführt und die Sensitivitätsanalyse der Stichprobengröße demonstriert. Das Beispiel zeigte, wie Schätzungen der Stichprobengröße der Hauptstudie dramatisch variieren können, indem Annahmen plausibel geändert werden.Die Entscheidung, von einer Pilotstudie zu einer Hauptstudie überzugehen, wird im Allgemeinen anhand von Machbarkeitsschätzungen sowie anhand von Fragen wie der Nichteinhaltung des Protokolls getroffen. Weitere Informationen zum Fortschreiten finden Sie unter Avery et al.,11 und Informationen zum Kontext interner Piloten finden Sie unter Hampson et al.14 Unabhängig davon, ob Forscher sich für eine endgültige Studie entscheiden oder nicht, sollten die Ergebnisse von Pilotstudien veröffentlicht werden. Eine CONSORT-Erweiterung für die Berichterstattung über Ergebnisse von Pilot- und Machbarkeitsstudien gibt detaillierte Richtlinien.9
Danksagungen
Diese Forschung erhielt keine spezifische Förderung von einer Förderstelle im öffentlichen, kommerziellen oder gemeinnützigen Sektor. Die aktuelle Adresse von ALW ist Southampton Clinical Trials Unit, University of Southampton, Southampton, UK.
Offenlegung
Professor MLB wird vom Krebszentrum der Universität von Arizona durch den NCI-Zuschuss P30CA023074 unterstützt. Professor SAJ wird von der University of Sheffield finanziert. Dr. ALW wurde durch ein Stipendium der University of Sheffield finanziert. Die Autoren berichten keine anderen Interessenkonflikte in dieser Arbeit.
Thabane L, Ma J, Chu R, et al. Ein Tutorial zu Pilotstudien: das Was, Warum und wie. In: BMC Med Res Methodol. 2010;10:1.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Was ist eine Pilot- oder Machbarkeitsstudie? Eine Überprüfung der aktuellen Praxis und Redaktionspolitik. In: BMC Med Res Methodol. 2010;10:67.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Entwicklung und Bewertung komplexer Interventionen: die neue Anleitung des Medical Research Council. BMJ. 2008;337:a1655.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Studien in der Grundversorgung: statistische Fragen bei der Konzeption, Durchführung und Bewertung komplexer Interventionen. Stat Methoden Med Res. 2010;19(4): 349-377.In: |
||
Shanyinde M, Pickering RM, Weatherall M. Fragen, die in randomisierten kontrollierten Pilot- und Machbarkeitsstudien gestellt und beantwortet wurden. In: BMC Med Res Methodol. 2011;11(1):117.In der Tat ist es sehr wichtig, dass Sie wissen, was Sie tun müssen. Stichprobengrößen für klinische Studien mit normalen Daten. In: Stat Med. 2004;23(12):1921–1986. |
||
Wittes J, Brittain E. Die Rolle interner Pilotstudien bei der Steigerung der Effizienz klinischer Studien. In: Stat Med. 1990;9(1–2):65–72.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. CONSORT 2010 Statement: Erweiterung auf randomisierte Pilot- und Machbarkeitsstudien. BMJ. 2016;355:i5239. |
||
Sully B, Julious SA, Nicholl J. Eine erneute Untersuchung der Rekrutierung für randomisierte, kontrollierte, multizentrische Studien: Eine Überprüfung der von zwei britischen Finanzierungsagenturen finanzierten Studien. Irrungen. 2013;14:166.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Effizientere randomisierte kontrollierte Studien: Untersuchung der Herausforderungen bei der Entwicklung von Progressionskriterien für interne Pilotstudien. BMJ Offen. 2017;7(2):e013537.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Umgang mit fehlenden Daten in RCTs; eine Überprüfung der Top-medizinischen Fachzeitschriften. In: BMC Med Res Methodol. 2014;14(1):118.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Praktische und statistische Probleme bei fehlenden Daten für longitudinale von Patienten berichtete Ergebnisse. Stat Methoden Med Res. 2014;23(5): 440-459. |
||
Hampson LV, Williamson PR, Wilby MJ, Jaki T. Ein Rahmen zur prospektiven Definition von Progressionsregeln für interne Pilotstudien zur Überwachung der Rekrutierung. Statistik Methoden Med Res. Epub 2017 Jan 01.Hislop J, Adewuyi TE, Vale LD, et al. Methoden zur Spezifizierung der Zieldifferenz in einer randomisierten kontrollierten Studie: the Difference ELicitation in TriAls (DELTA) systematische Überprüfung. PLoS Med. 2014;11(5):e1001645.In den folgenden Jahren hat sich die Zahl der Neuzugänge deutlich erhöht. Ansprechbarkeit und minimale wichtige Unterschiede für die vom Patienten berichteten Ergebnisse. Gesundheit Qual Leben Ergebnisse. 2006;4:70. |
||
King M. Ein Punkt von minimal important difference (MID): eine Kritik der Terminologie und Methoden. Sachverständiger für Pharmacoecontrol Res. 2011;11(2):171–184.In der Tat ist es sehr wichtig, dass Sie wissen, was Sie tun müssen, um Ihre Gesundheit zu verbessern. Die wirklich bemerkenswerte Universalität einer halben Standardabweichung: Bestätigung durch einen anderen Blick. Experte Rev Pharmacoecon Outcomes Res. 2004;4(5): 581-585.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Vorsicht bei der Verwendung von Pilotstudien zur Leistungsberechnung für Studienvorschläge. Arch Gen Psychiatrie. 2006;63(5):484–489. |
||
Loscalzo J. Pilotversuche in der klinischen Forschung: von welchem Wert sind sie? Durchblutung. 2009;119(13):1694–1696.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Die statistische Interpretation von Pilotversuchen: Sollten Signifikanzschwellen neu überdacht werden? In: BMC Med Res Methodol. 2014;14(1):41.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Entwurf und Analyse von Pilotstudien: Empfehlungen für bewährte Verfahren. In: J Eval Clin Pract. 2004;10(2):307–312.In der Tat ist es sehr wichtig, dass Sie wissen, was Sie tun müssen. Über die Verwendung einer Pilotprobe zur Bestimmung der Stichprobengröße. In: Stat Med. 1995;14(17):1933–1940.In: Vickers AJ. Underpowering in randomisierten Studien, die eine Stichprobengrößenberechnung melden. J Clin Epidemiol. 2003;56(8):717–720. |
||
Thabane L, Mbuagbaw L, Zhang S, et al. Ein Tutorial zu Sensitivitätsanalysen in klinischen Studien: das Was, Warum, wann und wie. In: BMC Med Res Methodol. 2013;13(1):92.In diesem Fall ist es möglich, dass Sie Ihre E-Mail-Adresse ändern. Statistische Grundlagen für klinische Studien (ICH E9): einleitende Anmerkung zu einer internationalen Leitlinie. In: Stat Med. 1999; 18(15):1903–1942.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Schätzung der Stichprobengröße für eine randomisierte Pilotstudie zur Minimierung der Gesamtstichprobengröße für die externe Pilot- und Hauptstudie für eine kontinuierliche Ergebnisvariable. Stat Methoden Med Res. 2016;25(3): 1057-1073.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Die funktionelle Bewertung der Krebstherapieskala: Entwicklung und Validierung der allgemeinen Maßnahme. In: J Clin Oncol. 1993;11(3):570–579. |
||
Webster K, Cella D, Yost K. Die funktionelle Bewertung der chronischen Krankheit Therapie (FACIT) Messsystem: Eigenschaften, Anwendungen und Interpretation. Gesundheit Qual Leben Ergebnisse. 2003;1:79.In diesem Fall ist es wichtig, dass Sie sich an uns wenden. Gestaltung psychoonkologischer randomisierter Studien und Cluster-randomisierter Studien: Varianzkomponenten und Intra-Cluster-Korrelation häufig verwendeter psychosozialer Maßnahmen. Psychoonkologie. 2013;22(8):1738–1747.Es gibt viele verschiedene Arten von Pflanzen, die in der Natur vorkommen. Statistische Kontroversen in der Krebsforschung: Verwendung standardisierter Effektgrößendiagramme zur Verbesserung der Interpretierbarkeit krebsbedingter klinischer Studien mit vom Patienten berichteten Ergebnissen. Ann Oncol. 2017;28(8):1730–1733. |