Introduction
voorafgaand aan een definitieve interventieproef kan een pilotstudie worden uitgevoerd. Pilot trials zijn vaak kleine versies van de hoofdproef, die worden uitgevoerd om proefmethoden en-procedures te testen.1.2 het algemene doel van pilotstudies is aan te tonen dat een toekomstige proef kan worden uitgevoerd. Om dit doel te bereiken, zijn er een aantal doelstellingen voor een pilotstudie, waaronder het beoordelen van wervings-en retentiepercentages, het verkrijgen van schattingen van parameters die nodig zijn voor de berekening van de steekproefgrootte, en het verstrekken van voorlopige bewijzen van het potentieel voor werkzaamheid.3-6
we illustreren hoe pilotstudies kunnen worden gebruikt om het ontwerp van toekomstige gerandomiseerde gecontroleerde studies (RCT ‘ s) te informeren, zodat de kans op het beantwoorden van de onderzoeksvraag groot is. We laten zien hoe pilotstudies elk van de eerder genoemde doelstellingen kunnen aanpakken, hoe je een pilot trial optimaal kunt ontwerpen en hoe je de gevoeligheidsanalyse van de steekproefgrootte kunt uitvoeren. Ons voorbeeld maakt gebruik van een continu resultaat, maar de meeste inhoud kan worden toegepast op pilotstudies in het algemeen.
overwegingen voor de opzet van het onderzoek
bij het ontwerpen van een definitieve studie moet rekening worden gehouden met
- de omvang van het doeleffect, zoals het verschil in middelen voor continue resultaten;
- de variantie over de schattingen voor continue resultaten, die wordt gebruikt om een reeks reacties voor individuen in de studie te geven;
- haalbaarheid, inclusief verwijzings -, wervings-en retentiepercentages.
resultaten van proefstudies kunnen elk van deze elementen informeren. Factoren zoals type I fout en vermogen worden onafhankelijk van de piloot ingesteld en worden elders in detail besproken.7 We richten ons op externe pilotstudies, waarbij de proef vóór de hoofdstudie wordt uitgevoerd en de resultaten niet worden gecombineerd.8
haalbaarheid
eerste overweging is haalbaarheid: zullen de onderzoekers in staat zijn om het vereiste aantal deelnemers binnen de studietijd te werven en te behouden in de hoofdstudie? Terwijl herziening van klinische dossiers kan worden gebruikt om enige indicatie van potentiële deelnemer pool geven, pilot studies schattingen van het aantal deelnemers dat daadwerkelijk inschrijven en toestemming voor Randomisatie, en deze schattingen moeten worden opgenomen in de manuscripten die de pilot study resultaten rapporteren.9 veel proeven worstelen om hun steekproefgrootte doel te bereiken, wat kan resulteren in trial extensions of het niet werven om hun vooraf gespecificeerde steekproefgrootte.10 het niet werven van personeel is een belangrijk probleem in door de overheid gefinancierde onderzoeken in het Verenigd Koninkrijk, waar 45% de streefgrootte van de steekproef niet haalt.10 samen met herziening van eerdere proeven op dezelfde centra in vergelijkbare populaties, kunnen pilootstudies ook schattingen van retentiepercentages en therapiepercentages geven.11 ontbrekende gegevens en uitval zijn problemen in de meeste RCTs12 en moeten worden overwogen bij elke stap van het onderzoeksproces,13 inclusief ontwerp, rapportage,9 en progressie naar een grotere definitieve proef.11,14
Target effect size and potential efficacy
Hislop et al15 ondernamen een systematische evaluatie om zeven benaderingen te identificeren voor het bepalen van de target effect size voor een RCT en classificeerden deze als klinisch belangrijk en/of realistisch. Een specifiek type klinisch belangrijk verschil is de kleinste waarde die een verschil zou maken voor patiënten of die de zorg zou kunnen veranderen, een hoeveelheid aangeduid als het minimum belangrijk verschil (MID), of soms minimaal klinisch belangrijk verschil. Het midden kan moeilijk te bepalen zijn, vooral omdat het kan veranderen met de patiëntenpopulatie. Echter, onderzoekers op verschillende gebieden hebben mid schatting onderzocht en bieden een leidraad voor de schatting.Bij afwezigheid van een bekend MID voor continue uitkomsten, met name door patiënten gerapporteerde uitkomsten, is een gestandaardiseerde effectsize15 tussen 0,3 en 0,5 aanbevolen.17,18 deskundigenadvies wordt ook gebruikt om belangrijke verschillen te specificeren.Hoewel sommige onderzoekers gebruik maken van de pilot effect size om de definitieve proef, dit is een praktijk die moet worden vermeden in het algemeen, als schatting is slecht als gevolg van de kleine steekproefgrootte, en is waarschijnlijk misleidend.19
de beoogde effectgrootte moet ook realistisch zijn, en de geschatte effectgrootte en betrouwbaarheidsinterval (bi) van de pilot kunnen hier enig bewijs leveren, dat wil zeggen of er enige aanwijzing is dat de interventie effectief is en dat er belangrijke verschillen kunnen worden verkregen in de hoofdstudie.5 de kleine steekproefgrootte van een piloot maakt schatting onzeker, dus voorzichtigheid moet worden betracht.19,20 een aanpak voor het omgaan met deze onzekerheid is om andere significantieniveaus dan de “traditionele” 5% te gebruiken om voorlopig bewijs voor de werkzaamheid te leveren, met overeenkomstige CIs zoals 85 en 75% naast 95% CIs.21 een figuur met deze CIs, de MID en de nulwaarde kan een nuttige manier zijn om proefresultaten weer te geven, door een beoordeling van zowel de statistische significantie als de potentiële klinische significantie te vergemakkelijken.Terwijl sommige auteurs tegen het uitvoeren van hypothesetests en het beoordelen van de werkzaamheid van pilots, zelfs potentiële effectiviteit, pleiten, voeren de meeste pilotstudies wel hypothesetests uit.6 We benadrukken sterk dat voorlopige werkzaamheidsgegevens uit een pilotstudie niet moeten worden overschat en dat onderzoekers de verleiding moeten vermijden om van de hoofdstudie af te zien.20,22
Het schatten van de standaardafwijking (SD)
de populatie SD is een ander belangrijk element van de schatting van de steekproefgrootte voor continue resultaten, en de schatting ervan is een van de doelstellingen voor het uitvoeren van een pilotstudie. Echter, vergelijkbaar met de effectgrootte, kan de SD onnauwkeurig worden geschat vanwege de kleine steekproefgrootte van de pilot. Het gebruik van de SD van een pilotstudie om een toekomstige steekproefgrootte te ontwerpen, blijkt vaak te resulteren in een ondergedompeld onderzoek.Daarom moeten gevoeligheidsanalyses worden uitgevoerd.
gevoeligheidsanalyse voor steekproefgrootte
gevoeligheidsanalyses zijn belangrijk om de robuustheid van de studieresultaten te beoordelen ten opzichte van de veronderstellingen die in de primaire analyse zijn gemaakt.25 gevoeligheidsanalyses moeten ook in de ontwerpfase worden verricht26 en kunnen de vorm aannemen van een berekening van de onzekerheid bij de schatting door de steekproefgrootte te berekenen op basis van een reeks plausibele SDs en retentie/uitvalpercentages. Browne23 stelde voor om de bovengrens van de 80% bi van de pilotstudie voor de SD te gebruiken om de steekproefgrootte in het daaropvolgende onderzoek te berekenen. Men kan ook SDs uit de literatuur overwegen.
pilot study sample size
om de beste kans te hebben om de onderzoeksvraag te beantwoorden, moeten onderzoekers zorgvuldig de omvang van niet alleen de definitieve proef maar ook de pilot overwegen. Hoewel traditionele vermogensberekeningen niet geschikt zijn voor pilotstudies (aangezien het primaire doel van een pilotstudie niet is om de superioriteit van de ene behandeling ten opzichte van de andere te testen), is een rechtvaardiging van de steekproefgrootte belangrijk. Hoewel er verschillende vuistregels zijn voor de grootte van een pilotstudie, variërend van 12 tot 35 personen per arm,zijn 5,27 geen van deze richtlijnen verantwoordelijk voor de waarschijnlijke grootte van het toekomstige onderzoek.
Whitehead et al27 toonden aan hoe, Als u de doeleffectgrootte van de hoofdstudie kent, u de optimale steekproefgrootte van de pilotstudie kunt inschatten, waardoor het aantal patiënten dat in de twee studies werd gerekruteerd, tot een minimum wordt beperkt. Op basis van dit werk, stelden ze stapsgewijze vuistregels voor pilotstudies op basis van de omvang van het doeleffect en de omvang van de toekomstige proef. Deze regels zijn samengevat in Tabel 1. Bijvoorbeeld, als de toekomstige studie zal worden ontworpen rond een klein effect,dan moet het aantal patiënten per arm voor de pilot studie 25 voor 90% vermogen. Het gebruik van deze regels verhoogt de kans op de juiste macht voor de toekomstige proef. Cocks en Torgerson5 adviseren ook om de omvang van de pilotstudie te baseren op de omvang van de toekomstige proef, als de SD bekend is.
voorbeeld
stel dat een onderzoeksteam een proef plant in afwachting van het ontwerpen van een definitieve proef. Het hoofdonderzoek zal een tweearmige RCT zijn waarin een nieuw ondersteunend zorgregime voor kankerpatiënten wordt vergeleken met de gebruikelijke zorg, met beoordelingen bij baseline, 6 weken en 3 maanden. Hun primaire resultaat is de kwaliteit van leven na 3 maanden zoals gemeten door de Functional Assessment of Cancer Therapy-General (FACT-G), een 27-item vragenlijst over aspecten van fysieke, sociale, familie, emotionele en functionele welzijn.
Pilot study sample size
om de stapsgewijze vuistregels voor de pilot sample size te gebruiken, moeten de onderzoekers de doeleffectgrootte en SD voor de hoofdstudie in aanmerking nemen om het gestandaardiseerde verschil (effectgrootte) te berekenen. Ze vinden dat de geschatte FACT-G MID tussen de drie en zes punten29 en een SD-schatting van de literatuur30 is 14 in vergelijkbare populaties. Met behulp van een gemiddelde schatting van vier punten, en een SD van 14, is de gestandaardiseerde effectgrootte 4/14=0,29. Voor een 90% aangedreven hoofdonderzoek moeten zij een steekproefgrootte van 25 per arm gebruiken voor de pilot (Tabel 1).
resultaten van de pilotstudie
stel dat de onderzoekers nu de pilotstudie uitvoeren bij 50 deelnemers met rekrutering gedurende 2 maanden. Van de 100 potentiële deelnemers werden 70 deelnemers doorverwezen door hun oncoloog, 60 deelnemers voldeden aan de toelatingscriteria en 50 deelnemers kwamen overeen om deel te nemen. Dit duidt op een recruitmentpercentage van 50% van de in aanmerking komende patiënten, bij 25 recruitments per maand. Van de 50 deelnemers, 40 deelnemers afgerond alle drie de beoordelingen; retentie is 80%. Deze percentages zullen helpen bij het schatten van de duur van de belangrijkste proef.
het verschil in kwaliteit van leven tussen de armen na 3 maanden wordt geschat op 3,1 punten, met 95% BI -1,8 tot 8,0, en SD =11,2. Figuur 1 toont verschillende CI ‘ s die aantonen dat de interventie veelbelovend is, aangezien elke CI het midden van 4 bevat. De doelstelling van de pilotstudie om voorlopige bewijzen voor de werkzaamheid te leveren, is dus bereikt.
berekening van de steekproefgrootte en gevoeligheidsanalyses
Tabel 2 toont de steekproefgrootte op basis van de SD van de pilotstudie, de bovengrens van 80% CI (genomen als de vierkantswortel van de CI voor de variantie) en de oorspronkelijke schatting uit de literatuur. De steekproefgrootte wordt ook gegeven voor het waargenomen uitvalpercentage (20%) en voor >5 en <5%. Voor 90% vermogen varieert de steekproefgrootte van 392 tot 692. Voor 80% vermogen variëren de monstergroottes van 296 tot 518. Merk op dat de gevoeligheidsanalyse wordt gekwantificeerd in termen van het effect van veronderstellingen op de steekproefgrootte. Een alternatieve benadering is om de steekproefgrootte vast te stellen (op 392 zeg) en te observeren hoe de macht varieert op basis van veronderstellingen.
haalbaarheid van de hoofdstudie
we overwegen nu haalbaarheid. Specifiek, zijn de onderzoekers waarschijnlijk in staat om het vereiste aantal deelnemers binnen de studietijd te werven? Op basis van de financiering en de follow-up tijd van 3 maanden kan rekrutering 1,5 jaar duren. Als de pilot recruitment rate van 25 deelnemers per maand een goede schatting is, dan zal de studie in staat zijn om 450 deelnemers aan te werven en in te schrijven. Dit is minder dan een aantal van de ramingen in Tabel 2. Het kan nodig zijn verder na te gaan hoe de pool van deelnemers kan worden uitgebreid.
conclusie
We hebben geïllustreerd hoe pilotstudies kunnen helpen bij het ontwerpen van toekomstige proeven met continue resultaten door schattingen van de SD van de populatie, bewijs van mogelijke effectiviteit van interventie, en kwantificering van de haalbaarheid in de vorm van wervings-en retentiepercentages. We hebben richtlijnen geïntroduceerd voor pilot study steekproefgrootte en gedemonstreerd steekproefgrootte gevoeligheidsanalyse. Het voorbeeld toonde aan hoe de schattingen van de steekproefgrootte van de belangrijkste proef dramatisch kunnen variëren door aannemelijke veranderingen aan te nemen.
de beslissing om van een proefproef naar een hoofdproef over te gaan, wordt over het algemeen gemaakt aan de hand van haalbaarheidsramingen en kwesties zoals protocolonafhankelijkheid. Voor meer informatie over progressie, zie Avery et al,11 en voor informatie over de context van interne pilots, zie Hampson et al.14 of onderzoekers nu besluiten door te gaan naar een definitieve proef of niet, de resultaten van proefstudies moeten worden gepubliceerd. Een CONSORT extensie voor het rapporteren van de resultaten van pilot en haalbaarheidsstudies geeft gedetailleerde richtlijnen.9
erkenningen
Dit onderzoek ontving geen specifieke subsidie van een financieringsinstelling in de publieke, commerciële of non-profit sectoren. Het huidige adres van ALW is Southampton Clinical Trials Unit, University of Southampton, Southampton, Verenigd Koninkrijk.
Disclosure
Professor MLB wordt ondersteund door het University of Arizona Cancer Center, via NCI grant P30CA023074. Professor SAJ wordt gefinancierd door de Universiteit van Sheffield. Dr. ALW werd gefinancierd door een Universiteit van Sheffield studentship. De auteurs melden geen andere belangenconflicten in dit werk.
Thabane L, Ma J, Chu R, et al. Een tutorial over pilot studies: het wat, waarom en hoe. BMC Med Res Methodol. 2010;10:1. |
||
Arain M, Campbell MJ, Cooper CL, Lancaster GA. Wat is een pilot of haalbaarheidsstudie? Een overzicht van de huidige praktijk en het redactionele beleid. BMC Med Res Methodol. 2010;10:67. |
||
Craig P, Dieppe P, Macintyre S, et al. Ontwikkeling en evaluatie van complexe interventies: de nieuwe richtlijnen van de Medical Research Council. BMJ. 2008; 337:a1655. |
||
Lancaster G, Campbell M, Eldridge S, et al. Proeven in de eerstelijnszorg: statistische vraagstukken in het ontwerp, de uitvoering en de evaluatie van complexe interventies. Stat Methods Med Res. 2010; 19 (4): 349-377. |
||
Cocks K, Torgerson DJ. Berekening van de steekproefgrootte voor gerandomiseerde proefonderzoeken: een betrouwbaarheidsintervalbenadering. J Clin Epidemiol. 2013;66(2):197–201. |
||
Julious SA. Steekproefgrootte voor klinische onderzoeken met normale gegevens. Stat Med. 2004;23(12):1921–1986. |
||
Wittes J, Brittannië E. de rol van interne pilotstudies bij het verhogen van de efficiëntie van klinische proeven. Stat Med. 1990;9(1–2):65–72. |
||
Eldridge SM, Chan CL, Campbell MJ, et al. CONSORT 2010 verklaring: uitbreiding tot gerandomiseerde pilot en haalbaarheidsstudies. BMJ. 2016; 355: i5239. |
||
Sully B, Julious SA, Nicholl J. Een heronderzoek van de werving voor gerandomiseerde, gecontroleerde, multicenter trials: een herziening van trials gefinancierd door twee Britse financieringsinstellingen. Trial. 2013;14:166. |
||
Avery KNL, Williamson PR, Gamble C, et al. Informing efficient gerandomiseerde gecontroleerde trials: exploratie van uitdagingen bij het ontwikkelen van progressiecriteria voor interne pilotstudies. BMJ Open. 2017; 7 (2): e013537. |
||
Bell ML, Fiero M, Horton NJ, Hsu CH. Omgaan met ontbrekende gegevens in RCT ‘ s; een overzicht van de top medische tijdschriften. BMC Med Res Methodol. 2014;14(1):118. |
||
Bell ML, Fairclough DL. Praktische en statistische problemen in ontbrekende gegevens voor longitudinale patiënt-gerapporteerde resultaten. Stat Methods Med Res. 2014; 23 (5): 440-459. |
||
Hampson LV, Williamson PR, Wilby MJ, Jaki T. a framework for prospective defining progression rules for intern pilot studies monitoring recruitment. Stat Methods Med Res. Epub 2017 Jan 01. |
||
Revicki DA, Cella D, Hays RD, Sloan JA, Lenderking WR, Aaronson NK. Responsiviteit en minimale belangrijke verschillen voor door de patiënt gerapporteerde resultaten. Gezondheid Qual Life Outcomes. 2006;4:70. |
||
King M. Een punt van minimaal belangrijk verschil (MID): een kritiek op terminologie en methoden. Expert Rev Pharmacoecon Outcomes Res. 2011; 11 (2):171–184. |
||
Norman GR, Sloan JA, Wyrwich KW. De werkelijk opmerkelijke universaliteit van een halve standaarddeviatie: bevestiging door een andere blik. Expert Rev Pharmacoecon Outcomes Res. 2004;4 (5): 581-585. |
||
Kraemer HC, Mintz J, Noda A, Tinklenberg J, Yesavage JA. Voorzichtigheid met betrekking tot het gebruik van pilotstudies om energieberekeningen voor onderzoeksvoorstellen te sturen. Arch Gen Psychiatrie. 2006;63(5):484–489. |
||
Loscalzo J. Pilot trials in clinical research: van welke waarde zijn ze? Circulatie. 2009;119(13):1694–1696. |
||
Lee EC, Whitehead AL, Jacques RM, Julious SA. De statistische interpretatie van pilot trials: moeten significantiedrempels worden heroverwogen? BMC Med Res Methodol. 2014;14(1):41. |
||
Lancaster GA, Dodd s, Williamson PR. Ontwerp en analyse van proefstudies: aanbevelingen voor goede praktijken. J Eval Clin Pract. 2004;10(2):307–312. |
||
Browne RH. Over het gebruik van een proefmonster voor de bepaling van de steekproefgrootte. Stat Med. 1995;14(17):1933–1940. |
||
Vickers AJ. Onderdompeling in gerandomiseerde trials rapportage van een steekproefgrootte berekening. J Clin Epidemiol. 2003;56(8):717–720. |
||
Thabane L, Mbuagbaw L, Zhang S, et al. Een tutorial over gevoeligheidsanalyses in klinische studies: het wat, waarom, wanneer en hoe. BMC Med Res Methodol. 2013;13(1):92. |
||
Lewis JA. Statistische beginselen voor klinische proeven (ICH E9): een inleidende nota over een internationale richtlijn. Stat Med. 1999; 18(15):1903–1942. |
||
Whitehead a, Julious S, Cooper C, Campbell MJ. Het schatten van de steekproefgrootte voor een gerandomiseerde proefproef om de totale steekproefgrootte voor de externe proef en de hoofdproef voor een continue uitkomstvariabele tot een minimum te beperken. Stat Methods Med Res. 2016; 25(3): 1057-1073. |
||
Cella DF, Tulsky DS, Gray G, et al. De functional assessment of cancer therapy scale: ontwikkeling en validatie van de Algemene Maatregel. J Clin Oncol. 1993;11(3):570–579. |
||
Webster K, Cella D, Yost K. the functional assessment of chronic illness therapy (FACIT) measurement system: properties, applications, and interpretation. Gezondheid Qual Life Outcomes. 2003;1:79. |
||
Bell ML, McKenzie JE. Het ontwerpen van psycho-oncologie gerandomiseerde trials en cluster gerandomiseerde trials: variantie componenten en intra-cluster correlatie van veelgebruikte psychosociale maatregelen. Psychooncologie. 2013;22(8):1738–1747. |
||