introduktion
forud for et endeligt interventionsforsøg kan der foretages en pilotundersøgelse. Pilotforsøg er ofte små versioner af hovedforsøget, der gennemføres for at teste forsøgsmetoder og procedurer.1,2 det overordnede mål med pilotundersøgelser er at påvise, at der kan gennemføres et fremtidigt forsøg. For at imødegå dette mål er der en række mål for en pilotundersøgelse, herunder vurdering af rekrutterings-og tilbageholdelseshastigheder, opnåelse af skøn over parametre, der kræves til beregning af stikprøvestørrelse, og tilvejebringelse af foreløbig bevis for effektivitetspotentiale.3-6
vi illustrerer, hvordan man bruger pilotundersøgelser til at informere designet af fremtidige randomiserede kontrollerede forsøg (RCT ‘ er), så sandsynligheden for at besvare forskningsspørgsmålet er høj. Vi viser, hvordan pilotundersøgelser kan adressere hvert af de tidligere nævnte mål, hvordan man optimalt designer et pilotforsøg, og hvordan man udfører prøvestørrelsesfølsomhedsanalyse. Vores eksempel bruger et kontinuerligt resultat, men det meste af indholdet kan anvendes til pilotundersøgelser generelt.
overvejelser for forsøgsdesign
når man designer et endeligt forsøg, skal man overveje
- måleffektstørrelsen, såsom forskellen i midler til kontinuerlige resultater;
- variansen om estimaterne for kontinuerlige resultater, som bruges til at give en række svar for enkeltpersoner i forsøget;
- gennemførlighed, herunder henvisning, rekruttering og tilbageholdelsesrater.
pilotforsøg resultater kan informere hver af disse elementer. Faktorer som type i-fejl og strøm indstilles uafhængigt af piloten og diskuteres detaljeret andetsteds.7 Vi fokuserer på eksterne pilotundersøgelser, hvor forsøget køres før hovedforsøget, og resultaterne ikke kombineres.8
gennemførlighed
den første overvejelse er gennemførlighed: vil forskerne være i stand til at rekruttere det krævede antal deltagere inden for undersøgelsens tidsramme og beholde dem i hovedforsøget? Mens gennemgang af kliniske optegnelser kan bruges til at give en vis indikation af potentiel deltagerpool, pilotundersøgelser giver estimater af antallet af deltagere, der faktisk tilmelder sig og giver samtykke til randomisering, og disse estimater skal inkluderes i manuskripterne, der rapporterer pilotundersøgelsesresultaterne.9 mange forsøg kæmper for at nå deres prøvestørrelsesmål, hvilket kan resultere i prøveudvidelser eller manglende rekruttering til deres forudbestemte prøvestørrelse.10 manglende rekruttering er et stort problem i britiske offentligt finansierede forsøg, hvor 45% ikke når målprøvestørrelsen.10 sammen med gennemgang af tidligere forsøg på de samme centre i lignende populationer kan pilotundersøgelser også give skøn over tilbageholdelseshastigheder og vedhæftningshastigheder.11 manglende data og frafald er problemer i de fleste RCTs12 og skal overvejes ved hvert trin i forskningsprocessen,13 inklusive design, rapportering,9 og progression til et større endeligt forsøg.11,14
Måleffektstørrelse og potentiel effekt
Hislop et al15 foretog en systematisk gennemgang for at identificere syv tilgange til bestemmelse af måleffektstørrelsen for en RCT og klassificerede dem som klinisk vigtige og / eller realistiske. En bestemt type klinisk vigtig forskel er den mindste værdi, der ville gøre en forskel for patienter, eller som kunne ændre pleje, en mængde kaldet den mindste vigtige forskel (MID) eller undertiden minimalt klinisk vigtig forskel. MID kan være svært at bestemme, især da det kan ændre sig med patientpopulationen. Forskere inden for forskellige områder har imidlertid undersøgt MID estimation og giver vejledning om estimering.16,17 i fravær af en kendt MID for kontinuerlige resultater, især patientrapporterede resultater, en standardiseret effektstørrelse15 mellem 0,3 og 0,5 er blevet anbefalet.17,18 ekspertudtalelse bruges også til at specificere vigtige forskelle.15 selv om nogle forskere bruger piloteffektstørrelsen til at drive det endelige forsøg, er dette en praksis, der generelt bør undgås, da estimeringen er dårlig på grund af den lille prøvestørrelse og sandsynligvis vil vildlede.19
måleffektstørrelsen skal også være realistisk, og den estimerede effektstørrelse og konfidensinterval (CI) fra piloten kan give nogle beviser her, dvs.om der er nogen indikation af, at interventionen er effektiv, og der kan opnås vigtige forskelle i hovedforsøget.5 Den lille prøvestørrelse på en pilot gør estimeringen usikker, så der skal udvises forsigtighed.19,20 en metode til håndtering af denne usikkerhed er at anvende andre signifikansniveauer end de “traditionelle” 5% til at fremlægge foreløbig dokumentation for effektivitet med tilsvarende CIs som 85 og 75% ud over 95% CIs.21 et tal, der viser disse CIs -, MID-og nulværdien, kan være en nyttig måde at vise pilotresultater på ved at lette en vurdering af både statistisk signifikans og potentialet for klinisk signifikans.31 mens nogle forfattere argumenterer imod at udføre hypotesetest og vurdere effektivitet fra piloter, endda potentiel effektivitet, foretager de fleste pilotundersøgelser hypotesetest.6 Vi understreger kraftigt, at foreløbige effektivitetsbeviser fra en pilotundersøgelse ikke bør overvurderes, og forskere bør undgå fristelse til at give afkald på hovedforsøget.20,22
estimering af standardafvigelsen (SD)
populationen SD er et andet nøgleelement i estimering af stikprøvestørrelse for kontinuerlige resultater, og dens estimering er et af målene for gennemførelse af en pilotundersøgelse. I lighed med effektstørrelsen kan SD imidlertid estimeres upræcist på grund af pilotens lille prøvestørrelse. Brug af en pilotundersøgelses SD til at designe en fremtidig stikprøvestørrelse har vist sig ofte at resultere i en underbygget undersøgelse.23,24 følsomhedsanalyser bør derfor foretages.
følsomhedsanalyse for prøvestørrelse
følsomhedsanalyser er vigtige for at vurdere robustheden af undersøgelsesresultater til antagelserne i den primære analyse.25 følsomhedsanalyser skal også udføres i designstadiet 26 og kan tage form af at tage højde for usikkerheden ved estimering ved at beregne stikprøvestørrelser baseret på en række plausible SDs og retention/frafaldshastigheder. Brune23 foreslog at bruge pilotundersøgelsens øvre grænse for 80% CI for SD til at beregne stikprøvestørrelse i det efterfølgende forsøg. Man kan også overveje SDs fra litteraturen.
pilotundersøgelse prøvestørrelse
for at have den bedste chance for at besvare forskningsspørgsmålet, bør forskere nøje overveje størrelsen på ikke kun det endelige forsøg, men også piloten. Selvom traditionelle effektberegninger er upassende til pilotundersøgelser (da det primære mål med en pilotundersøgelse ikke er at teste overlegenhed af den ene behandling frem for den anden), er en prøvestørrelsesberettigelse vigtig. Mens der er flere tommelfingerregler for størrelsen af en pilotundersøgelse, der spænder fra 12 til 35 individer pr.arm,5,27 ingen af disse retningslinjer tegner sig for den sandsynlige størrelse af det fremtidige forsøg.27 viste, hvordan du, hvis du kender hovedforsøgets måleffektstørrelse, kan estimere pilotundersøgelsens optimale stikprøvestørrelse og minimere antallet af patienter, der rekrutteres på tværs af de to undersøgelser. Fra dette arbejde foreslog de trinvise tommelfingerregler for pilotundersøgelser baseret på måleffektstørrelsen og størrelsen på det fremtidige forsøg. Disse regler er opsummeret i tabel 1. For eksempel, hvis det fremtidige forsøg vil blive designet omkring en lille effekt, skal antallet af patienter pr. Brug af disse regler øger sandsynligheden for passende magt til det fremtidige forsøg. Cocks og Torgerson5 anbefaler også at basere pilotundersøgelsesstørrelsen på det fremtidige forsøgs størrelse, hvis SD er kendt.
tabel 1 trinvise tommelfingerregler for pilotstudie prøvestørrelse per arm, som en funktion af måleffektstørrelsen (standardiseret forskel) og kraften i hovedforsøget noter: . Den tilsvarende sandsynlige størrelse af hovedforsøget vises også. int er interventionsarmen, og ctl er kontrolarmen. |
eksempel
Antag, at et forskerteam planlægger en pilot i forventning om at designe et endeligt forsøg. Hovedforsøget vil være en to-arm RCT, der sammenligner et nyt understøttende behandlingsregime for kræftpatienter med sædvanlig pleje med vurderinger ved baseline, 6 uger og 3 måneder. Deres primære resultat er livskvaliteten efter 3 måneder målt ved funktionel vurdering af kræftterapi-generelt (FACT-G), et spørgeskema på 27 punkter, der dækker aspekter af fysisk, social, familie, følelsesmæssig og funktionel velvære.28
Pilotundersøgelsesprøvestørrelse
for at bruge de trinvise tommelfingerregler til pilotprøvestørrelse skal forskerne overveje måleffektstørrelsen og SD til hovedforsøget for at beregne den standardiserede forskel (effektstørrelse). De finder ud af, at den anslåede FACT-g MID er mellem tre og seks point29, og et SD-estimat fra litteraturen30 er 14 i lignende populationer. Ved hjælp af et MID-estimat på fire punkter og en SD på 14 er den standardiserede effektstørrelse 4/14=0,29. For en 90% drevet hovedforsøg skal de bruge en prøvestørrelse på 25 pr.arm til piloten (tabel 1).
Pilotundersøgelsesresultater
Antag nu, at forskerne foretager pilotundersøgelsen af 50 deltagere med rekruttering over 2 måneder. Af de 100 potentielle deltagere blev 70 deltagere henvist af deres onkolog, 60 deltagere opfyldte kriterierne for støtteberettigelse, og 50 deltagere blev enige om at deltage. Dette indikerer en rekrutteringsrate på 50% af kvalificerede patienter ved 25 rekrutteringer pr. Af de 50 deltagere gennemførte 40 deltagere alle tre vurderinger; fastholdelse er 80%. Disse satser vil hjælpe med at estimere hovedforsøgets varighed.
forskellen i livskvaliteten mellem armene efter 3 måneder estimeres til 3,1 point med 95% CI -1,8 til 8,0 og SD =11,2. Figur 1 viser flere CIs, der viser, at interventionen er lovende, da hvert CI indeholder midten af 4. Formålet med pilotundersøgelsen om at fremlægge foreløbige beviser for effektivitet er således opfyldt.
Figur 1 gennemsnitlig forskel i virkeligheden-g scores mellem pilotstudie interventions-og kontrolarme med konfidensintervaller. forkortelser: fakta-G, funktionel vurdering af kræftbehandling-Slægter; MID, minimum vigtig forskel. |
prøvestørrelsesberegninger og følsomhedsanalyser
tabel 2 viser prøvestørrelser baseret på pilotundersøgelsens SD, dens øvre 80% CI-grænse (taget som kvadratroden af CI for variansen) og det oprindelige skøn fra litteraturen. Prøvestørrelser er også angivet for den observerede frafaldshastighed (20%) og for >5 og <5%. For 90% effekt varierer prøvestørrelsen fra 392 til 692. For 80% effekt varierer prøvestørrelserne fra 296 til 518. Bemærk, at følsomhedsanalysen kvantificeres med hensyn til antagelsernes virkning på stikprøvestørrelsen. En alternativ tilgang er at fastsætte stikprøvestørrelsen (ved 392 siger) og observere, hvordan strømmen varierer baseret på antagelser.
tabel 2 en række stikprøvestørrelser, der varierer frafald, rekruttering rate og estimeret SD under forudsætning af en effektstørrelse på fire point noter: abased på 1,5 års rekruttering. baseret på pilotundersøgelsen rekrutteringsfrekvens på 25 deltagere pr. forkortelse: SD, standardafvigelse. |
gennemførlighed af hovedforsøget
vi overvejer nu gennemførlighed. Specifikt er forskerne sandsynligvis i stand til at rekruttere det krævede antal deltagere inden for undersøgelsens tidsramme? Baseret på finansieringen og opfølgningstiden på 3 måneder kan rekruttering tage 1,5 år. Hvis pilotrekrutteringsgraden på 25 deltagere om måneden er et godt skøn, vil undersøgelsen være i stand til at rekruttere og tilmelde 450 deltagere. Dette falder under flere af estimaterne i tabel 2. Yderligere overvejelser kan være nødvendige, hvordan man udvider puljen af deltagere.
konklusion
Vi har illustreret, hvordan pilotundersøgelser kan hjælpe med udformningen af fremtidige forsøg med kontinuerlige resultater ved at give estimater af population SD, bevis for potentiale for interventionseffektivitet og kvantificering af gennemførlighed i form af rekruttering og fastholdelseshastigheder. Vi har indført retningslinjer for pilotundersøgelse stikprøvestørrelse og demonstreret stikprøvestørrelsesfølsomhedsanalyse. Eksemplet demonstrerede, hvordan estimater af hovedprøvestørrelsesstørrelse kan variere dramatisk ved plausibelt at ændre antagelser.
beslutningen om at gå videre fra et pilotforsøg til et hovedforsøg foretages generelt ved hjælp af gennemførlighedsestimater såvel som spørgsmål som protokol ikke-overholdelse. For mere information om progression, se Avery et al,11 og for information om sammenhængen med interne piloter, se Hampson et al.14 uanset om forskere beslutter at gå videre til et endeligt forsøg eller ej, bør resultaterne af pilotundersøgelser offentliggøres. En KONSORTUDVIDELSE til rapportering af resultater af pilot-og gennemførlighedsundersøgelser giver detaljerede retningslinjer.9
anerkendelser
denne forskning modtog intet specifikt tilskud fra noget finansieringsbureau i den offentlige, kommercielle eller ikke-for-profit sektor. Den nuværende adresse på Southampton Clinical Trials Unit, University of Southampton, Southampton, UK.Professor MLB støttes af University of Cancer Center gennem NCI grant P30CA023074. Professor SAJ er finansieret af University of Sheffield. Han blev finansieret af University of Sheffield studentship. Forfatterne rapporterer ingen andre interessekonflikter i dette arbejde.
Thabane L, Ma J, Chu R, et al. En tutorial om pilotundersøgelser: hvad, hvorfor og hvordan. BMC Med Res Methodol. 2010;10:1. |
|||
Arain M, Campbell MJ, Cooper CL, Lancaster GA. Hvad er en pilot-eller gennemførlighedsundersøgelse? En gennemgang af nuværende praksis og redaktionel politik. BMC Med Res Methodol. 2010;10:67. |
|||
Craig P, Dieppe P, Macintyre S, et al. Udvikling og evaluering af komplekse interventioner: den nye vejledning til medicinsk Forskningsråd. BMJ. 2008; 337: a1655. |
|||
Lancaster G, Campbell M, Eldridge S, et al. Forsøg i primærpleje: statistiske spørgsmål i design, gennemførelse og evaluering af komplekse interventioner. Stat Metoder Med Res. 2010; 19 (4): 349-377. |
|||
haner K, Torgerson DJ. Prøvestørrelsesberegninger for pilot randomiserede forsøg: en konfidensinterval tilgang. J Clin Epidemiol. 2013;66(2):197–201. |
|||
Julious SA. Prøvestørrelser til kliniske forsøg med normale data. Stat Med. 2004;23(12):1921–1986. |
|||
Vittes J, Brittain E. rollen af interne pilotundersøgelser for at øge effektiviteten af kliniske forsøg. Stat Med. 1990;9(1–2):65–72. |
|||
Eldridge SM, Chan CL, Campbell MJ, et al. CONSORT 2010-erklæring: udvidelse til randomiserede pilot-og gennemførlighedsforsøg. BMJ. 2016; 355: i5239. |
|||
Sully B, Julious SA, Nicholl J. En ny undersøgelse af rekruttering til randomiserede, kontrollerede, multicenterforsøg: en gennemgang af forsøg finansieret af to britiske finansieringsbureauer. Forsøg. 2013;14:166. |
|||
Avery KNL, Gamble C, et al. Informere effektive randomiserede kontrollerede forsøg: udforskning af udfordringer i udviklingen af progressionskriterier for interne pilotundersøgelser. BMJ Åben. 2017; 7 (2): e013537. |
|||
Bell ML, Fiero M, Horton NJ, Hsu CH. Håndtering af manglende data i RCT ‘ er; en gennemgang af de øverste medicinske tidsskrifter. BMC Med Res Methodol. 2014;14(1):118. |
|||
Bell ML, Fairclough DL. Praktiske og statistiske problemer i manglende data for langsgående patientrapporterede resultater. Stat Metoder Med Res. 2014; 23 (5):440-459. |
|||
Hislop J, Adevuyi TE, Vale LD, et al. Metoder til at specificere målforskellen i et randomiseret kontrolleret forsøg: forskellen fremkaldelse i forsøg (DELTA) systematisk gennemgang. PLoS Med. 2014; 11 (5):e1001645. |
|||
Revicki DA, Cella D, Hays RD, Sloan JA, Lenderking, Aaronson NK. Responsivitet og minimale vigtige forskelle for patientrapporterede resultater. Sundhed Kval Liv Resultater. 2006;4:70. |
|||
King M. et punkt med minimal vigtig forskel (MID): en kritik af terminologi og metoder. 2011;11 (2):171–184. |
|||
Norman GR, Sloan JA, VV. Den virkelig bemærkelsesværdige universalitet af en halv standardafvigelse: bekræftelse gennem et andet udseende. 2004; 4 (5): 581-585. |
|||
Kraemer HC, Mints J, Noda A, Tinklenberg J, Yesavage JA. Forsigtighed med hensyn til brugen af pilotundersøgelser til at styre strømberegninger til undersøgelsesforslag. Arch Gen Psykiatri. 2006;63(5):484–489. |
|||
pilotforsøg i klinisk forskning: af hvilken værdi er de? Omløb. 2009;119(13):1694–1696. |
|||
Lee EC, hvidhoved AL, jak RM, Julious SA. Den statistiske fortolkning af pilotforsøg: bør signifikanstærskler tages op til fornyet overvejelse? BMC Med Res Methodol. 2014;14(1):41. |
|||
Lancaster GA, Dodd s, Vilhelmson PR. Udformning og analyse af pilotundersøgelser: anbefalinger til god praksis. J Eval Clin Pract. 2004;10(2):307–312. |
|||
brun RH. Om anvendelse af en pilotprøve til bestemmelse af prøvestørrelsen. Stat Med. 1995;14(17):1933–1940. |
|||
Vickers AJ. Understyrke i randomiserede forsøg, der rapporterer en stikprøvestørrelsesberegning. J Clin Epidemiol. 2003;56(8):717–720. |
|||
Thabane L, Mbuagbav L, Jang s, et al. En tutorial om følsomhedsanalyser i kliniske forsøg: Hvad, hvorfor, hvornår og hvordan. BMC Med Res Methodol. 2013;13(1):92. |
|||
Statistiske principper for kliniske forsøg (ich E9): en indledende note om en international retningslinje. Stat Med. 1999; 18(15):1903–1942. | |||
hvidhoved A, Julious S, Cooper C, Campbell MJ. Estimering af stikprøvestørrelsen for et pilot randomiseret forsøg for at minimere den samlede prøvestørrelse for den eksterne pilot og hovedforsøget for en kontinuerlig resultatvariabel. Stat Metoder Med Res. 2016; 25 (3): 1057-1073. |
|||
Cella DF, Tulsky DS, Gray G, et al. Den funktionelle vurdering af kræftterapiskala: udvikling og validering af den generelle foranstaltning. J Clin Oncol. 1993;11(3):570–579.den funktionelle vurdering af kronisk sygdomsterapi (FACIT) målesystem: egenskaber, applikationer og fortolkning. Sundhed Kval Liv Resultater. 2003;1:79. |
|||
Bell ML, Mckenie JE. Design af psyko-onkologiske randomiserede forsøg og klyngelandomiserede forsøg: varianskomponenter og intra-klyngekorrelation af almindeligt anvendte psykosociale foranstaltninger. Psykoonkologi. 2013;22(8):1738–1747. |
|||
Bell, ML, Fiero MH, Dhillon HM, Bray VJ og Vardy JL. Statistiske kontroverser i kræftforskning: brug af standardiserede effektstørrelsesgrafer for at forbedre fortolkbarheden af kræftrelaterede kliniske forsøg med patientrapporterede resultater. Ann Oncol. 2017;28(8):1730–1733. |