はじめに
決定的な介入試験の前に、パイロット研究を実施することができる。 パイロット試験は、多くの場合、試験方法と手順をテストするために行われる主な試験の小さなバージョンです。1,2パイロット研究の全体的な目的は、将来の試験を行うことができることを実証することです。 この目的に対処するために、募集率と保持率の評価、サンプルサイズ計算に必要なパラメータの推定値の取得、有効性の可能性の予備的証拠の提供など、パイロット・スタディのための多くの目的があります。3-6
私たちは、研究の質問に答える可能性が高いように、将来の無作為化比較試験(RCTs)の設計を通知するためにパイロット研究を使用する方法を説 我々は、パイロット試験は、最適にパイロット試験を設計する方法、およびサンプルサイズ感度分析を実行する方法を、上記の各目標に対処することがで この例では、継続的な結果を使用しますが、コンテンツのほとんどは一般的にパイロット研究に適用することができます。
試行設計の考慮事項
決定的な試行を設計するときは、
- 連続的な結果の平均の違いなど、目標効果のサイズを考慮する必要があります。
- ;
- 継続的な結果の推定値に関する分散は、試験で個人のための応答の範囲を与えるために使用されます。
- 紹介、募集、および保持率を含む実現可能性。
パイロット試験の結果は、これらの要素のそれぞれを通知することができます。 タイプIの誤差や電力などの要因は、パイロットとは無関係に設定されており、他の場所で詳細に説明されています。7私たちは、試験が主な試験の前に実行され、結果が組み合わされない外部のパイロット試験に焦点を当てています。8
実現可能性
最初の考慮事項は実現可能性です: 研究者は、研究期間内に必要な数の参加者を募集し、主な試験でそれらを保持することができますか? 臨床記録のレビューは、潜在的な参加者プールのいくつかの指標を与えるために使用することができますが、パイロット研究は、実際に登録し、無作為化に同意する参加者の数の推定値を提供し、これらの推定値は、パイロット研究結果を報告する原稿に含める必要があります。9多くの試験では、サンプルサイズの目標に到達するのに苦労しているため、試験の延長や事前に指定されたサンプルサイズへの募集が失敗する10募集の失敗は、45%が目標サンプルサイズに達することができない英国の公的資金による試験の主要な問題です。10同様の集団の同じセンターでの以前の試験のレビューとともに、パイロット研究はまた、保持率および付着率の推定値を与えることができる。11欠落したデータとドロップアウトは、ほとんどのRcts12の問題であり、研究プロセスの各ステップで考慮する必要があります13設計、報告、9およびより大11,14
目標効果サイズと潜在的な有効性
Hislopら15は、RCTの目標効果サイズを決定するための七つのアプローチを特定するための系統的レビューを行い、臨床的に重要および/または現実的であると分類した。 臨床的に重要な違いの特定のタイプは、患者に違いを生むだろうか、それはケアを変更することができる最小値、最小重要な違い(MID)、または時には最小 MIDは、特に患者集団によって変化する可能性があるため、決定するのが困難な場合があります。 しかし、様々な分野の研究者がMID推定を調査し、推定に関するガイダンスを提供してきました。16,17連続的な転帰、特に患者報告された転帰のための既知のMIDがない場合、0.3と0.5の間の標準化された効果size15が推奨されている。17,18専門家の意見はまた、重要な違いを指定するために使用されます。15一部の研究者は、パイロット効果サイズを使用して決定的な試験に電力を供給しますが、これは、サンプルサイズが小さいために推定が不十分であり、誤解を招く可能性があるため、一般的には避けるべき慣行です。19
目標効果サイズも現実的でなければならず、パイロットからの推定効果サイズと信頼区間(CI)は、ここでいくつかの証拠、すなわち、介入が有効であり、重要な違いが主試験で得られる可能性があるという兆候があるかどうかを与えることができる。5パイロットのサンプルサイズが小さいと推定が不確実になるため、注意が必要です。19,20この不確実性を処理するための一つのアプローチは、”伝統的な”5%以外の有意水準を使用して、有効性の予備的証拠を提供し、85および75%などの対応するCIsに加えて、95%のCIsを使用することである。これらのCi、MID、およびヌル値を示す図は、統計的有意性および臨床的有意性の可能性の両方の評価を容易にすることによって、パイロット結果を表示す31一部の著者は、仮説検定を実施し、パイロットからの有効性を評価することに反対しているが、潜在的な有効性であっても、ほとんどのパイロット研究は仮説検定を実施している。6私たちは、パイロット研究からの予備的な有効性の証拠を誇張すべきではなく、研究者は主な試験を見送る誘惑を避けるべきであることを強く強調20,22
標準偏差(SD)の推定
母集団SDは、連続的な結果のためのサンプルサイズ推定のもう一つの重要な要素であり、その推定はパイロット研究を行 しかし、効果サイズと同様に、パイロットのサンプルサイズが小さいため、SDは不正確に推定される可能性があります。 パイロット研究のSDを使用して将来のサンプルサイズを設計することは、多くの場合、力不足の研究につながることが示されています。23,24したがって、感度分析を実施すべきである。
サンプルサイズの感度分析
感度分析は、一次分析で行われた仮定に対する研究結果のロバスト性を評価するために重要です。25感度分析は、設計段階でも実行する必要があります26そして、もっともらしいSDsと保持/ドロップアウト率の範囲に基づいてサンプルサイズを計算 Browne23は、その後の試験でサンプルサイズを計算するために、パイロット試験のSDに対する80%CIの上限を使用することを提案しました。 文献からのSdsも考慮することができる。
パイロット研究サンプルサイズ
研究の質問に答える最良の機会を持つために、研究者は慎重に決定的な試験だけでなく、パイロットのサイズを考慮する必要があります。 伝統的な検出力の計算はパイロット研究には不適切ですが(パイロット研究の主な目的は、一方の治療法の他方の治療法に対する優位性をテストす パイロット研究の規模にはいくつかの経験則がありますが、腕あたり12人から35人までの範囲で、5、27これらのガイドラインのどれも将来の試験の大きさを説明していません。
Whitehead et al27は、主試験の目標効果サイズがわかっている場合、パイロット試験の最適サンプルサイズを推定し、二つの試験で募集された患者の数を最小化する方法を示しました。 この研究から、彼らは目標効果の大きさと将来の試験の大きさに基づいてパイロット研究のためのステップ付き経験則を提案した。 これらのルールを表1にまとめます。 例えば、将来の試験が小さな効果を中心に設計される場合、パイロット試験のための腕あたりの患者の数は、90%のパワーに対して25でなければならない。 これらのルールを使用すると、将来の裁判のための適切な力の可能性が高くなります。 CocksとTorgerson5はまた、sdがわかっている場合は、将来の試験のサイズにパイロット研究のサイズを基づかせることをお勧めします。
表1ターゲット効果サイズ(標準化された)の関数として、腕あたりのパイロットスタディサ違い)とメイントライアルのパワー
ノート:。 主要な試験の対応する可能性のあるサイズも示されている。 intは介入アーム、ctlは制御アームです。
例
研究チームが決定的な試験を設計することを見越してパイロットを計画しているとします。 主な試験は、がん患者のための新しい支持療法レジメンを通常のケアと比較し、ベースライン、6週間、および3ヶ月で評価するツーアームRCTです。 彼らの主な結果は、身体的、社会的、家族的、感情的、および機能的幸福の側面をカバーする27項目のアンケートである癌治療の機能的評価-一般(FACT-G)によって測定された3ヶ月での生活の質である。28
パイロット研究サンプルサイズ
パイロットサンプルサイズの経験則を使用するには、研究者は、標準化された差(効果サイズ)を計算するために、主試行の目標効果サイズとSDを考慮する必要があります。 彼らは、推定された事実-G MIDは三点から六点の間である29と文献からのSD推定値30は、同様の集団で14であることを発見した。 4点の中間推定値と14のSDを使用すると、標準化された効果サイズは4/14=0.29になります。 90%の動力を与えられた主要な試験のために、彼らは操縦者のための腕ごとの25のサンプルサイズを使用するべきである(表1)。
パイロット研究結果
今、研究者が2ヶ月以上の募集で50人の参加者のパイロット研究を行うと仮定します。 潜在的な参加者100人のうち、70人の参加者が腫瘍専門医によって紹介され、60人の参加者が適格基準を満たし、50人の参加者が参加することに同意した。 これは、適格な患者の50%の募集率を示し、月額25の募集率を示しています。 50人の参加者のうち、40人の参加者が3つの評価をすべて完了しました。 これらの料金は、主な試用期間を推定するのに役立ちます。
3ヶ月の腕間の生活の質の差は3.1ポイントと推定され、95%CI-1.8-8.0、SD=11.2である。 図1は、各CIに4の中間が含まれているため、介入が有望であることを示すいくつかのCiを示しています。 したがって、有効性の予備的証拠を提供するためのパイロット研究の目的が満たされている。
図1信頼区間を持つパイロット研究介入とコントロールアームの間の実際の平均差-gスコア。
略語:FACT-G、癌治療の機能的評価-属;中間、最小の重要な違い。
サンプルサイズの計算と感度分析
表2は、パイロットスタディのSD、その上限80%CI限界(分散のCIの平方根として取られた)、および文献からの元の推定値に基づくサンプルサイズを示している。 サンプルサイズは、観測されたドロップアウト率(20%)および><5%についても与えられます。 90%の電力の場合、サンプルサイズは392から692の範囲です。 80%の電力では、サンプルサイズは296から518の範囲です。 感度分析は、サンプルサイズに対する仮定の効果の観点から定量化されることに注意してください。 別のアプローチは、サンプルサイズ(たとえば392で)を修正し、仮定に基づいて電力がどのように変化するかを観察することです。
表2ドロップアウト、募集率、および四点の効果サイズを仮定した推定SDを変化させるサンプルサイズの範囲
表2ドロップアウト、募集率、および推定SDを変化させるサンプルサイズの範囲
/p>
注:募集の1.5年にabased。 月に25人の参加者のパイロット研究募集率に基づいてbBased。
略語:SD、標準偏差。
メイントライアルの実現可能性
我々は今、実現可能性を検討します。 具体的には、研究者は研究期間内に必要な数の参加者を募集することができる可能性がありますか? 資金調達と3ヶ月のフォローアップ時間に基づいて、募集には1.5年かかることがあります。 月に25人の参加者のパイロット募集率が良い見積もりであれば、この研究では450人の参加者を募集して登録することができます。 これは、表2の推定値のいくつかを下回っています。 参加者のプールをどのように拡大するかをさらに検討する必要があるかもしれません。
結論
私たちは、パイロット研究は、人口SDの推定値、介入の有効性の可能性の証拠、および募集と保持率の形で実現可能性の定量化を提供するこ パイロット試験試料サイズに関するガイドラインを導入し,試料サイズ感度解析を実証した。 この例では、主な試行サンプルサイズの推定値が、仮定をもっともらしく変更することによって劇的に変化する方法を実証しました。
パイロットトライアルからメイントライアルへの進行の決定は、一般的に実現可能性の見積もりと、プロトコルの非遵守などの問題を使用して行われます。 進行の詳細については、Avery et al,11を参照し、内部パイロットの状況については、Hampson et al.14研究者が決定的な試験に進むことを決定するかどうかにかかわらず、パイロット研究の結果を公開する必要があります。 パイロットとフィージビリティスタディの結果を報告するための配偶者の拡張は、詳細なガイ9
謝辞
この研究は、公共、商業、または非営利セクターの資金調達機関から具体的な助成金を受けていませんでした。 ALWの現在の住所はSouthampton Clinical Trials Unit,University of Southampton,Southampton,UKです。
開示
教授MLBは、Nci助成金P30CA023074を通じて、アリゾナ大学がんセンターによってサポートされています。 教授SAJはシェフィールド大学によって資金を供給されています。 博士ALWはシェフィールド大学の学生シップによって資金を供給されました。 著者らは、この作業に他の利益相反は報告していません。td>
イロット研究に関するチュートリアル:何、なぜ、どのように。 BMC Med Res Methodol. 2010;10:1. Arain M、Campbell MJ、Cooper CL、Lancaster GA。 パイロットまたはフィージビリティスタディとは何ですか? 現在の実践と編集方針のレビュー。 BMC Med Res Methodol. 2010;10:67.
雑な介入の開発と評価:新しい医学研究評議会のガイダンス。 BMJ. 2008;337:a1655.
ライマリケアにおける試験: 複雑な介入の設計、実施および評価における統計的問題。 2010;19(4):349-377. パイロット無作為化試行のサンプルサイズの計算:信頼区間アプローチ。 J-クリニーク所属。 2013;66(2):197–201./p> Shanyinde M、Pickering RM、Weatherall M.パイロットおよび実現可能性無作為化比較試験で尋ねられ、答えられた質問。 BMC Med Res Methodol. 2011;11(1):117.
正常なデータの臨床試験のためのサンプルサイズ。 Stat Med. 2004;23(12):1921–1986.
Wittes J、ブリテンE.臨床試験の効率を高める上での内部パイロット研究の役割。 Stat Med. 1990;9(1–2):65–72.
ンソート2010声明:無作為化パイロットと実現可能性試験への拡張。 BMJ. 2016;355:i5239. 作為化、制御、多施設試験への募集の再調査:2つの英国の資金調達機関によって資金提供された試験のレビュー。 裁判だ 2013;14:166.
効率的な無作為化比較試験の通知:内部パイロット研究のための進行基準を開発する上での課題の探査。 BMJオープン。 2017年7月(2):e013537。 ctでの欠落データの処理;トップ医学雑誌のレビュー。 BMC Med Res Methodol. 2014;14(1):118.
方向の患者報告された結果のための欠損データにおける実用的かつ統計的な問題。 2014;23(5):440-459. Hampson LV、Williamson PR、Wilby MJ、Jaki T.募集を監視する内部パイロット研究のための進行ルールを前向きに定義するためのフレームワーク。 StatメソッドMed Res.Epub2017Jan01.
ランダム化比較試験における目標差を特定するための方法:試験における差誘発(デルタ)系統的レビュー。 PLoS Med. 2014;11(5):e1001645. 患者の報告されたアウトカムの応答性と最小限の重要な違い。 健康のQualの生命結果。 2006;4:70. 011年11月(2):171–184.
半分の標準偏差の本当に驚くべき普遍性:別の外観を介して確認。 専門家Rev Pharmacoecon Outcomes Res.2004;4(5):581-585.
究提案のパワー計算をガイドするためのパイロット研究の使用に関する注意。 アーチ-ジェネシス 2006;63(5):484–489. : 彼らはどのような価値がありますか? 循環。 2009;119(13):1694–1696.
イロット試験の統計的解釈:有意性閾値を再考すべきか? BMC Med Res Methodol. 2014;14(1):41. ランカスター GA、ドッドS、ウィリアムソンPR。 パイロット研究の設計と分析:良い実践のための推奨事項。 J Eval Clin Pract. 2004;10(2):307–312.
サンプルサイズの決定のための試験サンプルの使用。 Stat Med. 1995;14(17):1933–1940. ビッカースAJ. サンプルサイズの計算を報告する無作為化試験の力不足。 J-クリニーク所属。 2003;56(8):717–720.
臨床試験における感度分析に関するチュートリアル:何、なぜ、いつ、どのように。 BMC Med Res Methodol. 2013;13(1):92. 臨床試験のための統計原則(ICH E9): 国際的なガイドラインの入門ノート。 Stat Med. 1999; 18(15):1903–1942.
イロットランダム化試行のサンプルサイズを推定して、外部パイロットの全体的な試行サンプルサイズと連続的な結果変数の主試行を最小化します。 2016;25(3):1057-1073. セルDF、Tulsky DS、グレー G、ら。 がん治療スケールの機能的評価:一般的な尺度の開発と検証。 Jクリン-オンコール 1993;11(3):570–579.
Webster K、Cella D、Yost K.慢性疾患治療(FACIT)測定システムの機能評価:プロパティ、アプリケーション、および解釈。 健康のQualの生命結果。 2003;1:79.
心理腫瘍学ランダム化試験およびクラスターランダム化試験の設計:一般的に使用される心理社会的尺度の分散成分およびクラスター内相関。 サイココロジー 2013;22(8):1738–1747. ん研究における統計的論争:標準化された効果サイズグラフを使用して、患者報告された転帰を伴うがん関連臨床試験の解釈可能性を高める。 アン-オンコル 2017;28(8):1730–1733.