ABテストのやり方|LP・Webサイトで失敗しない手順とサンプル数・判定の進め方

SPIRITSの青い広告バナー。ABテストのやり方を徹底解説とスマホ画面のデモが表示されている。

ABテストをやってみたが結果がよく分からなかった、サンプルが集まらないまま結論を出してしまった、色を変えただけで本当に効果があるのか自信が持てない。こうしたつまずきは、LPやWebサイトでABテストを始めた担当者の多くが一度は通る場面です。

実はABテストには「絶対に効くやり方」はありません。商材・流入・サイト構造によって最適な進め方が変わるため、要素ごとに「自社で再現できる手順」へ落とすことが必要になります。

本記事では、ABテスト(A/Bテスト・スプリットテスト)のやり方を、仮説立案・要素の優先順位・パターン設計・サンプル数の見積もり・結果の判定・次サイクルへの引き継ぎまで一連の流れで解説します。あわせて、ABテストが「意味ない」と感じてしまう5つの原因と、その回避策まで整理しました。

SPIRITSはLPOの実務支援にも取り組んでいる立場として、「やってみたけど判断がつかなかった」を防ぐための実践的な視点を盛り込んでいます。

この記事でわかること
  • ABテスト(A/Bテスト・スプリットテスト)の定義と4つの種類
  • ABテストのやり方を7ステップで把握する全体フロー
  • LPで効果が出やすい順|どの要素から触るべきか
  • 1度に変えていいのは1要素だけ、という原則の理由
  • 必要サンプル数・期間の実務的な目安
  • ボタンクリック率と最終CV率を分けて計測する設計
  • 有意差が出ない・効果が微妙なときの判定方法
  • ABテストが「意味ない」と感じる5つの原因と回避策
  • 代表的なABテスト事例の見方
  • ABテストツールがなくても始められる方法

※本記事はLP・Webサイト・広告クリエイティブで実施するABテストの汎用手順を解説しています。CVボタン単体の改善はCVボタンを変えてもCVRが伸びない原因|デザイン・文言の選び方とABテストの進め方、LP全体の改善はLPOツールおすすめ19選|タイプ別比較とLP改善の進め方もあわせてご覧ください。

LPの「どこを直せばCVRが改善するか」現状のデータをもとに無料で診断します!

\1分で完了!サイトのURLだけ送ってください/

目次

ABテストとは?A/Bテスト・スプリットテストとの違い

ABテストは、サイト上の要素を変えた前後でユーザーの行動がどう変わるかを比較する検証手法です。A/Bテスト・スプリットテスト・分割テストはほぼ同義として扱われます。

ABテストの形式1:AとBの2パターンを示す青いカード。左右に大きなAとBのアイコン。

ABテストの定義

ABテスト(A/B testing)は、同じユーザー層に対して2つ以上のパターンを同時に出し分け、どちらのパターンが目的のKPI(CVRやクリック率)が高いかを比較する検証手法です。広告クリエイティブ・ランディングページ・メール件名・アプリのUIなど、Web上のあらゆる要素で活用できます。

検証対象は1つの要素に絞るのが基本で、「ボタンの文言」「ファーストビューのキャッチコピー」「フォームの長さ」など、改善したい仮想ボトルネックを変更します。同じ流入条件で2パターンを並行配信することで、外部要因の影響を最小化できる点が特徴です。

A/Bテスト・スプリットテスト・分割テストとの関係

A/Bテスト・スプリットテスト・分割テストは、いずれもABテストと同じ意味で使われます。表記が異なるだけで本質は同じです。

呼び名由来・使われ方
ABテスト日本語でもっとも一般的な表記
A/Bテスト英語表記の直訳。Web業界・グローバル文脈で多用
スプリットテストメール配信業界・古いマーケティング書籍で多用
分割テストスプリットテストの和訳

本記事ではこれ以降、すべて「ABテスト」で統一して扱います。

ABテストの種類

ABテストには形式の違いで4つの種類があります。目的に応じて使い分けてください。

種類パターン数向く用途
A/Bテスト2パターン1つの要素の優劣を確かめる基本形
A/B/nテスト3〜5パターン同じ要素の複数案を一度に比較したいとき
多変量テスト(MVT)要素1×要素2の組み合わせ複数要素の組み合わせ効果を見たいとき。十分な流入が必要
リダイレクトテストLP丸ごとAとBで差し替えLP全体を作り変えたとき/既存LPと新LPの比較

最初の1回はA/Bテストから始めるのが定石です。多変量テストは必要サンプル数が大きくなるため、流入が十分に確保できるサイトでないと有意な差が出にくくなります。

ABテストでわかること・わからないこと

ABテストでわかることは「2パターン間の相対的な優劣」と「変更幅と効果の感覚」です。Aより Bが押されやすかった、ボタン文言を変えたらクリック率が動いた、といった比較情報が得られます。

一方、ABテストでわからないこともあります。

  • 絶対的な「正解」のデザイン・コピー
  • 流入元や時期が大きく変わったときの再現性
  • ターゲットの心理的な動機(クリック数だけでは分からない)

ABテストは「自社の文脈での比較データ」を積み上げる手段であり、業界全体に通用する万能解を出すものではない、という前提で扱うことが大切です。

ABテストの全体フロー|やり方を7ステップで把握する

ABテストの基本フローは7ステップに分解できます。1回で終わる一発勝負ではなく、最後のステップから次の仮説へつながるサイクルとして回すのが基本です。

ABテストの7ステップを横に並べたプロセス図。現状分析から次サイクルへ循環する流れを示す。外部要素も色分けで区分。

STEP 1|現状の数値と仮想ボトルネックを整理する

最初に、対象サイト・LPの現状数値を把握します。直近1〜3ヶ月のセッション数、CVR、フォーム到達率、ボタンクリック率をGA4やヒートマップで確認し、「どこで多くの人が離脱しているか」を1〜2箇所に絞り込みます。

仮想ボトルネックの候補例は次のとおりです。

  • ファーストビュー読了率が低い(提案コピーが弱い)
  • ボタンクリック率は高いがフォーム完了率が低い(フォームが長すぎる)
  • CVボタンの直前まで読まれているのにクリックが少ない(文言が弱い)
  • 流入はあるが直帰率が高い(ペルソナと内容のズレ)

ボトルネックを絞り込めないままテストに入ると、効果検証の解釈が難しくなります。

STEP 2|仮説を1文に整理する

仮想ボトルネックが絞れたら、仮説を1文で書き出します。フォーマットは次の形が使いやすいです。

現状◯◯のため△△を××に変えると、□□が伸びると考えられる

例として、「現状ファーストビューの提案コピーが弱く読了率が低いため、提案コピーを『無料で課題を診断する』に変えると、CVRが伸びると考えられる」のように具体化します。

STEP 3|変える要素を1つに絞る

仮説で挙げた要素のうち、変更箇所を1つだけに絞ります。コピーも色もボタンも同時に変えると、効いた要素が特定できなくなり、次のサイクルに活かせなくなります。

「色も文言も変えたいから両方変える」は、ABテストとしては設計が崩れます。複数試したい場合は、1要素ずつ順番にテストするのが鉄則です。

STEP 4|パターンA・Bを設計する

パターンA(現状)とパターンB(変更後)を具体化します。変更箇所は1点だけにし、それ以外の要素はAとBで完全に揃えます。色を変えるテストなら、コピー・配置・サイズは同じです。

STEP 5|サンプル数と期間を決める

テスト開始前に、何件のCVが集まれば判定するか/何週間続けるかを決めます。各パターン100CV以上を最低ラインとし、流入が少ない場合は期間を延ばします。詳細は後述の「サンプル数と期間」セクションで解説します。

STEP 6|計測の設計を確定する

GA4・GTMでイベント発火条件を設定し、テスト開始前に発火確認を行います。「ボタンクリック」と「最終CV(フォーム送信・問い合わせ完了)」を別々のイベントとして計測する設計にしておくことが重要です。

STEP 7|結果を解釈して次の仮説へつなぐ

判定期間が終わったら、「採用」「不採用」「保留」のいずれかで結果を扱います。採用ならパターンBを本番に反映し、その結果を起点に次のボトルネック仮説を立てます。不採用なら別要素のテストへ移行、保留ならサンプル数を増やして再判定します。

LPの「どこを直せばCVRが改善するか」現状のデータをもとに無料で診断します!

\1分で完了!サイトのURLだけ送ってください/

仮説の立て方|「何を変えると、なぜ動くか」を1文で整理する

ABテストの結果を活かせるかどうかは、仮説の質でほぼ決まります。仮説が曖昧だと「効いた/効かなかった」だけで終わってしまい、次のテストに学びがつながりません。

仮説の構成要素

良い仮説には3つの要素が含まれます。

  1. 現状の課題:いま何がボトルネックになっているか(GA4・ヒートマップで観測した事実)
  2. 変える要素:その課題を解消するために変更する箇所
  3. 期待する変化:変更で動くと予測する指標と方向性

この3点が揃っていない仮説は、結果を見ても解釈が難しくなります。

1文テンプレ「現状◯◯のため△△を××に変えると、□□が伸びると考えられる」

仮説は1文でシンプルに書き出すと、検証可能な形になります。次のテンプレを使うと整理しやすくなります。

構成当てはめる内容
現状◯◯のため「ファーストビュー読了率が60%と低いため」「ボタンクリック率は高いがフォーム完了率が30%と低いため」など、観測済みの事実
△△を××に変えると「キャッチコピーをAからBに変える」「フォーム入力項目を5項目から3項目に減らす」など、1要素の具体的な変更
□□が伸びると考えられる「読了率」「フォーム完了率」「最終CV率」など、計測可能なKPI

例文を見てみます。

  • 良い仮説の例:現状CVボタンに金額の不安に答える文言がないため、ボタン直下のマイクロコピーを「初月無料・いつでも解約可」に変えると、ボタンクリック率が伸びると考えられる
  • 弱い仮説の例:ボタンの色を赤に変えたらCVRが伸びる気がする(現状の課題が書かれていない/期待する変化が曖昧)

良い仮説と弱い仮説の例

評価仮説何が問題か
良い現状フォーム到達率が35%で他LPより低いため、ファーストビューの提案コピーを「無料で課題診断」に変えると、フォーム到達率が伸びると考えられる現状の事実・変更要素・期待する指標が揃っている
弱い全体的にCVRを上げたい課題が特定されていない/変更要素が決まっていない
弱いデザインがダサいから変える主観のみ。仮説ではなくただの願望
弱いボタンを目立たせるために色を赤にする「目立たせる」と「CV増加」の因果関係が示されていない

仮説を立てるためのデータの集め方

良い仮説の土台になるのは、観測されたデータです。次の3つを最低限揃えてからテスト設計に入ると、仮説の質が大きく上がります。

  • GA4:ページ別の直帰率・滞在時間・コンバージョン経路。LPごとの読了率(スクロール70%・90%イベント)
  • ヒートマップツール:スクロール深度・クリック箇所・どこで離脱しているかの可視化
  • フォーム解析:各入力項目の通過率・離脱率。フォームのどこで止まっているか

これらのデータを見れば「LPのどこがボトルネックか」が見えてきます。仮想ボトルネックを絞り込めれば、テスト設計のスピードも上がります。

どこから触るか|LP・Webサイトで効果が出やすい順

ABテストで一番つまずきやすいのが「どこから触るか」の判断です。色やデザインから触りたくなりがちですが、効果が出やすい順では最後になります。

ABテスト時の優先順を示すインフォグラフィック。提案コピー、CVボタン、オファー、メインビジュアル、セクション順、デザイン・色の順で並ぶ。

LPで効果が出やすい順

LPでABテストを実施する場合、効果が出やすい順は次のとおりです。

  1. ファーストビューの提案コピー(オファー):認知の入口。「誰のための何か」が伝わらなければ、その先は読まれない
  2. CVボタンの文言(マイクロコピー含む):クリックの意思決定に直結。「無料」「30秒」など負担の少なさを伝える一言で動きやすい
  3. フォーム手前のオファー:特典・保証・所要時間。「あと一歩」を後押しする要素
  4. メインビジュアル・キービジュアル:提案コピーと一体で「誰のための何か」を伝える
  5. セクションの順序:価値→不安解消→料金 の順序で読了率と理解度が変わる
  6. デザイン・色:最後。周辺色とのコントラストの調整が中心

「効果が出やすい順」は「変えやすさの順」ではありません。コピーやオファーは認知判断に直結するため、変更1つあたりのインパクトが大きくなります。

なぜ色・デザインから触らないほうが良いのか

色やデザインの変更は、周辺要素とのコントラストで初めて効きます。ボタンを赤に変えてもCVが伸びないケースの多くは、ファーストビューのコピーやオファーが弱いまま色だけ触っているのが原因です。

また、色変更は「直感的に変えたくなる」要素なので、現状の課題と紐づかないまま実施されがちです。仮説が薄いまま色を変えても、結果が出ても原因が言語化できず、次に活かせません。

色やデザインは「コピー・オファー・配置を整えたあと、コントラスト調整として最後に触る」と覚えておくと、テスト全体の効率が上がります。

広告クリエイティブの場合の優先順位

LPの中ではなく、Meta広告・Google広告などの広告クリエイティブでABテストする場合は、優先順位が少し変わります。

  1. 訴求コピー(広告文・キャッチコピー):ターゲットの状態と提案の組み合わせを変える
  2. クリエイティブの「絵」のタイプ:商品写真/人物写真/テキスト主体/動画など
  3. CTA文言(広告内のボタン文言):「詳細を見る」「無料で試す」など
  4. 配色・トーン:最後

広告クリエイティブでも「絵を変える前にコピーを変える」が定石です。

フォーム内(EFO)のABテストは別レイヤーで扱う

フォーム内の項目数・入力支援・エラー表示などのABテストは、EFO(Entry Form Optimization)という別レイヤーで扱います。LPのCVボタンまでのABテストとは目的・指標が異なるため、テスト設計を分けたほうが結果が解釈しやすくなります。

フォーム改善の詳細はEFOツールおすすめ15選|タイプ別比較とフォーム改善の進め方をご覧ください。

1度に変えていいのは1要素まで|複数同時はやってはいけない

ABテストの大原則は「1度に変えていいのは1要素のみ」です。複数を同時に変えると、効いた要素が特定できなくなり、結果が次の改善につながりません。

同時複数変更で何が起こるか

たとえば、ボタンの「色」と「文言」を同時に変えて、CVが伸びたとします。このとき、CVを伸ばしたのは色なのか、文言なのか、その両方なのかを切り分けることはできません。

仮に色を緑から赤に変え、文言を「資料請求」から「無料で診断する」に同時に変えたとします。CVが伸びても、「色を戻して文言だけ変える」「色だけ変えて文言を戻す」を別途テストしないと、どちらが効いたか分かりません。結果として、テスト工数が増えるだけで効率が落ちます。

「色」と「文言」を同時に変えたときに何が分からなくなるか

具体的に、複数同時変更で分からなくなることは次のとおりです。

分からなくなること影響
どの要素が効いたか次のテストで何を残し、何を変えるかが決まらない
効果の大きさの内訳「色だけなら何%、文言だけなら何%」が分からない
他LPへの横展開判断「文言は効くが色は効かない」を切り分けて他LPに展開できない
ネガティブ要因の特定片方が効いて片方が効果を打ち消していても気づけない

多変量テスト(MVT)を選ぶ場合の条件

「複数要素の組み合わせ効果を見たい」場合は、A/Bテストではなく多変量テスト(MVT)を選びます。ただし、多変量テストは必要サンプル数が一気に跳ね上がります。

多変量テストが向く条件は次のとおりです。

  • 月間流入が数万セッション以上ある
  • 各パターン(組み合わせ)に十分なCVが集まる見込みがある
  • 「組み合わせ効果」を検証する明確な目的がある

流入が少ない中小サイトでMVTを選ぶと、サンプル不足で結論が出ないまま終わるケースが多いです。最初の数回はA/Bテストで1要素ずつ進めるのが現実的です。

例外:LP差し替え(リダイレクトテスト)の使いどころ

「1要素ずつ変える」原則の例外として、リダイレクトテストがあります。これはLP全体を作り変えたあと、旧LPと新LPの2つを丸ごと比較する手法です。

リダイレクトテストが向くケースは次のとおりです。

  • LPを全面リニューアルした直後の効果検証
  • まったく異なる訴求軸の2案を並行で試したい
  • 既存LPと新規LPで「どちらを本番にするか」を決めたい

ただしこの場合も、「LP丸ごと vs LP丸ごと」の比較なので、どの要素が効いたかは分からない点は変わりません。次のテストに引き継ぐ情報量はA/Bテストより少なくなります。

LPの「どこを直せばCVRが改善するか」現状のデータをもとに無料で診断します!

\1分で完了!サイトのURLだけ送ってください/

サンプル数と期間|「十分」と言えるラインの実務目安

ABテストで一番つまずきやすいポイントが、サンプル数と期間です。サンプル不足のまま結論を出すと、本来効果があった施策を「効果なし」と判定してしまうリスクがあります。

厳密にはサンプルサイズ計算で決まる

サンプル数は本来、現状CVR・検出したい差分・有意水準(α)・検出力(1−β)の4要素からサンプルサイズ計算で決まります。

  • 現状CVR:テスト前のCVR(例: 2%)
  • 検出したい差分:どの程度の改善幅を検出したいか(例: +20%、CVR 2%→2.4%)
  • 有意水準:「偶然による差」と判定する閾値(一般的にα=0.05)
  • 検出力:「本当は効果があるのに見逃さない確率」(一般的に1−β=0.8)

これらを入力すると、各パターンに必要なサンプル数が算出されます。無料のサンプルサイズ計算機がWeb上に複数公開されており、CVRと検出したい差分を入力するだけで計算できます。

統計判定の詳細は別記事で解説予定のため、本セクションでは「実務で最低限満たすライン」だけを扱います。

実務最低ライン|各パターン100CV以上/2週間×2

実務での最低ラインは次のとおりです。

観点最低ライン推奨
CV数各パターン100CV以上各パターン200CV以上
期間最低2週間2週間×2(パターン入れ替えで再検証)
流入の安定性流入経路を期間中に変更しない同じデバイス比率・同じ流入元の比率を維持

各パターン100CVが集まる見込みがない場合は、その時点でテスト設計を見直したほうが良いです。期間を延ばしても集まらない場合は、流入が少なすぎてABテストには向かない可能性があります。

流入が少ない場合の選択肢

月間流入が数千セッション以下で、各パターン100CVが2週間で集まる見込みがない場合の選択肢は3つあります。

  1. 期間を延ばす:4〜8週間に延長して必要CVを満たす(季節要因に注意)
  2. 変更幅を大きくする:ボタンの色を少し変える程度ではなく、コピーや配置を大きく変えて、検出したい差分を大きくする
  3. 改善余地が大きい要素から触る:「効果が出やすい順」の上位から手をつける

流入が極端に少ないサイト(月100セッション以下など)では、ABテストよりも質的な改善(ユーザーインタビュー・行動観察)を優先したほうが効率が良い場合があります。

期間を1週間にしてはいけない理由

「1週間でやってみて、よさそうなら採用」というやり方は避けてください。曜日や時間帯による流入の偏りで、CVRは1週間単位で大きく上下します。月曜と日曜では訪問者属性が違うことが多く、1週間判定では曜日要因と施策効果が区別できません。

最低2週間、できれば4週間以上の期間を確保してください。期間中に祝日や大型連休が入る場合は、その分も延長して平準化します。

同時並行で複数テストを走らせるとどうなるか

同じページで同時に複数のABテストを走らせると、テスト同士が干渉してしまいます。たとえば、ファーストビューのコピーとフォーム手前のオファーを同時にテストすると、コピーAとオファーA、コピーAとオファーB、コピーBとオファーA、コピーBとオファーBの4組み合わせができ、それぞれに必要サンプルが集まらないまま結論が出せなくなります。

同じページで複数テストをしたい場合は、順番に分けるのが基本です。テスト1の結論が出てから、テスト2に進みます。

計測の設計|ボタンクリック率と最終CV率を分けて見る

ABテストの設計で見落とされがちなのが計測の分解です。ボタンクリック率と最終CV率を別々に計測しないと、「ボタンは押されたのにCVは増えなかった」原因が分からなくなります。

ボタンクリック率と最終CV率が乖離する典型ケース

ボタンクリック率は伸びたのに、最終CV(フォーム送信完了・問い合わせ完了)は伸びなかった、というケースは珍しくありません。

典型的なパターンは次のとおりです。

状況原因の候補
ボタンクリック率↑/フォーム到達率↓クリック後の遷移先・離脱動線の問題
フォーム到達率↑/フォーム送信率↓フォーム項目が多い/入力エラーが分かりにくい
フォーム送信率↑/問い合わせ完了通知が来ない計測の二重カウント/タグ未設置
全体CVは増えたが質が悪化「無料」「タダ」など低意欲層を呼び込む文言に変えた

ABテストの結果を「採用/不採用」で正しく扱うには、これらを分けて見られる計測設計が必要です。

計測すべき指標の最低セット

LPのABテストで最低限分けて計測しておきたい指標は次のとおりです。

  1. セッション数(パターン別):流入が公平か確認するため
  2. CTAボタンクリック数:ボタン単体の効果
  3. フォーム到達数:ボタンクリックからフォームページへの遷移
  4. フォーム送信数:フォーム完了率
  5. 最終CV数:問い合わせ完了・サンクスページ到達
  6. 流入経路(参照元・デバイス):母集団がそろっているか確認

特に「ボタンクリック」と「最終CV」を別イベントとして計測することは、最初のABテストから必ずやっておくべき設定です。

二重カウントを避ける設計

GTMやGA4の設定で起きやすいのが、1回のクリックが2回計測されてしまう二重カウントです。原因として多いのは次のケースです。

  • スクロール検知とクリック検知の両方が走る設計
  • リダイレクト後のページでも同じイベントが発火する設計
  • iOSのSafariで戻る/進むの操作がイベント発火を重複させる

テスト開始前にTag Assistantプレビューモードで、想定どおりのイベント数だけが発火しているかを必ず確認してください。

GA4・GTMで最低限やっておくこと

無料で使えるGA4とGoogle Tag Manager(GTM)を使えば、外部のABテスト専用ツールがなくても計測設計は組めます。最低限やっておくことは次のとおりです。

  • パターン分割:パターンA・Bを別URLにする(例: /lp/a//lp/b/
  • セッション計測:各URLのセッション数・コンバージョン数をGA4で確認
  • クリックイベント:CTAボタンクリックを「クリック」イベントとしてGTMで設定
  • CV完了イベント:フォーム送信完了をサンクスページ到達イベントとして設定
  • 事前発火確認:計測タグの発火確認をテスト開始前に実施

ABテスト専用ツールを導入する前に、まずGA4・GTMで「自分のサイトでどこまで分解して計測できるか」を確認してみてください。

フォーム離脱率まで分解する

ボタンクリック数が伸びても最終CVが変わらないとき、フォーム離脱率の分解まで進めると、原因が見えやすくなります。

  • 各入力項目の通過率(フォーム解析ツールで取得)
  • どの項目で離脱が多いか
  • エラーが出やすい項目はどこか
  • スマホとPCで離脱率が大きく違うか

フォーム改善の優先順位の付け方はEFOツールおすすめ15選|タイプ別比較とフォーム改善の進め方をご覧ください。

結果の解釈|有意差が出ない・微妙な差のときに何を見るか

テスト期間が終わったら結果の解釈に入ります。ここで雑に判定すると、ABテスト全体が「意味ない」と感じる原因になりがちです。

ABテストの結果判定フロー図。CV差とサンプル数を集計し、100CV以上かつ2週間以上で有意差の有無を判断する流れ。採用/不採用/サンプル不足の3判定と次 Actions を案内。

統計的有意差の超ざっくり理解

ABテストの結果がパターンA: CVR 2.0%、パターンB: CVR 2.3%だったとき、これは「Bが勝った」と言えるでしょうか。

統計的には、この差が偶然による誤差で生じたのか、本当に施策が効いた結果なのかを判定する必要があります。これが「統計的有意差」の考え方です。一般的にはp値が0.05未満なら「偶然では起きにくい差」と判定します。

無料のABテスト判定ツールがWeb上に複数公開されており、両パターンのセッション数とCV数を入力するだけでp値を出してくれます。判定の詳細は専門記事に譲り、本セクションでは実務での判断軸を整理します。

サンプルが足りているかをまず疑う

有意差が出ない結果が出たら、最初に疑うのはサンプル数です。「効果なし」と「サンプル不足」は見た目では区別がつきません。

確認ポイントは次のとおりです。

  • 各パターン100CV以上集まっているか
  • 期間は2週間以上経過しているか
  • 流入経路・デバイス比率がテスト前後で大きく変わっていないか
  • 期間中に祝日や大型イベントが入っていないか

サンプル不足なら、期間を延ばして再判定するのが最初の選択肢です。

「効果なし」と「サンプル不足」を切り分ける

サンプルが十分集まっていて、それでも有意差が出ない場合は、いくつかのパターンが考えられます。

パターン解釈次のアクション
両パターンともCVRがほぼ同じ本当に差がない/改善余地が小さい要素を触った別の要素にテスト対象を変える
CVR差はあるがp値が0.05未満を切らないサンプルがあと一歩足りない/差分が小さいサンプルを増やすか、変更幅を大きくして再テスト
期間内でCVRの変動が大きい流入の質がばらついている流入経路を絞って再テスト

「微差で勝った」と判定して採用すると、本番反映後に元のCVRに戻る現象が起きやすくなります。微差での採用は避けるのが基本です。

検出したい差分が小さすぎる場合

サンプルが十分でも有意差が出ない場合、検出したい差分が小さすぎることが原因の場合があります。

たとえば、現状CVR 2%で「+1%(CVR 2.02%)の差を検出したい」とすると、必要サンプル数は数十万〜数百万になります。実務では現実的ではありません。

検出したい差分は最低でも「現状CVR比+20%」(CVR 2%なら2.4%)以上を狙うのが現実的です。「微改善」を狙ったテストは、サンプル数の壁で結論が出ないまま終わりやすくなります。

結果は「採用/不採用/保留」で扱う

ABテストの結果は、3つの判定のいずれかで扱います。

判定条件次のアクション
採用サンプル十分・有意差あり・差分が大きい本番反映→次のボトルネック仮説へ
不採用サンプル十分・有意差なし別要素のテストへ移行
保留サンプル不足/流入条件が崩れた期間延長・条件整備して再テスト

判定ルールをテスト開始前に決めておくと、結果が出たあとに「採用か保留か」で迷う時間が減ります。

LPの「どこを直せばCVRが改善するか」現状のデータをもとに無料で診断します!

\1分で完了!サイトのURLだけ送ってください/

ABテストが「意味ない」と感じる5つの原因と回避策

「ABテストはやっても意味ない」という声が出るのは、設計と判定が雑なケースが多いです。意味ない結果になる5つの原因を整理しました。

原因なぜ起きるか回避策
1. サンプル不足のまま判定流入が少ない/期間が短い各パターン100CV以上・2週間×2を満たすまで判定しない
2. 同時に複数要素を変更「いろいろ変えた方が伸びる気がする」誤解1度に1要素のみ。複数試したい場合は順番に分ける
3. 流入経路の差で母集団がそろわない期間や配信先で訪問者属性が偏る流入経路・デバイスを揃える/GA4で確認しテスト期間中は配信比率を変えない
4. 計測の二重カウントや欠損GTM/GA4の設定ミステスト開始前にイベントの発火確認・ボタンクリックと最終CVを別計測
5. 改善余地が小さい要素から触る「やりやすいから」で要素を選ぶ効果が出やすい優先順位(コピー→ボタン→オファー→配置→デザイン)に従う

5原因の概要

1つ目はサンプル不足です。「2週間やったけど効果が出なかった」と判定するケースの多くは、サンプル数自体が足りていません。各パターン100CVを下回ったままの判定は、偶然と施策効果の区別がつかないので、その時点で「保留」扱いにするのが安全です。

2つ目は同時複数変更です。「色も文言も同時に変えたほうが伸びる気がする」というのは直感としては自然ですが、ABテストの設計としては成立しません。1要素に絞ることが、次のテストに学びをつなげる前提です。

3つ目は流入経路の差です。テスト期間の前半と後半で広告の配信先や予算を変えると、訪問者属性が変わり、両パターンの比較が公平でなくなります。テスト期間中は配信条件を変更しないのが鉄則です。

4つ目は計測の二重カウントです。GTMやGA4の設定ミスで、1回のクリックが2回カウントされたり、逆に発火していない、といった事故が起きます。テスト開始前に発火確認をしないと、テスト終了後に「結果が信用できない」と気づいて全体をやり直すことになります。

5つ目は改善余地が小さい要素から触ることです。デザイン色や細かいフォントから触ると、もともと変化幅が小さい要素のため、有意差が出ないまま終わります。コピー・オファーから触れば、同じ工数で大きな差を検出できる可能性が高くなります。

「ABテストはやらないほうがマシ」になる条件

特定の条件下では、ABテストよりも別の改善手段のほうが効率が良い場合があります。

  • 月間流入が極端に少ない(数百セッション以下)
  • LPが完成して間もなく、明確なボトルネックがまだ見えていない
  • 流入経路がテスト期間中に大きく変わる予定がある
  • 計測タグの整備がまったくできていない

このような場合は、ABテストよりも先にユーザーインタビュー・フォーム解析・流入経路の整理を行ったほうが、改善の方向性が見えやすくなります。

「意味ない」と感じた経験を次にどう活かすか

過去のABテストで「結局よく分からなかった」と感じた経験がある場合、その経験は次のテスト設計の貴重な材料になります。

  • つまずきの言語化:どこでつまずいたか(仮説/設計/実装/判定)を1〜2行で書き出す
  • 設計の見直し:次回はそのつまずきを回避する設計にする
  • 最低ラインの遵守:サンプル数と期間の最低ラインを必ず満たす

最初の数回は「サンプル不足」「複数変更」「計測ミス」のいずれかでつまずきやすいです。SPIRITSの実務支援でも、最初のABテストで明確な結論が出るケースは多くありません。1回目で結論を出すよりも、サイクルとして回す前提で設計するほうが、結果として改善スピードが上がります。

LPの根本改善やABテスト全体の設計でお困りの場合は、株式会社SPIRITSのLPO支援もあわせてご検討ください。

ABテストの代表的な事例|何を変えるとどう動くのか

ABテストの代表的な事例として、Webマーケティングの文脈で広く引用される事例を紹介します。いずれも自社で再現される保証はないため、参考として扱う前提で読み進めてください。

色・ビジュアルを変えた事例(Mozilla / HubSpot)

Mozilla社の公式ブログ「Firefox is Green」(2009年)では、Firefoxのダウンロードボタンの既存色である緑と、青・紫・オレンジ/黄色のボタンを比較した実験が紹介されています。記事では、76.5%と77.3%の差を「1% lift」と説明し、勝ったボタン色を採用済みだと述べています。

一方、HubSpotの公式記事「11 A/B Testing Examples From Real Businesses」では、HubSpot Academyのホームページでヒーロー画像を含む3パターンを比較し、variant Bがコントロールを6%上回った事例が紹介されています(2026年5月確認)。

これらの事例から言えるのは、特定のサイト・特定のターゲット・特定の文脈での結果であり、ボタンの色に絶対的な正解があるわけではないということです。色そのものよりも、周囲とのコントラストや、ボタンの文言・配置との組み合わせで結果が変わります。

政治キャンペーンのCTA言い換え事例(オバマ献金)

2008年のオバマ大統領選挙キャンペーンで、献金ページのCTAボタンに「LEARN MORE」「JOIN US NOW」「SIGN UP」など複数の文言をテストした事例は、Optimizelyなどの二次情報や多くのマーケティング書籍で引用されています。結果は「LEARN MORE」が他の文言を上回ったとされ、メール購読率が大きく伸びたとされています。

ただしこの事例は、公式一次情報として現行確認できるページではなく、政治キャンペーンという特殊な文脈での結果でもあります。一般的なBtoB/BtoCのLPに直接当てはめるのではなく、「学びを得たい」というユーザー心理が強い文脈で「LEARN MORE」が効いた、という参考事例として扱うのが妥当です。

大規模サービスのABテスト運用(Bing / Microsoft)

Microsoft Researchの論文紹介ページでは、Microsoft ExP Platformで年間1万件以上の実験が実施されていると説明されています。大規模サービスでは、検索結果のレイアウト・広告の配置・ランキングロジックなど、あらゆる要素がABテストで判定されています。

このレベルの運用は中小規模のサイトでは現実的ではありませんが、「ABテストは1回で終わらず、継続的なサイクルで回す」という考え方は、サイト規模に関係なく共通する原則です。

国内LPO事例の傾向

国内のLPO(LPの効果改善)事例として、複数のLPOツール提供企業の公開事例ページで、CVRが1.5倍〜3倍に改善したケースが紹介されています。

ただし、これらの事例を見るときに注意すべき点が3つあります。

  1. 改善前のCVRが低い場合は伸び幅が大きく見える:CVR 1%→2%は「2倍」ですが、絶対値の改善幅は1ポイントです
  2. 改善要素が複数同時に変わっていることが多い:厳密なABテストではなく、リニューアル前後の比較になっていることがあります
  3. 業界・商材・流入経路が自社と違う:そのまま自社に当てはめると外れます

公開事例は「こういう要素を変えるとCVが動く可能性がある」という参考にとどめ、自社では仮説立案からABテストの設計を進めるのが安全です。

ABテストツールがなくても始められる|無料の方法と本格運用への移行

「ABテストを始めたいけど専用ツールが必要」と思われがちですが、GA4とGTMだけで簡易的なABテストは始められます

URLを分けて広告実験で比較する方法

最もシンプルなのが、パターンAとパターンBを別URLで公開し、広告プラットフォームのA/Bテスト・実験機能で流入を分ける方法です。

具体的な手順は次のとおりです。

  1. URLを分ける:パターンAを /lp/a/、パターンBを /lp/b/ で公開
  2. 流入を均等に振る:Meta広告のA/Bテスト機能やGoogle広告のテスト機能を使い、配信条件ができるだけ公平になるように分ける
  3. 計測する:GA4で各URLのセッション数・CV数を確認
  4. 比較する:2週間×2の期間で集計して比較

広告配信が中心のLPなら、この方法で十分にABテストが回せます。

GA4・GTMだけで「軽いABテスト」を回す

GA4とGTMを使った計測設計のポイントは次のとおりです。

  • 各URLにイベントタグを設定し、セッション・CTAクリック・最終CVを別々に取得
  • 同一ブラウザ・端末単位の再訪把握には、GA4のDevice ID(Webでは_ga CookieのClient ID由来)を使える。ただし、ログインユーザー横断や端末横断で見たい場合はUser-IDなど別設計が必要
  • パターン別のCVR・ボタンクリック率・フォーム完了率を計算

専用ツールを使わない場合のメリットは「無料で始められる」「他ツールの設定を覚える必要がない」点です。デメリットは「ユーザー単位のセグメント分析が手動になる」「サンプルサイズ計算ツールを別途使う必要がある」点です。

専用ツールを使うべきフェーズ

専用ツールの導入を検討すべきタイミングは次のとおりです。

  • テスト件数の増加:月間のABテスト件数が10件以上になる
  • 複数並行テスト:同時並行で複数ページのテストを走らせたい
  • パーソナライズ:ユーザー属性別の出し分けまで踏み込みたい
  • 統計判定の自動化:有意差判定をツールに任せたい
  • チーム運用:マーケ・開発・デザインの複数チームでテストを管理したい

専用ツール導入後も、「1要素ずつ」「サンプル100CV以上/2週間×2」「採用/不採用/保留で判定」の基本原則は変わりません。ツールが判定までやってくれても、仮説の質と設計の正確さがテスト全体の価値を決めます。

ツール選びの基本観点

ABテストツールを比較検討するときの基本観点は次のとおりです。

観点何を見るか
対応範囲LP差し替え/要素単位/配信先別/パーソナライズ/フォーム
計測精度GA4連携の容易さ・独自計測の精度
統計判定有意差判定・サンプルサイズ計算の自動化有無
運用負荷UIの分かりやすさ・複数チームでの管理機能
料金月額固定/成果連動/PV課金など
サポート日本語サポート・運用代行の有無

個別ツールの料金・機能の比較は「ABテストツール比較」記事で扱う予定です(執筆中)。

LPの「どこを直せばCVRが改善するか」現状のデータをもとに無料で診断します!

\1分で完了!サイトのURLだけ送ってください/

ABテスト実施前のチェックリスト

ABテストを始める前に、次の10項目をチェックしてください。1つでもNoがあれば、その項目を整えてからテストに進むと、結果の解釈がぐっと楽になります。

#チェック項目Yes/No
1現状のCVRと改善幅の仮目標を数値で持っている
2仮説を1文で書き出している(現状◯◯のため△△を××に変えると、□□が伸びると考えられる)
3変える要素は1つだけに絞れている
4パターンA・Bの差分が明確に1点だけになっている
5各パターン100CV以上集まる見込みがある
6最低2週間(できれば2週間×2)の期間を確保できる
7ボタンクリック率と最終CV率を別々に計測する設定がある
8配信経路・デバイスをテスト期間中に変えない合意がある
9結果を「採用/不採用/保留」のいずれかで判定するルールが決まっている
10次のテストで何を試すか、テスト開始前から仮置きしている

このチェックリストは、最初のABテストから本格運用フェーズまで共通で使えます。慣れてくると無意識に満たせるようになりますが、最初の数回は紙やドキュメントで明文化しておくと、つまずきが減ります。

よくある質問

ABテストとA/Bテスト、スプリットテストは違いますか?
ほぼ同義です。本記事ではすべて「ABテスト」で統一して扱います。A/Bテストは英語表記の直訳、スプリットテストはメール配信業界などで使われる旧い呼び名です。検証手法の本質は同じです。
ABテストは何要素まで変えていいですか?
原則1度に1要素のみです。複数同時に変えると、効いた要素が特定できなくなり、次のテストに学びがつながりません。複数試したい場合は、順番に1要素ずつテストしてください。
必要なサンプル数はどれくらいですか?
実務最低ラインは各パターン100CV以上、最低2週間(できれば2週間×2)です。厳密にはサンプルサイズ計算(現状CVR・検出差分・有意水準・検出力)で決まりますが、まずはこの最低ラインを満たすことを目指してください。
ABテストの期間はどれくらい必要ですか?
最低2週間です。1週間だと曜日要因が反映されないため、平日・週末・祝日の影響を平準化できません。流入が少ない場合は4週間以上に延ばします。
有意差が出ないときはどう判断しますか?
最初にサンプル数が足りているかを確認します。各パターン100CV未満なら「保留」扱いにし、期間を延ばします。サンプルが十分でも差が出ない場合は、検出したい差分が小さすぎる可能性があるため、変更幅を大きくして再テストしてください。
ABテストは「意味ない」と聞きました。本当ですか?
設計と判定が雑だと「意味ない」結果になりやすいのは事実です。サンプル不足・複数要素同時変更・流入差・計測ミス・改善余地の小さい要素から触る、の5原因を避ければ、ABテストは十分に意味があります。
ABテストツールがなくても始められますか?
始められます。URLを2つに分けてGA4・GTMで計測する方法で、無料の範囲内でABテストは回せます。月間10件以上のテストを走らせるようになった段階で、専用ツールを検討してください。
LPで最初に変えるべき要素はどれですか?
ファーストビューの提案コピーとCVボタンの文言から始めると効果が出やすいです。色やデザインから触ると変化幅が小さく、有意差が出ないまま終わりやすいので、最後に回します。
ボタンクリック率は伸びたのに最終CVが変わらないのはなぜですか?
クリック後の遷移先(フォーム・サンクスページ)でユーザーが離脱しているケースが多いです。フォームの項目数・入力エラー表示・モバイル対応など、フォーム改善(EFO)の領域まで分解して確認してください。
ABテストは何回繰り返せば良いですか?
1回で終わらせるのは推奨しません。仮説→1要素変更→比較→解釈→次の仮説のサイクルで継続的に回します。1〜2ヶ月に1回のペースでも、半年で5〜6回のテストが積み上がり、勝ちパターンが見えてきます。
流入が少ないサイトでもABテストはできますか?
月間数百セッション以下の場合は、ABテストよりもユーザーインタビューやフォーム解析を優先したほうが効率が良い場合があります。ABテストを実施するなら、期間を4週間以上に延ばし、変更幅を大きくして検出可能な差を狙ってください。
ABテストの結果は次にどう活かしますか?
勝ちパターンを本番に適用し、その結果を起点に次のボトルネック仮説を立てます。テストを「単発の検証」ではなく「継続的な改善サイクル」として扱うことで、半年〜1年単位で大きな改善につながります。

まとめ|ABテストは「サイクルで回す」のが基本

ABテストは1回の検証で終わらせるものではなく、サイクルとして継続的に回す前提で設計するのが基本です。重要なポイントを整理します。

  • 1度に変えていいのは1要素だけ。複数同時変更は次のテストに学びがつながらない
  • サンプル数の最低ラインは各パターン100CV以上/最低2週間(できれば2週間×2)
  • LPで触る順は「ファーストビューのコピー→CVボタン→オファー→配置→デザイン色」
  • ボタンクリック率と最終CV率は別々に計測する
  • 結果は「採用/不採用/保留」のいずれかで扱う。微差で採用しない
  • 「意味ない」と感じる5原因(サンプル不足・複数変更・流入差・計測ミス・改善余地の小さい要素)を避ける
  • 仮説→1要素変更→比較→解釈→次の仮説のサイクルで回す

LP全体の改善やABテストの設計でお困りの方は、株式会社SPIRITSのLPO支援もあわせてご検討ください。

関連記事もあわせてご覧ください。

LPの「どこを直せばCVRが改善するか」現状のデータをもとに無料で診断します!

\1分で完了!サイトのURLだけ送ってください/

author avatar
Mariko Sekido
Webマーケティング領域で、課題整理と集客設計から、施策の実行・計測・改善まで担当しています。広告・SEO・Web改善を横断し、現場の意思決定に使える形で考え方とプロセスを整理して発信します。

最近書いた記事

SHARE