Калькулятор размера выборки A/B теста

Спланируйте A/B тест перед запуском. Введите базовую конверсию, минимальный обнаруживаемый эффект (MDE), уровень значимости (альфа) и мощность (1 минус бета), чтобы получить необходимый размер выборки на вариант, общий размер выборки и время, которое займет тест при вашем ежедневном трафике.

Быстрые сценарииНажмите, чтобы загрузить типичный базовый уровень и MDE для отрасли, затем настройте любое поле перед расчетом.

Интерактивный предпросмотр — добавьте данные

На группу —

Всего посетителей —

Длительность теста —

целевой показатель — · настройте базовый уровень + MDE

Базовый уровень (Контроль A)

Текущий

Базовый уровень конверсии

Текущий уровень конверсии варианта A — измеренный за последнее время.

Минимально обнаруживаемый эффект

Относительный

Наименьший подъем для обнаружения

% отн

Меньше MDE → значительно больше выборка (n масштабируется как 1/MDE²).

Значимость (α)

Мощность (1 − β)

Тип теста

Кол-во вариантов

Посетителей на странице в день

/день

Общий ежедневный трафик на тестируемой странице.

Трафик в тесте

% ежедневного трафика, направляемого в эксперимент.

Embed Калькулятор размера выборки A/B теста Widget

О Калькулятор размера выборки A/B теста

Калькулятор Размера Выборки A/B Теста планирует A/B тест до того, как вы его запустите. Введите базовый уровень конверсии, интересующий вас минимально обнаруживаемый эффект (MDE), уровень значимости (альфа) и необходимую статистическую мощность, и калькулятор выдаст требуемый размер выборки на группу и общий размер выборки. Также вы получите автоматическую оценку продолжительности теста на основе вашего ежедневного трафика и его доли, кривую мощности, показывающую зависимость мощности от размера выборки, таблицу чувствительности для сравнения затрат при разных значениях MDE, визуализацию распределения трафика и заключение о целесообразности понятным языком. Создан специально для A/B тестов коэффициента конверсии (z-критерий для двух пропорций, формулировка Коэна) с опциональной поправкой Бонферрони для многовариантных тестов.

Как использовать

Введите базовый уровень конверсии текущего варианта (A), измеренный за недавний репрезентативный период.
Установите минимально обнаруживаемый эффект (MDE) — наименьший подъем, который действительно способен повлиять на ваше решение. Переключайтесь между относительными процентами и абсолютными процентными пунктами.
Выберите уровень значимости (альфа) — 5% (95% доверительный интервал) является отраслевым стандартом.
Выберите статистическую мощность — 80% является стандартом по умолчанию; поднимите до 90% для запусков высокой важности.
Выберите двусторонний тест (вариант B отличается от A в любую сторону, по умолчанию) или односторонний (учитывается только победа B над A).
Если вы проводите многовариантный тест, задайте количество вариантов — калькулятор автоматически применит поправку Бонферрони.
Введите количество посетителей в день на странице и долю трафика, направляемую в эксперимент.
Нажмите Рассчитать размер выборки, чтобы узнать размер выборки на группу и общий размер выборки, ожидаемую продолжительность теста, кривую мощности, таблицу чувствительности и пошаговые математические выкладки.

Используемая формула (Формула мощности для двух пропорций)

p₂ = p₁ × (1 + MDE_relative) или p₂ = p₁ + MDE_absolute

p̄ = (p₁ + p₂) / 2 (объединенный показатель при H₀)

SD₀ = √[ 2 × p̄ × (1 − p̄) ] (стандартное отклонение при нулевой гипотезе)

SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (стандартное отклонение при альтернативной гипотезе)

n / arm = (z_α/2 × SD₀ + z_β × SD₁)² / (p₂ − p₁)²

Для односторонних тестов замените z_α/2 на z_α. Для K вариантов против одного контроля замените α на α / (K − 1) (поправка Бонферрони).

Что отличает этот калькулятор размера выборки

Интерактивный предпросмотр перед отправкой — каждое нажатие клавиши мгновенно обновляет размер выборки на группу, общее число посетителей, целевую конверсию и оценку длительности.
Продолжительность теста в реальном времени — превращает абстрактное требование «вам нужно 31 000 посетителей» в конкретное «ваш тест будет идти 8 дней при 4 000 посетителей в день на группу».
Анимированная кривая мощности — посмотрите, где именно на кривой мощности находится ваш целевой размер выборки, и какую прибавку к мощности даст еще одна неделя сбора трафика.
Таблица чувствительности MDE — наглядное сравнение затрат размера выборки для обнаружения подъема в 2%, 5%, 10%, 15%, 20% и 25%, позволяющее выбрать наименьший, но при этом реализуемый подъем.
Относительный или абсолютный MDE — переключение в один клик между двумя наиболее распространенными способами задания целевого подъема продуктовыми командами.
Поддержка многовариантности с поправкой Бонферрони — корректно обрабатывает тесты типа A/B/C и A/B/C/D с автоматической корректировкой; многие калькуляторы втайне используют математику простого A/B теста для многовариантных вводных данных.
Визуализация распределения трафика — разделенная на сегменты полоса, точно показывающая, как трафик теста распределяется между контролем и каждым из вариантов.
Заключение о целесообразности простыми словами — понятная зеленая/желтая/красная плашка, предупреждающая о слишком затяжных тестах еще до их запуска.
Быстрые сценарии — готовые пресеты в один клик для типичных условий электронной коммерции, SaaS, email-рассылок и мобильных установок.

Как читать заключение о целесообразности

Зеленый — Реализуемо. Тест завершится в течение двух недель. У вас достаточно трафика, чтобы обнаружить выбранный подъем с заданным уровнем доверия.
Желтый — Выполнимо. Тест займет от двух до шести недель. Закладывайте время минимум на один полный бизнес-цикл и избегайте искушения подглядывать в результаты.
Красный — Медленно. Тест займет более шести недель (или не сможет завершиться). Длительные тесты подвержены влиянию сезонности и изменениям в поведении пользователей — либо увеличьте MDE, который вас интересует, либо увеличьте долю трафика, направляемого в эксперимент.

Почему размер выборки растет так стремительно

Наибольшее значение имеют две закономерности. Во-первых, требуемый размер выборки масштабируется пропорционально единице, деленной на квадрат MDE — уменьшение подъема, который вы хотите обнаружить, в два раза увеличивает необходимую выборку в четыре раза. Во-вторых, тесты с низким базовым уровнем обходятся дороже — при базовой конверсии в 1% вам потребуется примерно в 25 раз больше посетителей, чем при конверсии в 5%, чтобы обнаружить тот же относительный подъем. Вместе эти два эффекта объясняют, почему даже сайты с высокой посещаемостью сталкиваются с трудностями при попытке обнаружить небольшие улучшения на этапах воронки с низкой конверсией.

Распространенные ошибки при планировании A/B тестов

Установка слишком маленького MDE. Раздувает размер выборки до значений, которые невозможно собрать за разумное время. Выбирайте минимальный подъем, который действительно изменит ваше решение о внедрении, а не стройте оптимистичные догадки.
Мощность ниже 80%. Тест с мощностью 60% имеет 40-процентный шанс упустить реально существующий эффект. Стандартом для принятия продуктовых решений является 80%; не снижайте его только ради того, чтобы тест «вписался» в сроки.
Преждевременная остановка при низком p-значении. Проверка промежуточных результатов и остановка в момент, когда p < 0.05, резко увеличивает частоту ложноположительных результатов. Зафиксируйте плановый размер выборки еще до старта.
Игнорирование затрат на многовариантность. Тест A/B/C/D с четырьмя вариантами требует применения альфы с поправкой Бонферрони — обычно это в 2–3 раза увеличивает размер выборки на группу по сравнению с простым A/B тестом.
Игнорирование эффекта выходных дней. Минимальная продолжительность теста в 7 дней позволяет сгладить разницу в составе трафика по дням недели; очень короткие тесты могут быть сильно искажены различиями между буднями и выходными.
Недооценка накладных расходов на распределение. Если вы направляете в тест только 50% трафика, скорость наполнения групп падает вдвое — календарная длительность удваивается.

Выбор значений альфа и мощности

Альфа — это уровень ложноположительных результатов, то есть вероятность объявить вариант B победителем, когда на самом деле он им не является. Мощность — это единица минус уровень ложноотрицательных результатов, то есть вероятность обнаружить реального победителя с эффектом размера MDE. Отраслевыми значениями по умолчанию являются альфа = 0.05 и мощность = 0.80. Используйте альфу = 0.01 и мощность = 0.90 для критически важных запусков, где цена ошибки высока. Оба этих выбора делают тест более строгим и увеличивают необходимый размер выборки: снижение альфы с 0.05 до 0.01 примерно удваивает выборку; повышение мощности с 0.80 до 0.90 увеличивает её еще на 30%.

Относительный и абсолютный MDE

Относительный MDE (% от базового уровня) — наиболее частый подход: «Я хочу обнаружить 10-процентный подъем относительно моей текущей конверсии в 5%», что означает p₂ = 5.5%. Абсолютный MDE (процентные пункты) — правильный выбор, когда влияние на бизнес выражается в пунктах воронки: «Я хочу обнаружить подъем на +0.5 п.п. относительно базового уровня в 5%», что также означает p₂ = 5.5%. Оба варианта эквивалентны — выбирайте тот, который привычнее для ваших стейкхолдеров.

Многовариантные тесты и поправка Бонферрони

Если вы сравниваете K вариантов с одной контрольной группой, вы фактически проводите K − 1 одновременных тестов. Наивный уровень ложноположительных результатов возрастает с каждым дополнительным сравнением — три независимых теста при альфе = 0.05 дают совокупную вероятность ложной тревоги около 14% вместо 5%. Стандартным решением является поправка Бонферрони: разделите ваш номинальный уровень альфа на количество сравнений перед расчетом критического z-значения. Этот калькулятор применяет поправку автоматически, если указать число вариантов больше 2. Итогом становится увеличение требуемого размера выборки на группу — многовариантные тесты требуют больше трафика на один вариант, чем простые A/B тесты.

FAQ

Какой размер выборки мне нужен для A/B теста?

Он зависит от четырех чисел: базового уровня конверсии, минимально обнаруживаемого эффекта (MDE), уровня значимости (альфа) и статистической мощности. Для типичного теста в e-commerce с базовым уровнем 5%, целевым относительным подъемом 10%, альфой 0.05 и мощностью 80% вам потребуется примерно 31 000 посетителей на каждый вариант. Более низкие базовые уровни и меньшие значения MDE резко увеличивают необходимый размер выборки.

Что такое минимально обнаруживаемый эффект (MDE) и как его выбрать?

MDE — это наименьший подъем, который тест должен надежно зафиксировать. Выбирайте его на основе экономического эффекта — это минимальное улучшение, которое способно изменить ваше решение о развертывании фичи. Типичные ориентиры: от 5% до 10% относительного подъема для высокотрафиковых шагов оплаты и регистрации, от 15% до 25% относительного подъема для разделов с меньшим трафиком. Меньший MDE требует значительно большей выборки, поэтому не занижайте его искусственно.

Какой уровень значимости и мощность мне использовать?

Альфа 0.05 (95% доверительный интервал) и мощность 80% — это стандартные отраслевые настройки для продуктовых и маркетинговых задач. Для запусков высокой степени важности применяйте альфу 0.01 и мощность 90%. Снижение альфы или беты требует увеличения размера выборки — это всегда компромисс между ложноположительными (альфа), ложноотрицательными (бета) результатами и временем проведения теста.

Почему моему тесту требуется так много посетителей на вариант?

Здесь определяют два фактора. Во-первых, низкие базовые показатели конверсии раздувают необходимую выборку — выявление небольшого подъема при базовом уровне 1% требует примерно в 25 раз больше посетителей, чем при уровне 5%. Во-вторых, требуемый размер выборки пропорционален единице, деленной на квадрат MDE — сокращение MDE вдвое увеличивает выборку вчетверо. Повысьте планку MDE, которая для вас важна, либо приготовьтесь к более долгому тесту.

Как выводится формула?

Это стандартная формула расчета мощности для двух пропорций на основе нормального приближения. Размер выборки на группу равен квадрату выражения (z_α, умноженное на объединенное стандартное отклонение при нулевой гипотезе, плюс z_β, умноженное на стандартное отклонение при альтернативной гипотезе), деленному на квадрат разности показателей. Калькулятор использует объединенную дисперсию для нулевой гипотезы и необъединенную дисперсию для альтернативной — это наиболее классический академический подход (Cohen 1988, Fleiss et al. 1980).

Как обрабатывать многовариантные тесты с более чем одним тестовым вариантом?

Когда вы сопоставляете K вариантов с одним контролем, калькулятор задействует поправку Бонферрони, деля альфу на (K − 1) перед нахождением критического z-значения. Это предохраняет от лавинообразного роста ложноположительных исходов при множественных сравнениях. Как результат, увеличивается планка выборки на группу — многовариантные тесты расходуют больше трафика на вариант, чем базовые схемы A/B.

Должен ли я проводить тест в течение рекомендованного количества дней или остановиться, когда он достигнет значимости?

Выдержите тест в течение всей намеченной длительности и подводите итоги по значимости строго в конце. Остановка в момент, когда p-значение уходит ниже 0.05 (подглядывание), взвинчивает частоту ложных срабатываний далеко за пределы заявленной альфы. Размер выборки из этого калькулятора — ваш целевой ориентир; утвердите его до запуска и не поддавайтесь соблазну назвать победителя раньше времени. По окончании теста вы можете перенести данные в сопутствующий Калькулятор Значимости A/B Теста, чтобы узнать итоговое p-значение и доверительный интервал.

Что делать, если мой уровень конверсии крайне мал (ниже 1%)?

Нормальное приближение может давать небольшие погрешности, если значения np или n(1 − p) невелики. Для тестов с очень низким показателем (например, базовый уровень 0.1%) калькулятор всё равно предоставит надежную ориентировочную оценку, однако рекомендуется заложить небольшой запас (10-15%) сверх предложенного размера выборки. Для последующего анализа при малых объемах конверсий более строгой альтернативой на этапе оценки результатов выступает точный критерий Фишера.

Ссылайтесь на этот контент, страницу или инструмент так:

"Калькулятор размера выборки A/B теста" на сайте https://ru.miniWebtool.com/калькулятор-размера-выборки-a-b-теста/ от MiniWebtool, https://MiniWebtool.com/

от команды miniwebtool. Обновлено: 2026-05-17

Вы также можете попробовать наш AI Решатель Математических Задач GPT, чтобы решить ваши математические проблемы с помощью вопросов и ответов на естественном языке.

Другие сопутствующие инструменты:

Калькулятор Значимости A/B ТестаНовый

Калькулятор d Коэна

Калькулятор доверительного интервала для пропорции

Калькулятор p-значенияНовый

Калькулятор размера выборки

Калькулятор размера выборки A/B теста

Базовый уровень (Контроль A)

Минимально обнаруживаемый эффект

О Калькулятор размера выборки A/B теста

Как использовать

Используемая формула (Формула мощности для двух пропорций)

Что отличает этот калькулятор размера выборки

Как читать заключение о целесообразности

Почему размер выборки растет так стремительно

Распространенные ошибки при планировании A/B тестов

Выбор значений альфа и мощности

Относительный и абсолютный MDE

Многовариантные тесты и поправка Бонферрони

FAQ

Какой размер выборки мне нужен для A/B теста?

Что такое минимально обнаруживаемый эффект (MDE) и как его выбрать?

Какой уровень значимости и мощность мне использовать?

Почему моему тесту требуется так много посетителей на вариант?

Как выводится формула?

Как обрабатывать многовариантные тесты с более чем одним тестовым вариантом?

Должен ли я проводить тест в течение рекомендованного количества дней или остановиться, когда он достигнет значимости?

Что делать, если мой уровень конверсии крайне мал (ниже 1%)?

Другие сопутствующие инструменты:

Статистика и анализ данных:

Избранные инструменты: