Калькулятор размера выборки A/B теста
Спланируйте A/B тест перед запуском. Введите базовую конверсию, минимальный обнаруживаемый эффект (MDE), уровень значимости (альфа) и мощность (1 минус бета), чтобы получить необходимый размер выборки на вариант, общий размер выборки и время, которое займет тест при вашем ежедневном трафике.
Ваш блокировщик рекламы мешает показывать объявления
MiniWebtool бесплатен благодаря рекламе. Если этот инструмент помог, поддержите нас через Premium (без рекламы + быстрее) или добавьте MiniWebtool.com в исключения и обновите страницу.
- Или перейдите на Premium (без рекламы)
- Разрешите показ рекламы на MiniWebtool.com, затем перезагрузите страницу.
О Калькулятор размера выборки A/B теста
Калькулятор Размера Выборки A/B Теста планирует A/B тест до того, как вы его запустите. Введите базовый уровень конверсии, интересующий вас минимально обнаруживаемый эффект (MDE), уровень значимости (альфа) и необходимую статистическую мощность, и калькулятор выдаст требуемый размер выборки на группу и общий размер выборки. Также вы получите автоматическую оценку продолжительности теста на основе вашего ежедневного трафика и его доли, кривую мощности, показывающую зависимость мощности от размера выборки, таблицу чувствительности для сравнения затрат при разных значениях MDE, визуализацию распределения трафика и заключение о целесообразности понятным языком. Создан специально для A/B тестов коэффициента конверсии (z-критерий для двух пропорций, формулировка Коэна) с опциональной поправкой Бонферрони для многовариантных тестов.
Как использовать
- Введите базовый уровень конверсии текущего варианта (A), измеренный за недавний репрезентативный период.
- Установите минимально обнаруживаемый эффект (MDE) — наименьший подъем, который действительно способен повлиять на ваше решение. Переключайтесь между относительными процентами и абсолютными процентными пунктами.
- Выберите уровень значимости (альфа) — 5% (95% доверительный интервал) является отраслевым стандартом.
- Выберите статистическую мощность — 80% является стандартом по умолчанию; поднимите до 90% для запусков высокой важности.
- Выберите двусторонний тест (вариант B отличается от A в любую сторону, по умолчанию) или односторонний (учитывается только победа B над A).
- Если вы проводите многовариантный тест, задайте количество вариантов — калькулятор автоматически применит поправку Бонферрони.
- Введите количество посетителей в день на странице и долю трафика, направляемую в эксперимент.
- Нажмите Рассчитать размер выборки, чтобы узнать размер выборки на группу и общий размер выборки, ожидаемую продолжительность теста, кривую мощности, таблицу чувствительности и пошаговые математические выкладки.
Используемая формула (Формула мощности для двух пропорций)
p₂ = p₁ × (1 + MDE_relative) или p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (объединенный показатель при H₀)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (стандартное отклонение при нулевой гипотезе)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (стандартное отклонение при альтернативной гипотезе)
n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
Для односторонних тестов замените zα/2 на zα. Для K вариантов против одного контроля замените α на α / (K − 1) (поправка Бонферрони).
Что отличает этот калькулятор размера выборки
- Интерактивный предпросмотр перед отправкой — каждое нажатие клавиши мгновенно обновляет размер выборки на группу, общее число посетителей, целевую конверсию и оценку длительности.
- Продолжительность теста в реальном времени — превращает абстрактное требование «вам нужно 31 000 посетителей» в конкретное «ваш тест будет идти 8 дней при 4 000 посетителей в день на группу».
- Анимированная кривая мощности — посмотрите, где именно на кривой мощности находится ваш целевой размер выборки, и какую прибавку к мощности даст еще одна неделя сбора трафика.
- Таблица чувствительности MDE — наглядное сравнение затрат размера выборки для обнаружения подъема в 2%, 5%, 10%, 15%, 20% и 25%, позволяющее выбрать наименьший, но при этом реализуемый подъем.
- Относительный или абсолютный MDE — переключение в один клик между двумя наиболее распространенными способами задания целевого подъема продуктовыми командами.
- Поддержка многовариантности с поправкой Бонферрони — корректно обрабатывает тесты типа A/B/C и A/B/C/D с автоматической корректировкой; многие калькуляторы втайне используют математику простого A/B теста для многовариантных вводных данных.
- Визуализация распределения трафика — разделенная на сегменты полоса, точно показывающая, как трафик теста распределяется между контролем и каждым из вариантов.
- Заключение о целесообразности простыми словами — понятная зеленая/желтая/красная плашка, предупреждающая о слишком затяжных тестах еще до их запуска.
- Быстрые сценарии — готовые пресеты в один клик для типичных условий электронной коммерции, SaaS, email-рассылок и мобильных установок.
Как читать заключение о целесообразности
- Зеленый — Реализуемо. Тест завершится в течение двух недель. У вас достаточно трафика, чтобы обнаружить выбранный подъем с заданным уровнем доверия.
- Желтый — Выполнимо. Тест займет от двух до шести недель. Закладывайте время минимум на один полный бизнес-цикл и избегайте искушения подглядывать в результаты.
- Красный — Медленно. Тест займет более шести недель (или не сможет завершиться). Длительные тесты подвержены влиянию сезонности и изменениям в поведении пользователей — либо увеличьте MDE, который вас интересует, либо увеличьте долю трафика, направляемого в эксперимент.
Почему размер выборки растет так стремительно
Наибольшее значение имеют две закономерности. Во-первых, требуемый размер выборки масштабируется пропорционально единице, деленной на квадрат MDE — уменьшение подъема, который вы хотите обнаружить, в два раза увеличивает необходимую выборку в четыре раза. Во-вторых, тесты с низким базовым уровнем обходятся дороже — при базовой конверсии в 1% вам потребуется примерно в 25 раз больше посетителей, чем при конверсии в 5%, чтобы обнаружить тот же относительный подъем. Вместе эти два эффекта объясняют, почему даже сайты с высокой посещаемостью сталкиваются с трудностями при попытке обнаружить небольшие улучшения на этапах воронки с низкой конверсией.
Распространенные ошибки при планировании A/B тестов
- Установка слишком маленького MDE. Раздувает размер выборки до значений, которые невозможно собрать за разумное время. Выбирайте минимальный подъем, который действительно изменит ваше решение о внедрении, а не стройте оптимистичные догадки.
- Мощность ниже 80%. Тест с мощностью 60% имеет 40-процентный шанс упустить реально существующий эффект. Стандартом для принятия продуктовых решений является 80%; не снижайте его только ради того, чтобы тест «вписался» в сроки.
- Преждевременная остановка при низком p-значении. Проверка промежуточных результатов и остановка в момент, когда p < 0.05, резко увеличивает частоту ложноположительных результатов. Зафиксируйте плановый размер выборки еще до старта.
- Игнорирование затрат на многовариантность. Тест A/B/C/D с четырьмя вариантами требует применения альфы с поправкой Бонферрони — обычно это в 2–3 раза увеличивает размер выборки на группу по сравнению с простым A/B тестом.
- Игнорирование эффекта выходных дней. Минимальная продолжительность теста в 7 дней позволяет сгладить разницу в составе трафика по дням недели; очень короткие тесты могут быть сильно искажены различиями между буднями и выходными.
- Недооценка накладных расходов на распределение. Если вы направляете в тест только 50% трафика, скорость наполнения групп падает вдвое — календарная длительность удваивается.
Выбор значений альфа и мощности
Альфа — это уровень ложноположительных результатов, то есть вероятность объявить вариант B победителем, когда на самом деле он им не является. Мощность — это единица минус уровень ложноотрицательных результатов, то есть вероятность обнаружить реального победителя с эффектом размера MDE. Отраслевыми значениями по умолчанию являются альфа = 0.05 и мощность = 0.80. Используйте альфу = 0.01 и мощность = 0.90 для критически важных запусков, где цена ошибки высока. Оба этих выбора делают тест более строгим и увеличивают необходимый размер выборки: снижение альфы с 0.05 до 0.01 примерно удваивает выборку; повышение мощности с 0.80 до 0.90 увеличивает её еще на 30%.
Относительный и абсолютный MDE
Относительный MDE (% от базового уровня) — наиболее частый подход: «Я хочу обнаружить 10-процентный подъем относительно моей текущей конверсии в 5%», что означает p₂ = 5.5%. Абсолютный MDE (процентные пункты) — правильный выбор, когда влияние на бизнес выражается в пунктах воронки: «Я хочу обнаружить подъем на +0.5 п.п. относительно базового уровня в 5%», что также означает p₂ = 5.5%. Оба варианта эквивалентны — выбирайте тот, который привычнее для ваших стейкхолдеров.
Многовариантные тесты и поправка Бонферрони
Если вы сравниваете K вариантов с одной контрольной группой, вы фактически проводите K − 1 одновременных тестов. Наивный уровень ложноположительных результатов возрастает с каждым дополнительным сравнением — три независимых теста при альфе = 0.05 дают совокупную вероятность ложной тревоги около 14% вместо 5%. Стандартным решением является поправка Бонферрони: разделите ваш номинальный уровень альфа на количество сравнений перед расчетом критического z-значения. Этот калькулятор применяет поправку автоматически, если указать число вариантов больше 2. Итогом становится увеличение требуемого размера выборки на группу — многовариантные тесты требуют больше трафика на один вариант, чем простые A/B тесты.
FAQ
Какой размер выборки мне нужен для A/B теста?
Он зависит от четырех чисел: базового уровня конверсии, минимально обнаруживаемого эффекта (MDE), уровня значимости (альфа) и статистической мощности. Для типичного теста в e-commerce с базовым уровнем 5%, целевым относительным подъемом 10%, альфой 0.05 и мощностью 80% вам потребуется примерно 31 000 посетителей на каждый вариант. Более низкие базовые уровни и меньшие значения MDE резко увеличивают необходимый размер выборки.
Что такое минимально обнаруживаемый эффект (MDE) и как его выбрать?
MDE — это наименьший подъем, который тест должен надежно зафиксировать. Выбирайте его на основе экономического эффекта — это минимальное улучшение, которое способно изменить ваше решение о развертывании фичи. Типичные ориентиры: от 5% до 10% относительного подъема для высокотрафиковых шагов оплаты и регистрации, от 15% до 25% относительного подъема для разделов с меньшим трафиком. Меньший MDE требует значительно большей выборки, поэтому не занижайте его искусственно.
Какой уровень значимости и мощность мне использовать?
Альфа 0.05 (95% доверительный интервал) и мощность 80% — это стандартные отраслевые настройки для продуктовых и маркетинговых задач. Для запусков высокой степени важности применяйте альфу 0.01 и мощность 90%. Снижение альфы или беты требует увеличения размера выборки — это всегда компромисс между ложноположительными (альфа), ложноотрицательными (бета) результатами и временем проведения теста.
Почему моему тесту требуется так много посетителей на вариант?
Здесь определяют два фактора. Во-первых, низкие базовые показатели конверсии раздувают необходимую выборку — выявление небольшого подъема при базовом уровне 1% требует примерно в 25 раз больше посетителей, чем при уровне 5%. Во-вторых, требуемый размер выборки пропорционален единице, деленной на квадрат MDE — сокращение MDE вдвое увеличивает выборку вчетверо. Повысьте планку MDE, которая для вас важна, либо приготовьтесь к более долгому тесту.
Как выводится формула?
Это стандартная формула расчета мощности для двух пропорций на основе нормального приближения. Размер выборки на группу равен квадрату выражения (zα, умноженное на объединенное стандартное отклонение при нулевой гипотезе, плюс zβ, умноженное на стандартное отклонение при альтернативной гипотезе), деленному на квадрат разности показателей. Калькулятор использует объединенную дисперсию для нулевой гипотезы и необъединенную дисперсию для альтернативной — это наиболее классический академический подход (Cohen 1988, Fleiss et al. 1980).
Как обрабатывать многовариантные тесты с более чем одним тестовым вариантом?
Когда вы сопоставляете K вариантов с одним контролем, калькулятор задействует поправку Бонферрони, деля альфу на (K − 1) перед нахождением критического z-значения. Это предохраняет от лавинообразного роста ложноположительных исходов при множественных сравнениях. Как результат, увеличивается планка выборки на группу — многовариантные тесты расходуют больше трафика на вариант, чем базовые схемы A/B.
Должен ли я проводить тест в течение рекомендованного количества дней или остановиться, когда он достигнет значимости?
Выдержите тест в течение всей намеченной длительности и подводите итоги по значимости строго в конце. Остановка в момент, когда p-значение уходит ниже 0.05 (подглядывание), взвинчивает частоту ложных срабатываний далеко за пределы заявленной альфы. Размер выборки из этого калькулятора — ваш целевой ориентир; утвердите его до запуска и не поддавайтесь соблазну назвать победителя раньше времени. По окончании теста вы можете перенести данные в сопутствующий Калькулятор Значимости A/B Теста, чтобы узнать итоговое p-значение и доверительный интервал.
Что делать, если мой уровень конверсии крайне мал (ниже 1%)?
Нормальное приближение может давать небольшие погрешности, если значения np или n(1 − p) невелики. Для тестов с очень низким показателем (например, базовый уровень 0.1%) калькулятор всё равно предоставит надежную ориентировочную оценку, однако рекомендуется заложить небольшой запас (10-15%) сверх предложенного размера выборки. Для последующего анализа при малых объемах конверсий более строгой альтернативой на этапе оценки результатов выступает точный критерий Фишера.
Ссылайтесь на этот контент, страницу или инструмент так:
"Калькулятор размера выборки A/B теста" на сайте https://ru.miniWebtool.com// от MiniWebtool, https://MiniWebtool.com/
от команды miniwebtool. Обновлено: 2026-05-17
Вы также можете попробовать наш AI Решатель Математических Задач GPT, чтобы решить ваши математические проблемы с помощью вопросов и ответов на естественном языке.