Калькулятор Значимости A/B Теста

Определите, является ли разница между вариантами A/B теста статистически значимой. Введите количество посетителей и конверсий для контрольной и тестовой групп, чтобы получить p-значение, уровень значимости, аплифт и четкий вердикт о победе или проигрыше.

Быстрые примерыНажмите, чтобы загрузить типовой сценарий, затем скорректируйте любые поля перед расчетом.

Живой просмотр — добавьте данные

Конверсия контроля —

Конверсия варианта —

Относ. прирост —

z = — · ожидание p-значения

Контроль (A)

Оригинал

Посетители

Конверсии Не должно превышать количество посетителей выше.

Вариант (B)

Претендент

Посетители

Конверсии Тот же временной интервал, что и для контроля.

Уровень доверия

Тип теста

Embed Калькулятор Значимости A/B Теста Widget

О Калькулятор Значимости A/B Теста

Калькулятор значимости A/B теста применяет z-тест для двух долей к данным вашего эксперимента и сообщает, является ли наблюдаемая разница между контрольным вариантом (A) и тестируемым вариантом (B) статистически значимой. Введите количество посетителей и конверсий для обеих групп, и инструмент вернет p-значение, доверительный интервал для разницы показателей, абсолютный и относительный прирост, статистическую мощность для наблюдаемого эффекта, размер выборки для каждой группы, необходимый для подтверждения прироста при мощности 80%, и понятный вердикт о победе, проигрыше или неопределенном результате, подкрепленный анимированной визуализацией того, куда попадает ваша z-оценка на стандартном нормальном распределении.

Как использовать

Введите количество посетителей и конверсий для контрольного варианта (A).
Введите те же два числа для тестируемого варианта (B), измеренные за тот же промежуток времени.
Выберите уровень доверия: 95% является стандартным, 99% — более строгим, 90% подходит для предварительных исследований.
Выберите тип теста: двусторонний (B отличается от A в любую сторону) или односторонний (учитывается только если B превосходит A).
Нажмите кнопку Рассчитать значимость, чтобы увидеть вердикт, p-значение, доверительные интервалы, мощность и пошаговые математические расчеты.

Используемая формула (Z-тест для двух долей)

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (общая доля при H₀)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

p-value (двустороннее) = 2 × (1 − Φ(|z|))

ДИ для (p₂ − p₁) на уровне (1 − α) = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

Что делает этот калькулятор A/B тестов особенным

Живой просмотр перед отправкой формы — введите любое из четырех чисел и наблюдайте, как показатели, прирост, z-оценка, p-значение и вердикт обновляются в режиме реального времени.
Визуальная проверка значимости — анимированная кривая стандартного нормального распределения наглядно показывает, где именно находится ваша z-статистика относительно областей отклонения гипотезы.
График форест-плот для доверительных интервалов — сравнивайте интервалы 95% для обоих показателей на одной шкале. Непересекающиеся полосы — это визуальный маркер победителя.
Понятный вердикт — информационный баннер зеленого, желтого или красного цвета вместо одной лишь сухой цифры p-значения. Большинству заинтересованных сторон фраза «Вариант B побеждает» скажет гораздо больше, чем «p = 0.028».
Оценка статистической мощности — алгоритм определяет, когда тест имеет недостаточную мощность, и рекомендует необходимый размер выборки для каждой группы для достижения мощности 80%.
Байесовский показатель «P(B > A)» — дополнительный взгляд на данные, альтернативный классическому p-значению (частотному подходу), который многие продуктовые команды находят более интуитивным.
Предустановки для быстрых примеров — загружайте сценарии явной победы, спорного исхода, отсутствия сигнала или проигрыша в один клик и изучайте, как меняются цифры.

Как читать вердикт

Зеленый — Значимая победа. p-value ≤ α и конверсия варианта > конверсии контроля. Прирост вряд ли обусловлен случайностью; вы можете внедрять вариант B.
Красный — Значимый проигрыш. p-value ≤ α, но конверсия варианта < конверсии контроля. Вариант B объективно хуже; оставьте вариант A и проанализируйте причины.
Желтый — Близко к пороговому значению. p-value находится вблизи значения α. Соберите больше трафика перед принятием окончательного решения.
Серый — Сигнал пока отсутствует. Данные указывают на отсутствие реальной разницы. Вы можете либо продолжить тест, либо остановить его и протестировать более масштабное изменение.

Почему не стоит останавливать тест раньше времени при значимом P-значении

Регулярная проверка результатов теста и его остановка в тот самый момент, когда p-value становится меньше 0.05 (часто называемая «подглядыванием» или peeking), искусственно завышает частоту ложноположительных результатов — иногда до 30% и более при номинальном уровне теста в 5%. Заранее определите размер выборки с помощью расчета мощности, проведите эксперимент до достижения этой целевой планки и только после этого оценивайте значимость. Требуемый размер выборки на группу, отображаемый этим калькулятором, служит хорошим ориентиром при планировании будущих тестов.

Планирование размера выборки

Если ваш тест имеет недостаточную мощность, калькулятор порекомендует необходимый размер выборки на группу, используя стандартную формулу мощности для двух долей:

n / группа ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

где p̄ — среднее значение p₁ и p₂, а z_β — квантиль стандартного нормального распределения для целевой мощности (0.84 для 80%).

Подставьте ваши исторические базовые показатели и минимальный прирост, который имеет для вас значение, в формулу — это и будет целевой размер выборки, который необходимо собрать перед запуском нового теста.

Распространенные ошибки в A/B тестировании

Подглядывание (Peeking) — проверка результатов каждый день и остановка при первом же значимом p-значении увеличивает количество ложных срабатываний. Используйте последовательное тестирование или дождитесь планового размера выборки.
Слишком маленькие выборки — при наличии менее нескольких сотен конверсий на группу нормальное приближение становится неточным. В таких случаях стоит рассмотреть точный тест Фишера.
Множественные сравнения — запуск десяти параллельных тестов с отчетом только по одному победителю искажает частоту ложноположительных результатов. Применяйте поправку Бонферрони или проводите предварительно зарегистрированные подтверждающие тесты.
Эффект новизны — вариант B может выглядеть многообещающе в первую неделю исключительно потому, что пользователи замечают интерфейсные изменения. Дайте тесту поработать достаточно долго, чтобы эффект стабилизировался.
Ошибка выжившего (смещение отбора) — фильтрация посетителей после этапа рандомизации искажает чистоту эксперимента. Всегда рассчитывайте тест на полной рандомизированной совокупности пользователей.
Несогласованное окно измерений — собирайте данные для обеих групп в строго идентичные временные интервалы. Различия в структуре трафика в будние и выходные дни смещают базовый показатель конверсии.

Односторонние тесты против Двусторонних

Двусторонний тест проверяет, отличается ли вариант B от варианта A в любую сторону. Это правильный выбор по умолчанию, когда вы действительно можете внедрить любой из вариантов по итогам эксперимента. Односторонний тест учитывает результат только в заранее заданном направлении (как правило: B превосходит A) и примерно вдвое уменьшает p-значение, если данные указывают на это — однако вы должны строго выбрать направление до того, как посмотрите на данные. Переключение на односторонний тест после изучения результатов является распространенной формой p-хакинга.

Как читать доверительный интервал

Доверительный интервал 95% для разницы показателей демонстрирует правдоподобный диапазон истинного прироста. Если интервал находится полностью выше нуля, то вариант B побеждает; полностью ниже нуля — вариант B проигрывает; если же он пересекает ноль, данные указывают на отсутствие реальной разницы. Ширина интервала является мерой точности вашей оценки: чем он уже, тем большим объемом данных вы располагаете.

Часто задаваемые вопросы

Что делает калькулятор значимости A/B теста?

Он применяет z-тест для двух долей к вашим данным о конверсиях в контрольной и тестовой группах и сообщает, маловероятно ли, что наблюдаемая разница в коэффициентах конверсии объясняется случайностью. Он показывает p-значение, доверительный интервал для разницы, статистическую мощность для наблюдаемого эффекта, относительный прирост и понятный вердикт.

Какой уровень доверия следует использовать для A/B теста?

Уровень доверия 95% (α = 0.05) является отраслевым стандартом для продуктовых и маркетинговых тестов. Используйте 99% для важных изменений, где ложноположительный результат обходится дорого, и 90% только для предварительных исследований, где вы готовы принять более высокий риск ложноположительного результата.

Стоит ли мне проводить односторонний или двусторонний тест?

Используйте двусторонний тест, когда вас интересует только то, что B отличается от A в любую сторону. Используйте односторонний тест, если у вас есть направленная гипотеза, определенная заранее, например, ожидается, что B превзойдет A, и вы готовы игнорировать любой сигнал в противоположном направлении. Большинству продуктовых команд следует по умолчанию использовать двусторонний тест.

Как рассчитывается p-значение?

Общая доля p̂ вычисляется на основе объединенных конверсий и посетителей. Стандартная ошибка равна √[p̂(1−p̂)(1/n₁ + 1/n₂)]. Z-статистика — это разница долей, деленная на эту стандартную ошибку. Двустороннее p-значение рассчитывается как 2 × (1 − Φ(|z|)), где Φ — функция стандартного нормального распределения.

Что такое статистическая мощность и почему она важна?

Мощность — это вероятность того, что тест обнаружит реальный эффект наблюдаемого размера при данном текущем размере выборки. Мощность ниже 80% означает, что тест, скорее всего, слишком мал, чтобы подтвердить прирост, даже если он реален. Калькулятор сообщает мощность и размер выборки на группу, который вам понадобится для достижения 80%.

Можно ли остановить тест, как только p-значение опустится ниже 0.05?

Нет. Подглядывание и ранняя остановка увеличивают частоту ложноположительных результатов значительно выше номинальной α. Заранее определите размер выборки с помощью расчета мощности, проведите тест до конца и только после этого оценивайте значимость. Требуемый размер выборки, показанный этим калькулятором, является хорошим ориентиром.

Что если мой коэффициент конверсии очень низкий (например, меньше 1%)?

Нормальное приближение может быть неточным, когда значения np или n(1−p) малы. В качестве эмпирического правила желательно иметь не менее 30 конверсий в каждой группе, в идеале — более 100. Для тестов с очень низким уровнем конверсии рассмотрите точный тест Фишера в качестве более консервативной альтернативы.

Что означает показатель P(B > A)?

При неинформативном (равномерном) априорном распределении для каждого показателя данные определяют апостериорную вероятность того, что вариант B имеет более высокий истинный коэффициент конверсии, чем вариант A. Это байесовское дополнение к классическому p-значению, и его часто проще транслировать коллегам и руководству («мы на 85% уверены, что вариант B лучше» звучит понятнее, чем «p = 0.03»).

Ссылайтесь на этот контент, страницу или инструмент так:

"Калькулятор Значимости A/B Теста" на сайте https://ru.miniWebtool.com/калькулятор-значимости-a-b-теста/ от MiniWebtool, https://MiniWebtool.com/

разработано командой miniwebtool. Обновлено: 2026-05-17

Вы также можете попробовать наш AI Решатель Математических Задач GPT, чтобы решить ваши математические проблемы с помощью вопросов и ответов на естественном языке.