Что такое систематики измерений в A/B тестировании?

Систематики измерений — это систематические неопределённости, которые не уменьшаются с ростом данных. В цифровой рекламе это ошибка измерения видимости (~15%), неопределённость детекции фрода (~5%) и шум кросс-девайс атрибуции (~10%). Они создают неустранимый порог дисперсии — какой бы большой ни была выборка, этот шум остаётся. Если систематика велика относительно эффекта, эффект становится необнаружимым.

Калькулятор размера выборки A/B теста — бесплатный, с последовательным тестированием и поправками на реальность

Q: Какая формула используется для расчёта размера выборки A/B теста?

Для двухвыборочного Z-теста пропорций размер выборки на руку: n = (z_alpha * sqrt(2*p_bar*(1-p_bar)) + z_beta * sqrt(p1*(1-p1) + p2*(1-p2)))^2 / (p2-p1)^2, где p1 — базовая конверсия, p2 — ожидаемая конверсия в тестовой группе, p_bar — объединённая конверсия, z_alpha — критическое значение для уровня значимости, z_beta — критическое значение для мощности. Формула предполагает тест с фиксированным горизонтом без промежуточного анализа.

Q: Как последовательное тестирование влияет на размер выборки?

Последовательное тестирование (групповой последовательный дизайн) позволяет проверять результаты на заранее запланированных промежуточных этапах без увеличения вероятности ложноположительного результата. Компромисс — увеличение максимального размера выборки, обычно на 5-30% в зависимости от количества проверок и функции расходования. Границы O'Brien-Fleming добавляют минимальную инфляцию (~3% для 5 проверок), тогда как Pocock требует больше (~25% для 5 проверок).

Q: Что такое сверхдисперсия и почему она важна для A/B тестов?

Сверхдисперсия возникает, когда дисперсия данных превышает предсказание биномиальной модели. Это типично для рекламы — пользователи в одном регионе, на одном типе устройств или в одном временном когорте коррелированы. Даже малая внутрикластерная корреляция (rho=0,001) может увеличить требуемый размер выборки на 10-30%. Модель Beta-Binomial учитывает это одним параметром, но стандартные калькуляторы игнорируют сверхдисперсию полностью.

Q: Что такое CUPED и как он уменьшает размер выборки?

CUPED (Controlled-experiment Using Pre-Experiment Data) — метод снижения дисперсии, использующий данные до эксперимента. Если корреляция (rho-squared) между доэкспериментальной ковариатой и метрикой равна 0,25, CUPED уменьшает требуемый размер выборки на 25%. Это фактически бесплатная мощность — вы собираете те же данные, но извлекаете больше сигнала.

Q: Как задержка конверсий влияет на эксперимент?

Задержка конверсий означает, что часть конверсий происходит спустя дни или недели после показа. Если окно наблюдения короче типичного лага конверсий, вы теряете часть данных. Калькулятор моделирует это экспоненциальным затуханием: наблюдаемая_доля = 1 - exp(-lambda * окно_дней). Окно 7 дней с lambda=0,3 даёт ~88% конверсий, требуя ~14% больше пользователей для компенсации.

Q: Почему этот калькулятор даёт бо́льшие числа, чем другие?

Другие калькуляторы (Evan Miller, Statsig, Optimizely, GrowthBook) считают размер выборки при идеальных условиях: одноразовый анализ, без сверхдисперсии, без шума измерений, без задержки. Реальность другая. Если вы планируете промежуточные проверки (последовательное тестирование), пользователи коррелированы (сверхдисперсия) или система измерения зашумлена (систематики) — вам нужно больше данных. Индикатор «Наивный vs Реальный» показывает точную разницу.

Q: Вычисления выполняются на вашем сервере?

Нет. Все вычисления на 100% выполняются на стороне клиента через WebAssembly (WASM). Движок написан на Rust (та же библиотека ns-inference, что и в полной платформе NextStat), скомпилирован в ~130 КБ WASM-бинарник, работающий в Web Worker. Ваши данные никогда не покидают браузер.

Q: Односторонний или двусторонний тест — какой выбрать?

Двусторонний тест (по умолчанию) обнаруживает как улучшения, так и ухудшения. Односторонний — только улучшения, требует меньше данных, но не может обнаружить вред. Используйте двусторонний для продуктовых экспериментов, где важно выявить деградацию.

Q: O'Brien-Fleming или Pocock — какую функцию расходования выбрать?

O'Brien-Fleming использует консервативные ранние границы и мягкие поздние — минимальные дополнительные расходы на размер выборки (~3% для 5 проверок), но ранняя остановка маловероятна. Pocock использует одинаковые границы на каждом этапе — ранняя остановка более вероятна, но максимальный размер выборки на 20-30% больше. Для большинства рекламных экспериментов рекомендуется OBF.

Параметры

Базовая конверсия 2%

Минимальный детектируемый эффект (относительный) 10%

Уровень значимости (alpha)

Мощность (1 − beta)

Тип теста

Дневной трафик на руку (необязательно) Для оценки длительности эксперимента

Последовательное тестирование

Количество промежуточных проверок

Функция расходования

Поправки на реальность

Сверхдисперсия (rho) 0.000

Внутрикластерная корреляция (Beta-Binomial)

Неопределённость измерений (sigma) 0.00

Видимость, фрод, кросс-девайс шум

Снижение CUPED (rho²) 0%

Снижение дисперсии из доэкспериментальных данных

Окно задержки (дней)

Скорость задержки (lambda)

Модель задержки конверсий: наблюдаемая доля = 1 − exp(−λ · окно)

Результаты

Загрузка WASM движка…

Размер выборки на руку

—

— всего (обе руки)

Длительность

—

Режим

—

Наивный

Реальный

Кривая мощности

Кривая MDE

Почему это важно

Почему размер выборки важен для A/B тестов

Запускать A/B тест без предварительного расчёта выборки — всё равно что навигировать без карты. Слишком мало пользователей — и вы пропустите реальный эффект (ошибка II рода), сделав вывод «разницы нет», когда она есть. Слишком много — и вы потратите время, бюджет и альтернативные издержки на эксперимент, который длился дольше необходимого.

Размер выборки определяет два ключевых свойства теста: статистическую мощность (вероятность обнаружить реальный эффект) и точность (ширину доверительного интервала). Недостаточно мощный тест может показать незначимый результат для эффекта, который реален и экономически значим. Избыточно мощный тест расходует ресурсы, которые можно было бы направить на следующий эксперимент.

В рекламе ставки конкретны. Каждый день работы эксперимента — это день, когда вы делите бюджет между контролем и вариантом. Если вариант хуже — вы сжигаете деньги. Если лучше — вы теряете выручку, не развернув его на весь трафик. Правильный расчёт размера выборки находит оптимум: достаточно наблюдений для надёжного вывода без единого лишнего дня альтернативных издержек.

Большинство практиков используют стандартную формулу фиксированного горизонта и на этом останавливаются. Но эта формула опирается на допущения, которые редко выполняются на практике: отсутствие промежуточных проверок, некоррелированность пользователей, отсутствие шума измерений, мгновенные конверсии. Когда эти допущения нарушаются — а они нарушаются всегда — «правильный» размер выборки оказывается неправильным. Для этого и существует этот калькулятор.

Проблема

Что не учитывают другие калькуляторы

Каждый популярный калькулятор размера выборки — Evan Miller, Statsig, Optimizely, GrowthBook — вычисляет одну и ту же формулу Z-теста фиксированного горизонта. Они дают ответ при идеальных условиях: единственный анализ в конце, идеально измеренные исходы, независимые наблюдения и мгновенные конверсии. Вот что они упускают.

Промежуточные проверки результатов (последовательное тестирование). Если вы планируете проверять тест до набора запланированного объёма, фактический уровень значимости инфлируется. Групповой последовательный дизайн (O'Brien-Fleming, Pocock) контролирует это, расходуя alpha по промежуточным проверкам, но требует больше данных. При 5 проверках увеличение составляет от 3% (OBF) до 25% (Pocock). Ни один конкурентный калькулятор не показывает эту инфляцию.

Сверхдисперсия. Пользователи в одном регионе, на одном типе устройств или в одном временном когорте коррелированы, поэтому реальная дисперсия превышает биномиальное допущение. Даже малая внутрикластерная корреляция (rho = 0,001) может увеличить требуемый n на 10-30%. Модель Beta-Binomial учитывает это одним параметром, но стандартные калькуляторы предполагают rho = 0.

Неопределённость измерений. В рекламе наблюдаемый результат — не истинный результат. Измерение видимости имеет ~15% шума, детекция фрода добавляет ~5%, кросс-девайс атрибуция — ~10%. Это создаёт неустранимый порог дисперсии, который не уменьшается с ростом данных. Если систематический шум велик относительно эффекта, который вы пытаетесь обнаружить, — никакой размер выборки не поможет, эффект необнаружим. Этот калькулятор вычисляет точный порог.

Задержка конверсий. Когда конверсии происходят через дни или недели после показа, короткое окно наблюдения теряет их часть. Окно в 7 дней при типичной задержке e-commerce захватывает около 88% конверсий, требуя ~14% больше пользователей для компенсации. Стандартные калькуляторы предполагают мгновенную конверсию.

Возможности снижения дисперсии. CUPED (Controlled-experiment Using Pre-Experiment Data) может уменьшить требуемый размер выборки на 10-50%, используя доэкспериментальные ковариаты для поглощения шума. Если у вас есть такие данные, вы упускаете мощность. Ни один конкурентный калькулятор не показывает выгоду от CUPED.

Итог: «размер выборки» из стандартного калькулятора — это нижняя граница, игнорирующая реальные условия измерений. Ваш реальный эксперимент будет недостаточно мощным, если не учесть эти факторы. Именно это и делает этот калькулятор.

Под капотом

Методология

Базовая формула — Z-тест двух пропорций

n_fixed = (z_α ⋅ √2p̄(1 − p̄) + z_β ⋅ √p₁(1 − p₁) + p₂(1 − p₂))² / δ²

p̄ = (p₁ + p₂) / 2 — объединённая пропорция, δ = p₂ − p₁ — абсолютный эффект

Формулировка Fleiss/Lachin: объединённая дисперсия под H₀ для α-члена, раздельная — для β-члена.

Последовательное тестирование

IF_seq = z*_K / z_α

Отношение критического значения последней проверки группового последовательного дизайна к фиксированному. Функции расходования: O'Brien-Fleming или Pocock.

Сверхдисперсия (Beta-Binomial)

VIF = 1 / (1 − ρ)

Коэффициент инфляции дисперсии из Beta-Binomial модели. ρ — внутрикластерная корреляция (ICC).

Систематики измерений

v_sys = 2(σ ⋅ p̄)²

IF_sys = δ² / (δ² − (z_α + z_β)² ⋅ v_sys)

Неустранимый порог дисперсии от видимости, фрода, кросс-девайс шума. Если знаменатель ≤ 0 — эффект необнаружим.

Снижение дисперсии CUPED

RF_CUPED = 1 − ρ²

Множитель снижения дисперсии. ρ² — квадрат корреляции между доэкспериментальной ковариатой и метрикой исхода.

Поправка на задержку конверсий

f_obs = 1 − e^{−λ ⋅ w} IF_delay = 1 / f_obs

Экспоненциальная модель затухания: λ — интенсивность, w — окно наблюдения в днях. Конверсии за пределами окна теряются — нужно больше наблюдений.

Итоговый скорректированный размер выборки

n_adj = n_fixed × IF_seq × VIF × IF_sys × RF_CUPED × IF_delay

Все поправки мультипликативны. Каждый множитель > 1 увеличивает выборку (инфляция), множитель < 1 — уменьшает (редукция). Неиспользованные поправки равны 1 и не влияют на результат.

Все вычисления выполняются в вашем браузере через WebAssembly, скомпилированный из той же библиотеки Rust ns-inference, которая работает в полной платформе NextStat. Без приближений, без серверных вызовов, данные не покидают ваше устройство.

Литература:

Fleiss, Levin & Paik (2003). Statistical Methods for Rates and Proportions, 3rd ed. Wiley. — Формула двухвыборочного Z-теста.
O'Brien & Fleming (1979). A multiple testing procedure for clinical trials. Biometrics, 35(3), 549–556. — Групповые последовательные границы.
Pocock (1977). Group sequential methods in the design and analysis of clinical trials. Biometrika, 64(2), 191–199.
Deng, Xu, Kohavi & Walker (2013). Improving the sensitivity of online controlled experiments by utilizing pre-experiment data. WSDM '13. — CUPED.
Lan & DeMets (1983). Discrete sequential boundaries for clinical trials. Biometrika, 70(3), 659–663. — Функции расходования alpha.

Практическое руководство

Как выбрать минимальный детектируемый эффект

Минимальный детектируемый эффект (MDE) — наименьшее улучшение, которое стоит обнаруживать. Его выбор — бизнес-решение, а не статистическое. Задайте его слишком малым — и вам потребуются миллионы пользователей; слишком большим — и вы пропустите реальные улучшения.

Начните с выручки. Рассчитайте влияние 1% относительного прироста конверсии на выручку. Если базовая конверсия 2% при 100 000 ежемесячных посетителей со средним чеком 3 000 ₽, 1% относительный прирост (2% → 2,02%) — это ~20 дополнительных конверсий/месяц = 60 000 ₽/месяц. Стоит ли это эксперимента? Если нет — увеличивайте MDE, пока отдача не оправдает затраты.

Учтите стоимость эксперимента. Каждый день эксперимента вы делите трафик. Если вариант лучше — вы получаете лишь половину прироста. Если хуже — вы тратите бюджет на проигрывающую сторону. Стоимость 30 лишних дней часто превышает ценность обнаружения 1% прироста вместо 5%.

Практическое правило для рекламы: большинство A/B тестов на уровне кампаний в Яндекс.Директ и Google Ads используют MDE 5-20%. Тесты лендингов с высоким трафиком могут снижать до 2-5%. Тесты креативов или стратегий ставок с ограниченным трафиком обычно используют 10-30%. Если требуемый размер выборки превышает доступный трафик в разумном окне (2-4 недели) — увеличивайте MDE.

Справочник

Справочные таблицы размера выборки

Размеры выборки на руку для фиксированного горизонта при типичных базовых конверсиях, alpha = 0,05 и мощность = 0,80 (двусторонний тест). Это наивные оценки — добавьте поправки на последовательное тестирование, сверхдисперсию и систематики для реального планирования.

Базовая конверсия	MDE 5%	MDE 10%	MDE 15%	MDE 20%	MDE 30%	MDE 50%
0.5%	6,147,370	1,536,843	683,042	384,211	170,760	61,474
1%	3,042,094	760,524	337,999	190,131	84,503	30,421
2%	1,489,478	372,370	165,498	93,093	41,375	14,895
5%	555,648	138,912	61,739	34,728	15,435	5,557
10%	254,298	63,575	28,255	15,894	7,064	2,543
20%	103,192	25,798	11,466	6,450	2,867	1,032

Сравнение

NextStat vs. другие калькуляторы

Возможность	NextStat	Evan Miller	Statsig	Optimizely	GrowthBook
Z-тест фиксированного горизонта	Да	Да	Да	Да	Да
Инфляция последовательного тестирования	Да	Нет	Нет	Нет	Нет
Поправка на сверхдисперсию	Да	Нет	Нет	Нет	Нет
Систематики измерений	Да	Нет	Нет	Нет	Нет
Снижение дисперсии CUPED	Да	Нет	Нет	Нет	Нет
Поправка на задержку	Да	Нет	Нет	Нет	Нет
Кривые мощности и MDE	Да	Да	Нет	Нет	Да
Разбор чувствительности	Да	Нет	Нет	Нет	Нет
Сравнение наивный vs реальный	Да	Нет	Нет	Нет	Нет
100% на клиенте (WASM)	Да	Да	Нет	Нет	Нет
Открытый вычислительный движок	Да	Нет	Нет	Нет	Да

Вопросы

Часто задаваемые вопросы

Какая формула используется для расчёта размера выборки A/B теста?

Для двухвыборочного Z-теста пропорций размер выборки на руку: n = (z_alpha * sqrt(2 * p_bar * (1 - p_bar)) + z_beta * sqrt(p1 * (1 - p1) + p2 * (1 - p2)))² / (p2 - p1)², где p1 — базовая конверсия, p2 — ожидаемая конверсия в тестовой группе, p_bar — объединённая конверсия, z_alpha — критическое значение для уровня значимости, z_beta — критическое значение для мощности. Формула предполагает тест с фиксированным горизонтом без промежуточного анализа.

Как последовательное тестирование влияет на размер выборки?

Последовательное тестирование (групповой последовательный дизайн) позволяет проверять результаты на заранее запланированных промежуточных этапах без инфляции ложноположительных результатов. Компромисс — увеличение максимального размера выборки, обычно на 3-25% в зависимости от количества проверок и функции расходования. Границы O'Brien-Fleming добавляют минимальную инфляцию (~3% для 5 проверок), а Pocock — больше (~25% для 5 проверок).

Что такое сверхдисперсия и почему она важна?

Сверхдисперсия возникает, когда дисперсия данных превышает предсказание биномиальной модели. Пользователи в одном регионе, на одном устройстве или в одном временном когорте коррелированы. Даже малая внутрикластерная корреляция (rho = 0,001) может увеличить требуемый размер выборки на 10-30%. Модель Beta-Binomial учитывает это. Большинство калькуляторов игнорируют этот эффект.

Что такое систематики измерений?

Это систематические неопределённости, которые не уменьшаются с ростом данных: ошибка измерения видимости (~15%), неопределённость детекции фрода (~5%), шум кросс-девайс атрибуции (~10%). Они создают неустранимый порог дисперсии. Если систематический шум велик относительно эффекта, эффект становится необнаружимым при любом размере выборки.

Что такое CUPED и как он помогает?

CUPED (Controlled-experiment Using Pre-Experiment Data) снижает дисперсию, используя данные до эксперимента в качестве ковариат. Если корреляция (rho-squared) между ковариатой и метрикой исхода равна 0,25, CUPED уменьшает требуемый размер выборки на 25%. Это фактически бесплатная мощность — те же данные, больше сигнала.

Почему этот калькулятор даёт бо́льшие числа, чем другие?

Другие калькуляторы считают размер выборки при идеальных условиях: без промежуточных проверок, без сверхдисперсии, без шума измерений, без задержки. Если вы планируете проверять промежуточные результаты (последовательное тестирование), пользователи коррелированы (сверхдисперсия) или система измерения зашумлена (систематики) — вам нужно больше данных. Индикатор «Наивный vs Реальный» показывает точную разницу.

Вычисления выполняются на вашем сервере?

Нет. Все вычисления на 100% выполняются на стороне клиента через WebAssembly (WASM). Движок написан на Rust и скомпилирован в ~130 КБ WASM-бинарник, работающий в Web Worker. Ваши данные никогда не покидают браузер.

Односторонний или двусторонний — какой тест выбрать?

Двусторонний тест (по умолчанию) обнаруживает как улучшения, так и ухудшения. Односторонний — только улучшения, требует меньше данных, но не может обнаружить вред. Используйте двусторонний для продуктовых экспериментов, где деградация критична.

O'Brien-Fleming или Pocock — какую функцию расходования выбрать?

O'Brien-Fleming использует консервативные ранние границы и мягкие поздние — минимальный дополнительный расход на размер выборки (~3% для 5 проверок), но ранняя остановка маловероятна без сильного эффекта. Pocock использует одинаковые границы — ранняя остановка вероятнее, но максимальный размер выборки на 20-30% больше. Для большинства рекламных экспериментов рекомендуется O'Brien-Fleming.

Как задержка конверсий влияет на эксперимент?

Конверсии, происходящие через дни или недели после показа, теряются при коротком окне наблюдения. Окно в 7 дней с lambda = 0,3 захватывает около 88% конверсий, требуя ~14% больше пользователей для компенсации. Этот калькулятор моделирует точную инфляцию.

Калькулятор размера выборки A/B теста

Параметры

Результаты

Кривая мощности

Кривая MDE

Почему размер выборки важен для A/B тестов

Что не учитывают другие калькуляторы

Методология

Базовая формула — Z-тест двух пропорций

Последовательное тестирование

Сверхдисперсия (Beta-Binomial)

Систематики измерений

Снижение дисперсии CUPED

Поправка на задержку конверсий

Итоговый скорректированный размер выборки

Как выбрать минимальный детектируемый эффект

Справочные таблицы размера выборки

NextStat vs. другие калькуляторы

Часто задаваемые вопросы

Связанные инструменты

Нужно больше, чем калькулятор?