001. Методы сокращения дисперсии, и зачем это нужно

Зачем сокращать дисперсию и как это можно делать

Введение в дисперсию и ее значение в статистике

Докладчик начинает с обсуждения важности дисперсии в статистике и экспериментах. Он представляет две основные формулы для расчета дисперсии: дисперсии генеральной совокупности и выборочной дисперсии. Особое внимание уделяется выборочной дисперсии и фактору $n-1$ в знаменателе, который используется для коррекции смещенной оценки дисперсии. Объясняется, что выборочная дисперсия, рассчитанная по отклонениям от выборочного среднего, всегда будет меньше истинной дисперсии генеральной совокупности, и $n-1$ помогает исправить эту недооценку.

Основная идея статистики: проверка гипотез

Ключевая идея статистики, как объясняет докладчик, заключается в проверке гипотез. Мы сравниваем выборочное среднее с предполагаемым средним в генеральной совокупности и определяем, является ли наблюдаемая разница статистически значимой или случайной погрешностью. Для этого используется t-критерий, который рассчитывается как отношение разницы между средними к стандартной ошибке среднего.

Стандартная ошибка среднего и ее зависимость от выборки и дисперсии

Стандартная ошибка среднего (Standard Error of the Mean, SEM) является ключевым показателем точности измерения. Она обратно пропорциональна квадратному корню из размера выборки ($n$) и прямо пропорциональна стандартному отклонению признака в генеральной совокупности. Увеличение размера выборки снижает стандартную ошибку, делая оценку среднего более точной. Чем меньше вариативность признака в генеральной совокупности, тем точнее оценка среднего при прочих равных условиях.

Цель A/B тестирования: ускорение получения результатов

Основная задача A/B тестирования – как можно быстрее проверить гипотезу. Это важно, поскольку неэффективный дизайн может негативно сказаться на продукте и приносить меньше прибыли. Ускорение тестов позволяет быстрее внедрять успешные решения.

Кейс Netflix: сокращение времени ожидания метрик

В качестве примера приводится опыт Netflix. Для стриминговых сервисов метрика удержания пользователей (retention) является критически важной, но измерение месячного retention требует длительного ожидания. Netflix обнаружил, что среднее количество часов, которое пользователь проводит в неделю за просмотром, сильно коррелирует с месячным retention. Использование этой метрики позволяет значительно ускорить тестирование.

Увеличение чувствительности тестов: работа с дисперсией

Часто в A/B тестах наблюдаются небольшие, но значимые изменения метрик. Для их обнаружения требуется либо длительное проведение эксперимента, либо очень большие выборки. Увеличение выборки не всегда реалистично из-за ограниченности пользователей, параллельного проведения множества экспериментов и необходимости учитывать новых пользователей. Поэтому возникает задача снизить дисперсию оценок, не увеличивая размер выборки.

Методы снижения дисперсии

1. Стратифицированная выборка (Stratified Sampling)

Первый метод – это изменение методологии формирования выборки. Вместо простой случайной выборки (random sampling) предлагается использовать стратифицированную выборку. Это означает разделение генеральной совокупности на подгруппы (страты) на основе известных характеристик (например, платформа использования, средний чек) и проведение случайной выборки внутри каждой страты с сохранением пропорций.

Преимущества стратифицированной выборки:

Снижение дисперсии выборочных средних: Учет известного источника изменчивости (страты) позволяет уменьшить общую дисперсию оценок.
Повышение чувствительности тестов: При том же размере выборки тесты становятся более чувствительными к обнаружению статистически значимых различий.

2. Пост-стратификация (Post-stratification)

В случаях, когда стратифицированную выборку сложно реализовать изначально, применяется пост-стратификация. Это означает, что после сбора данных мы добавляем известную информацию о пользователях (например, пол, возраст, страна регистрации) и проводим взвешенное усреднение. Если эти дополнительные факторы сильно коррелируют с исследуемой метрикой, это также снижает дисперсию.

3. Зависимые выборки (Dependent Samples)

Другой подход – использование зависимых выборок, что чаще встречается в оффлайн-экспериментах. Это означает, что одни и те же испытуемые участвуют в различных условиях или проходят измерения до и после воздействия.

Преимущества зависимых выборок:

Учет индивидуальной изменчивости: Поскольку измерения проводятся на одних и тех же людях, учитывается их индивидуальная вариативность, что значительно повышает чувствительность теста.
Пример: Сравнение показателей пользователя до и после обучения. Учет того, что это один и тот же человек, позволяет выявить даже небольшие, но значимые изменения.

4. Многофакторный план эксперимента и дисперсионный анализ

В оффлайн-экспериментах, особенно в медицине и биологии, широко применяется дисперсионный анализ (ANOVA), который учитывает повторные измерения и позволяет снизить дисперсию. В социологии и онлайн-экспериментах используются смешанные регрессионные модели, где в качестве предикторов могут выступать как экспериментальные группы, так и индивидуальные характеристики испытуемых, что также снижает доверительные интервалы.

Выбор признака для стратификации

При выборе признака для стратификации или пост-стратификации важно выбирать тот, который максимально сильно коррелирует с исследуемой метрикой. Это позволяет наиболее эффективно объяснить часть изменчивости данных.

Заключение

Основная цель сокращения дисперсии в A/B тестировании – это не столько уменьшение дисперсии самих выборочных данных, сколько снижение дисперсии статистических оценок (например, среднего значения или регрессионного коэффициента). Это достигается за счет более продуманного планирования эксперимента, использования стратифицированных или зависимых выборок, а также применения пост-стратификации и смешанных моделей. В результате тесты становятся более чувствительными, позволяют быстрее фиксировать значимые различия и требуют меньших ресурсов.

Key Concepts

Дисперсия (Variance): Мера разброса данных относительно среднего значения.
Выборочная дисперсия (Sample Variance): Оценка дисперсии генеральной совокупности на основе выборки.
Стандартная ошибка среднего (Standard Error of the Mean, SEM): Мера точности выборочного среднего как оценки среднего генеральной совокупности.
t-критерий (t-statistic): Статистический критерий для сравнения средних двух групп.
A/B тестирование (A/B Testing): Метод сравнения двух версий продукта или дизайна для определения наиболее эффективной.
Стратифицированная выборка (Stratified Sampling): Метод формирования выборки, при котором генеральная совокупность делится на подгруппы (страты), и выборка делается из каждой страты.
Пост-стратификация (Post-stratification): Метод, при котором после сбора данных добавляется информация о характеристиках выборки для улучшения оценки.
Зависимые выборки (Dependent Samples): Выборки, в которых измерения проводятся на одних и тех же испытуемых (например, до и после воздействия).
Дисперсионный анализ (ANOVA): Статистический метод для сравнения средних нескольких групп, учитывающий повторные измерения.
Смешанные регрессионные модели (Mixed-effects Models): Регрессионные модели, учитывающие как фиксированные, так и случайные эффекты (например, индивидуальные различия испытуемых).
Ковариата (Covariate): Переменная, которая может влиять на исследуемую метрику и используется для контроля или объяснения изменчивости.

001. Методы сокращения дисперсии, и зачем это нужно — Анатолий Карпов