Нулевая гипотеза всегда предполагает "отсутствие эффекта" или "отсутствие разницы". Цель A/B-теста — попытаться опровергнуть эту гипотезу, чтобы доказать наличие эффекта.
P-value отвечает на гипотетический вопрос: "Насколько вероятно было бы получить наши данные (или даже более ярко выраженные), если бы между вариантами на самом деле не было никакой разницы?". Низкий p-value (например, < 0.05) означает, что наблюдаемый нами результат был бы очень маловероятен при отсутствии реального эффекта. Это дает нам основание отвергнуть нулевую гипотезу и считать разницу статистически значимой. Важно помнить, что p-value — это НЕ вероятность того, что сама гипотеза верна или неверна.
Ошибка I рода (α, уровень значимости) — это вероятность отклонить верную нулевую гипотезу. Проще говоря, мы решаем, что эффект есть, хотя на самом деле его нет, и выкатываем бесполезное или даже вредное изменение.
Нулевая гипотеза всегда предполагает "отсутствие эффекта" или "отсутствие разницы". Цель A/B-теста — попытаться опровергнуть эту гипотезу, чтобы доказать наличие эффекта.
В АА-тесте мы сравниваем две группы без внедренного эффекта. В идеале, мы не должны находить между ними статистически значимых различий чаще, чем в α% случаев (например, 5%). Если различия находятся чаще, значит, наша система сплитования или сбора данных работает некорректно.
Тест Шапиро-Уилка — один из самых мощных критериев для проверки нормальности распределения данных.
Тест Манна-Уитни — это непараметрический критерий. Он не делает предположений о форме распределения данных и работает с рангами, а не с самими значениями, что делает его устойчивым к выбросам. Также этот критерий проверяет приходят ли данные из одного распределения.
Мощность — это способность нашего теста "увидеть" разницу, если она есть на самом деле. Это вероятность не совершить ошибку II рода (не пропустить существующий эффект). Чем выше мощность, тем надежнее тест.
CUPED использует ковариату (ту же метрику, но до начала эксперимента), чтобы объяснить часть вариативности в данных. Это позволяет снизить "шум" и обнаружить меньшие по размеру эффекты при том же размере выборки.
Если доверительный интервал включает ноль, это означает, что "отсутствие эффекта" является одним из возможных результатов. Следовательно, мы не можем отклонить нулевую гипотезу на заданном уровне значимости.
Каждая проверка значимости — это новый "шанс" совершить ошибку I рода. Если постоянно "подглядывать", то совокупная вероятность получить ложноположительный результат значительно возрастает. Для решения этой проблемы используют, например, групповые последовательные тесты (GST).
При проведении нескольких сравнений (A vs B, A vs C, A vs D, A vs E) с уровнем значимости α=0.05 для каждого, общая вероятность совершить хотя бы одну ошибку I рода становится намного выше 0.05. Для решения этой проблемы применяют поправки, например, поправку Бонферрони.