Skip to content

VictorChepkasov/ab-week-shad

Repository files navigation

Тестовые задачи

A

Нулевая гипотеза всегда предполагает "отсутствие эффекта" или "отсутствие разницы". Цель A/B-теста — попытаться опровергнуть эту гипотезу, чтобы доказать наличие эффекта.

B

P-value отвечает на гипотетический вопрос: "Насколько вероятно было бы получить наши данные (или даже более ярко выраженные), если бы между вариантами на самом деле не было никакой разницы?". Низкий p-value (например, < 0.05) означает, что наблюдаемый нами результат был бы очень маловероятен при отсутствии реального эффекта. Это дает нам основание отвергнуть нулевую гипотезу и считать разницу статистически значимой. Важно помнить, что p-value — это НЕ вероятность того, что сама гипотеза верна или неверна.

C

Ошибка I рода (α, уровень значимости) — это вероятность отклонить верную нулевую гипотезу. Проще говоря, мы решаем, что эффект есть, хотя на самом деле его нет, и выкатываем бесполезное или даже вредное изменение.

D

Нулевая гипотеза всегда предполагает "отсутствие эффекта" или "отсутствие разницы". Цель A/B-теста — попытаться опровергнуть эту гипотезу, чтобы доказать наличие эффекта.

E

В АА-тесте мы сравниваем две группы без внедренного эффекта. В идеале, мы не должны находить между ними статистически значимых различий чаще, чем в α% случаев (например, 5%). Если различия находятся чаще, значит, наша система сплитования или сбора данных работает некорректно.

F

Тест Шапиро-Уилка — один из самых мощных критериев для проверки нормальности распределения данных.

G

Тест Манна-Уитни — это непараметрический критерий. Он не делает предположений о форме распределения данных и работает с рангами, а не с самими значениями, что делает его устойчивым к выбросам. Также этот критерий проверяет приходят ли данные из одного распределения.

H

Мощность — это способность нашего теста "увидеть" разницу, если она есть на самом деле. Это вероятность не совершить ошибку II рода (не пропустить существующий эффект). Чем выше мощность, тем надежнее тест.

I

CUPED использует ковариату (ту же метрику, но до начала эксперимента), чтобы объяснить часть вариативности в данных. Это позволяет снизить "шум" и обнаружить меньшие по размеру эффекты при том же размере выборки.

J

Если доверительный интервал включает ноль, это означает, что "отсутствие эффекта" является одним из возможных результатов. Следовательно, мы не можем отклонить нулевую гипотезу на заданном уровне значимости.

K

Каждая проверка значимости — это новый "шанс" совершить ошибку I рода. Если постоянно "подглядывать", то совокупная вероятность получить ложноположительный результат значительно возрастает. Для решения этой проблемы используют, например, групповые последовательные тесты (GST).

L

При проведении нескольких сравнений (A vs B, A vs C, A vs D, A vs E) с уровнем значимости α=0.05 для каждого, общая вероятность совершить хотя бы одну ошибку I рода становится намного выше 0.05. Для решения этой проблемы применяют поправки, например, поправку Бонферрони.

About

Тыкаюсь в темах интенсива A/B-week от ШАДа

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published