О чем речь
Как правило, когда разговор идет об АБ-экспериментах в технологических компаниях, то подразумевается следующий сценарий:
- Формулирование продуктовой гипотезы. Например: если увеличим кнопку «купить» в 2 раза, то конверсия в нажатие вырастет в 10 раз.
- Дизайн подходящего АБ. Выбор ключевых метрик и контрметрик, сегментов пользователей, оценка длительности эксперимента.
- Запуск теста.
- Подведение итогов и принятие решения о внедрении изменений.
То есть основная цель эксперимента – это проверка гипотезы, а в идеале ее подтверждение и, в итоге, изменение продукта в лучшую сторону.
Однако, в некоторых продуктах, особенно таких, где тестируется большое количество гипотез в единицу времени, возникает другая проблема – это оценка совокупного эффекта от всех изменений. Представьте, что вы – руководитель команды CRM коммуникаций и отвечаете за то, какой результат для компании приносит ваша команда за счет отправки маркетинговых пушей, почтовых рассылок и т. д. Так мы приходим к идее о проведении глобального эксперимента.
Что такое ГКГ
Здесь на помощь приходит выделение глобальной контрольной группы (ГКГ) – это та часть пользователей, на которую не будут распространяться никакие изменения из большого числа проверяемых гипотез. Обычно для этого выделяется небольшой процент от числа всех пользователей (порядка 5-10%), но достаточный для того, чтобы обнаруживать изменения на уровне интересующего нас MDE.
Особенности применения ГКГ на практике
Основное различие с обычными АБ-тестами заключается в том, что тест с глобальной контрольной группой идет условно бесконечно и изначально не предполагается его завершение. Необходимо это именно для того, чтобы можно было фиксировать совокупный эффект и видеть его изменение в динамике. Выделим основные практические аспекты, которые стоит учитывать при использовании ГКГ:
Как считать эффект?
Спустя продолжительное время с начала эксперимента накопится много данных. Это значит, что нужно заранее предусмотреть, на какие результаты мы будем смотреть и как принимать решения. Обычно для этого используются заранее выбранные окна подсчета метрик. На практике, для различных целей удобно использовать окна от 1, 2, 3 дней до нескольких недель и месяцев. Короткие интервалы лучше отлавливают точечные проблемы, а более длинные – позволяют увидеть весь эффект.
Перемешивание и сравнимость групп
Тонкий момент с точки зрения статистики с использованием ГКГ состоит в том, что если ГКГ статична, не меняется во времени, и пользователи в ней не видят никаких ваших изменений (или коммуникаций), то образуется накопительный эффект и в некотором смысле нарушается предположение об однородности групп. Чтобы смягчить этот эффект зачастую применяется перемешивание, т. е. каждый раз в какой-то выбранный временной интервал часть пользователей из ГКГ переходит в тестовую группу и наоборот.
Исследование причин роста/падения аплифта.
Вспомним ситуацию, где вы – руководитель команды CRM платформы. Вы внедрили ГКГ и показываете аплифт вашей целевой метрики относительно контрольной группы как основной результат вашей работы. Что делать, если вдруг этот аплифт резко упал? Так как этот аплифт включает в себя совокупный эффект от всех изменений, то быстро ответить на вопрос «что случилось?» может быть не так просто. К этому нужно быть заранее готовым и стараться внедрять дополнительные инструменты, которые помогут в анализе причин. Например, таким инструментом может быть модель атрибуции отдельных коммуникаций.
Сравнение с аплифтами в классических АБ-тестах
Продолжим предыдущий пункт, представляя себя в роли руководителя CRM. Вы добились и показали эффект +X% на ГКГ. А что если к вам придут и спросят: «Как в другом продукте, который способствует росту той же ключевой метрики, что и у вас, получили аплифт +Y% в одном АБ-тесте? Можно ли сложить X+Y и сказать, что это и есть общий эффект от работы двух команд?» Строго говоря, нет. Причина в разных предположениях в этих экспериментах. В случае с ГКГ мы предполагаем, что эффект от коммуникаций затухает со временем, если мы ничего не делаем. То есть, чтобы аплифт относительно контроля сохранялся, нужно постоянно его поддерживать, запускать новые коммуникации, отключать старые и т. д. В случае же классического продуктового эксперимента, мы исходим из предположения, что мы получили эффект и зафиксировали его как результат раз и навсегда (хотя это, конечно же, может быть не всегда верно).
Выводы
Выделение глобальной контрольной группы позволяет увидеть эффект от большого числа изменений в совокупности. Поэтому использование ГКГ осмысленно в тех продуктах, где тестируется много гипотез одновременно.
Несмотря на то что базовая идея о фиксировании контрольной группы на продолжительное время звучит очень ясно и понятно, в работе возникает множество вопросов, с которыми не так просто разобраться. В этой статье я постарался описать основные узкие места и способы их решения на практике.
Комментарии