Статистическая значимость: значение и методы расчета
- Понятие статистической значимости
- Этапы расчета статистической значимости
- Ошибки при расчете статистической значимости
Понятие статистической значимости
Статистическая значимость – это числовая оценка, показывающая, что полученные в ходе исследования данные не случайны и надежны. В сфере маркетинга этот показатель играет важную роль, позволяя убедиться в корректности проведенного эксперимента и степени доверия к его итогам.
Рекомендуется завершать A/B-тестирование рекламных материалов, целевых страниц и иных элементов проверкой на статистическую значимость. Только после этого следует принимать решения об их внедрении.
Иными словами, при внесении изменений в маркетинговую стратегию данный метод дает возможность оценить потенциальные последствия путем проведения объективного анализа, опирающегося на конкретные поставленные задачи.
Значение статистической значимости определяется важностью показателя, используемого для подтверждения или опровержения гипотез, то есть предположений о результатах изменений.
Допустим, у предприятия наблюдается снижение эффективности рекламного баннера, который ранее демонстрировал хорошие показатели. Отдел маркетинга предполагает, что причина кроется в неактуальном креативе, который больше не привлекает внимание потенциальных клиентов.
В данном случае гипотеза маркетолога заключается в следующем: «Обновление рекламного креатива приведет к увеличению конверсии баннера и росту продаж продукта». Необходимо провести A/B-тестирование для установления фактической статистической значимости полученных результатов.
Рассмотрим самые распространенные виды гипотез:
- Нулевая гипотеза (H0). Это утверждение об отсутствии какого-либо влияния или взаимосвязи между рассматриваемыми явлениями. Она считается истинной до тех пор, пока не будет предоставлено достаточно доказательств, чтобы ее опровергнуть.
- Альтернативная гипотеза (H1). Это предположение, которое принимается, если нулевая гипотеза была отвергнута. Иными словами, альтернативная гипотеза – это то, что исследователь стремится подтвердить.
Этапы расчета статистической значимости
Для определения статистической значимости необходимо провести количественную оценку.
Рассмотрим по шагам, как вычислить статистическую значимость:
- Планирование эксперимента. Первым делом необходимо сформулировать гипотезы. Суть этапа заключается в сопоставлении двух выборок данных для выявления общих черт и различий.
- Определение стандартного отклонения. Стандартное отклонение отражает степень разброса значений в наборе данных. Этот показатель помогает оценить, насколько близко или далеко расположены данные друг от друга. Его рассчитывают, используя формулу:
- s — показатель стандартного отклонения;
- ∑ обозначает необходимость суммирования результатов;
- xi – это значение i-го элемента, то есть отдельное наблюдение;
- µ — среднее арифметическое значение для рассматриваемой группы;
- N — общий объем выборки.
- Определение показателя значимости. Чтобы рассчитать значимость, необходимо проанализировать два набора данных. Сначала определяется стандартное отклонение для каждого набора, а затем вычисляется дисперсия между этими двумя группами по следующей формуле:
- sd — значение дисперсии, отражающее различие между группами;
- s1 — стандартное отклонение, рассчитанное для первой группы, N1 – размер выборки в первой группе;
- s2 — стандартное отклонение, рассчитанное для второй группы, N2 – размер выборки во второй группе.
- µ1 — арифметическое среднее для первой группы данных;
- µ2 — арифметическое среднее для второй группы данных;
- sd — стандартное отклонение.
Далее происходит установление границы значимости. Этот параметр представляет собой уровень статистической значимости, определяемый исследователем. Данный показатель обозначается как displaystyle\alpha}\alpha уровень. Наиболее распространенное значение – 0,05. Это означает, что вероятность обнаружения различий составляет 5 %.
Если требуется максимальная уверенность в результатах, рекомендуется уменьшить значение с 0,05 до 0,01. Подобные значения часто используются в производственных процессах для выявления дефектов. При этом для большинства исследований применяется значение в 0,05.
После определения необходимого уровня значимости следует выбрать тип критерия: односторонний или двусторонний. В данном случае рекомендуется использовать t-критерии Стьюдента для оценки статистической значимости, которые позволяют оценить соответствие данных нормальному распределению. Визуально нормальное распределение представляется в форме колокола с основной частью результатов в центральной области.
Критерий Стьюдента предоставляет возможность математически проверить, насколько значения соответствуют заданным границам или отклоняются от нормального распределения.
Односторонний критерий применим, когда заранее известно, в какую сторону отклонение от стандартных значений наиболее вероятно.
Двусторонний критерий применяется, когда отсутствует уверенность в том, будут ли значения находиться выше или ниже установленных границ нормального распределения.
Для определения необходимого размера выборки важна статистическая мощность. Этот показатель отражает вероятность обнаружения желаемого эффекта при заданном объеме выборки. Общепринятым считается порог, равный 80 %.
Зачастую проводят пилотное исследование, результаты которого служат основой для анализа и установления необходимого объема выборки. Если проведение такого исследования невозможно, рекомендуется обратиться к специализированной литературе для поиска средних значений, характерных для данной тематики.
s = √∑((xi – µ)2/(N – 1)), где:
Далее для каждой группы необходимо рассчитать среднее значение. Это достигается путем суммирования всех значений в группе и деления полученной суммы на количество элементов в этом объеме выборки.
Затем необходимо вычислить отклонение каждого значения от среднего значения (xi – µ), вычитая среднее из каждого отдельного наблюдения.
После этого каждое отклонение возводится в квадрат (умножается само на себя), а затем все квадраты отклонений суммируются. Данный процесс гарантирует отсутствие отрицательных чисел.
На следующем этапе полученная сумма делится на объем выборки, уменьшенный на единицу. Из результата этого деления извлекается квадратный корень, который и представляет собой искомое стандартное отклонение.
sd = √((s1/N1) + (s2/N2))
Затем вычисляется t-оценка, чтобы преобразовать полученные результаты в стандартизированный вид, пригодный для сопоставления с другими данными. Эта оценка позволяет провести t-тест и оценить величину различий между группами. Для расчета t-оценки используется соответствующая формула:
t = (µ1 – µ2)/sd, где:
Рекомендуется для получения положительного значения из большего среднего значения вычитать меньшее.
Затем необходимо вычислить число степеней свободы. Складываются размеры обеих выборок, и из полученной суммы вычитается число 2. Итоговое значение и является числом степеней свободы, которое используется для анализа по таблице критических значений t-критерия Стьюдента.
Работа со специальной таблицей не представляет сложности: найдите строку, соответствующую числу степеней свободы, и определите P-значение, соответствующее вашей t-статистике.
К примеру, если у вас 8 степеней свободы и t-значение равно 2,61, то P-значение для одностороннего теста будет находиться в диапазоне от 0,01 до 0,025. Если выбранный уровень значимости равен 0,05, то результаты считаются «статистически значимыми». Это позволяет принять решение в пользу альтернативной гипотезы, отвергнув нулевую.
Ошибки при расчете статистической значимости
- Игнорирование части полученных данных (манипулирование P-значением). Недопущение случаев, когда величина P-значения не подтверждает выдвинутую альтернативную гипотезу. Данная сложность проявляется, когда исследователь чрезмерно стремится подтвердить статистическую значимость полученных данных.
- Необходимо сначала рассчитать P-значение, а затем изменить уровень значимости. Это создает возможность для манипуляции результатами тестирования гипотез. Например, если после расчетов P-значение равно 0,08, а уровень значимости установлен на 0,05, то альтернативная гипотеза отвергается. Однако если установить уровень значимости на 0,1, то альтернативная гипотеза будет верной.
- Важно помнить об ограничениях использования ранее полученных результатов. Статистическая значимость или ее отсутствие не гарантирует будущие результаты. Например, если A/B-тест подтвердил эффективность нового дизайна, и после внедрения сайт демонстрирует хорошие результаты, но затем показатели ухудшаются, то причин может быть множество. Начиная от действий конкурентов и заканчивая ошибками в выборке, использованной для тестирования.
- Установка неоправданно низкого уровня значимости может привести к ошибочным выводам. Чрезмерно либеральный порог увеличивает вероятность ложного отклонения нулевой гипотезы. В статистической терминологии это соответствует ошибке первого рода. И наоборот, излишне строгий уровень значимости затрудняет подтверждение даже верной альтернативной гипотезы.
Предположим, специалист по маркетингу потратил значительные усилия на разработку новой версии веб-сайта. После проведения A/B-теста, результат которого показывает P > 0,05, гипотеза о превосходстве обновленного сайта не подтверждается. Однако значение P достаточно близко к пороговому. В такой ситуации можно увеличить размер выборки или разделить ее на отдельные группы, что может привести к желаемому P < 0,05, позволяя обосновать внедрение новой версии сайта.
Если статистически значимых результатов не выявлено, следует либо отказаться от альтернативной гипотезы, либо продолжить сбор данных. Если результаты исследования вызывают сомнения, рекомендуется провести повторное тестирование через несколько месяцев и пересчитать статистические показатели.
