Анализ Гипотез.
В предыдущей статье мы с вами рассмотрели Графический анализ.
Сегодня посмотрим на Анализ Гипотез.
Анализ Гипотез или Hypothesis Testing – это целый комплекс инструментов, посвященный одной единственной цели: выбор одного из двух исходов. А вот какие это исходы, дальше и разберемся.
Но сначала веселые картинки. Вот вам плюс-минус основной список инструментов Анализа Гипотез, которым должен владеть Зеленый пояс Шести Сигм:
Причем под «владеть» понимается не только умение применять инструмент, но и понимание ограничений, накладываемых на инструмент, где и при каких условиях он применяется и т.д.
Например, два инструмента из второго столбца 2-sample t и paired-t обладают схожими требованиями, но используются в принципиально разных случаях, что, к сожалению, не мешает сигмовцам по всему миру это игнорировать и везде лепить 2-sample t. =(
Или другой пример. Все инструменты с окончанием t (1 sample t и т.д.) требуют нормального распределения для каждой взятой выборки. Если этого не знать, результаты могут быть… причудливыми.
Полагаю, что сейчас уже часть читающих эту статью и смотрящих на эти картинки находится в состоянии вроде:
Кстати, такое же лицо обычно процентов у 50-60 тех, кто впервые сталкивается с Анализом Гипотез в курсе Зеленого пояса по Сигме или в проектах по Сигме.
Ну, не любят у нас статистический анализ люди.
Но все не так страшно. Все эти инструменты, несмотря на их большое разнообразие, служат для выбора 1 варианта из двух.
Весь принцип Анализа Гипотез сводится к 3м простым шагам:
· Выбор Базовой и Альтернативной гипотез
· Выбор инструмента для проверки гипотез и сбор соответствующих данных
· Реализация инструмента и принятие решения о правильности/ложности Базовой гипотезы.
И все. Ткните в любой из инструментов из картинки выше, он будет работать по этой схеме.
Другое дело, что для каждого из них своя Базовая гипотеза, свой математический аппарат, свои требования к данным. И все это нужно знать. Но, полагаю, тут не осталось таких, кто не понимает, что всему этому надо учиться. И не один день. И с практикой.
Что же такое Базовая гипотеза? Это довольно просто. Это некое утверждение, содержащее в себе равенство.
Например, самая распространенная проверка из анализа Гипотез – проверка на нормальность распределения.
Для нее Базовая гипотеза принимает вид: Это распределение = нормальному.
Альтернативная гипотеза – это всегда утверждение, отрицающее Базовую гипотезу.
В этом случае: Это распределение НЕ равно нормальному.
А дальше ищем подходящий инструмент – это у нас из Служебных проверок – Проверка на нормальность. Подставляем данные выборки, и инструмент нам говорит, верна ли Базовая гипотеза.
Сейчас практикующим статистический анализ стало очень просто. Если раньше все вычисления приходилось делать вручную, то сейчас эту функцию взяли на себя специальные программы, вроде того же Минитаба. Ввели в него данные, он вам дал ответ. Все.
Сам математический аппарат в большинстве ситуаций не очень сложен, но разнообразен. Впрочем, в большинстве проверок он сводится к расчету реальной ошибки и сравнению ее с предельно допустимой.
Помните, когда мы с вами только начали рассматривать анализ, я писал про математиков, стоящих у истоков Сигмы. Так вот сами принципы Анализа Гипотез разрабатывали они.
Ну да ладно, не буду дальше пугать всякими формулами. Еще немного общих сведений об Анализе Гипотез и хватит на сегодня.
Как вы, наверное, уже догадались, Анализ Гипотез – это очень умное, но нелюбимое дитя в Шесть Сигм.
Основная причина этому – высокие требования к подготовке специалиста.
Схему все видели. Она далеко не полная. И у каждого инструмента свой набор гипотез и требований к данным. И все нужно помнить. Да, можно взять 3-4 наиболее ходовых инструмента из всего списка и работать только с ними, как это делают некоторые сигмовцы. Но нужно понимать, что это сильно ограничивает возможности.
Вторая причина – необходимость особого сбора данных. Анализ Гипотез крайне чувствителен к ошибкам сбора данных, и в ряде случаев требует особого подхода к этому сбору. Ту же Рациональную группировку данных, например. А проектные лидеры, руководствуясь извечными принципами трех «З»: Забил, Забыл, Запоздал, подходят к анализу уже с набором данных, нехваткой времени и диким нежеланием собирать данные снова. Вот и ищут потом легких путей в других ветках анализа.
А между тем, Анализ Гипотез – это самый точный метод из всех предложенных в Сигме. Да, он делает выбор из двух, но дает его с точностью до 95%. Причина тому – методическая простота самой задачи выбора из двух и тот самый математический аппарат, который оттачивался десятками лет.
При этом Анализ Гипотез позволяет всегда получить результат. Это значит, что введя данные, вы гарантированно получите ответ. Да, вы можете задать не тот вопрос или ввести кривые данные. Но, если вы сделали все подготовительные работы верно, то результат анализа гарантирован. В отличие, например, от Регрессионного анализа, который может дать результат, абсолютно неприменимый на практике. Это дает нам возможность всегда рассчитывать на успех при применении метода.
Еще одним хорошим свойством Анализа Гипотез является возможность работы с небольшими объемами данных. Для минимального применения достаточно около 30 замеров. Учитывая сложность получения данных на практике, это серьезный бонус. Правда он слегка съедается требованиям к данным. Но тут уж ой.
И финальным немаловажным свойством Анализа Гипотез является максимальное соотношения цена/качество. Да, математическое моделирование и нейросети дают схожую, а подчас и большую точность анализа. Но их стоимость съедает всю выгоду. Анализ Гипотез в нынешних условиях дешевле как в сборе данных, так и в трудозатратах на проверки. А высокая надежность дает все основания рано или поздно нащупать ответ.
В общем, я считаю Анализ Гипотез одним из лучших творений человечества для практического применения. А то, что его мало применяют – досадным упущением.
Как говорится, «математика – царица наук». И кто мы есть, чтобы не уважать цариц?
Ссылки на предыдущие статьи цикла "Шесть Сигм, с чем его едят":
Статья №1 Основные положения Шесть Сигм
Статья №2. Принцип решения проблем в Шесть Сигм. Алгоритмы проектов.
Статья №3. Алгоритм DMAIC. Шаг DEFINE. Часть 1.
Статья №4. Алгоритм DMAIC. Шаг DEFINE. Часть 2.
Статья №5. Алгоритм DMAIC. Шаг DEFINE. Часть 3.
Статья №6. Алгоритм DMAIC. Шаг DEFINE. Часть 4.
Статья №7. Алгоритм DMAIC. Шаг DEFINE. Часть 5.
Статья №8. Алгоритм DMAIC. Шаг MEASURE. Часть 1.
Статья №9. Алгоритм DMAIC. Шаг MEASURE. Часть 2.
Статья №10. Алгоритм DMAIC. Шаг MEASURE. Часть 3.
Cтатья №11. Алгоритм DMAIC. Шаг MEASURE. Часть 4.
Статья №12. Алгоритм DMAIC. Шаг ANALYSIS. Часть 1.
Статья №13. Алгоритм DMAIC. Шаг ANALYSIS. Часть 2.