Цикл "Шесть Сигм, с чем его едят". Статья №15. Алгоритм DMAIC. Шаг ANALYSIS. Часть 4. Корреляционный и Регрессионный анализ.

Авторизация

E-Mail

5788

Цикл "Шесть Сигм, с чем его едят". Статья №15. Алгоритм DMAIC. Шаг ANALYSIS. Часть 4. Корреляционный и Регрессионный анализ.

Сообщество Lean+6Sigma в России

Цикл "Шесть Сигм, с чем его едят". Статья №15. Алгоритм DMAIC. Шаг ANALYSIS. Часть 4. Корреляционный и Регрессионный анализ.

Антон Анферов, Руководитель направления Шесть Сигм, Топ-Менеджмент Консалт

26 марта 2020 в 10:53

Бережливое производство LSSRussia.ru 6sigma Топ-Менеджмент Консалт Авторские статьи Антон Анферов

В прошлый раз мы коснулись самого недооцененного на практике метода анализа – Анализа Гипотез.

А сегодня будет его антиподы. Самые переоцененные инструменты этапа Анализ. Знакомьтесь, Корреляция и Регрессия.

Как вы, наверное, помните, этими двумя методиками мы обязаны Карлу Пирсону. Он, будучи человеком грамотным и образованным, уже в свое время наверняка писал о том, что у данных методов есть серьезные ловушки и ограничения и что не стоит их бездумно применять.

Но, увы, нет. Все новые и новые начинающие сигмовцы попадают в цепкие объятья этих двух коварных типов анализа.

А причина проста. Помните, мы с вами разбирали основные достижимые результаты этапа Анализ:

Составить список реально влияющих факторов.
Определить характер влияния факторов на Ключевой показатель проекта.
Найти точную зависимость Y=f(x_i).
Найти диапазоны допустимых значений влияющих факторов.

И вот самые «вкусные» результаты – третий и четвертый как раз-таки можно достичь с помощью корреляции и регрессии. Причем быстро ~~«без регистрации и смс».~~

По крайней мере, существенно быстрее математического моделирования, например.

Анализ Гипотез из прошлой статьи, кстати, не дает нам достичь цели 3, увы. Иначе он был бы идеален.

Вторая причина популярности корреляционного и регрессионного анализов лежит в том, что обе методики не особо требовательны к входным данным. Не нужно ни нормальное распределение, ни целостность данных, ни их балансировка… ничего. Да, есть требования к самому списку факторов, но это неопытных сигмовцев почему-то не смущает (а зря).

Добавим к этому общую тенденцию к внедрению всевозможных MES, ERP, SAP и других систем с прицелом на Big Data. В результате имеем ситуацию, при которой можно «загнать» в Minitab кучу данных, нажать на кнопку, и «пусть мне повезет».

Звучит дико, знаю, но сколько раз видел эту ситуацию, уже не возьмусь сосчитать.

Теперь кратко, почему так не работает. Ну, то есть, повезти-то может. Но при таких исходных вводных это скорее исключение.

Начнем с «младшего брата» - Корреляционного анализа.

Корреляционный анализ позволяет лишь определить, есть ли влияние одной переменной на другую или нет. И насколько оно сильное. Все.

Казалось бы, чем это отличается от анализа Гипотез? А вот чем:

Во-первых, корреляция определяет только наличие/отсутствие ЛИНЕЙНОЙ зависимости между переменными. Этот факт, зачем-то, часто забывают. А ограничение, вообще-то, очень серьезное. Сразу отсекаются все влияния, отличные от линейных. То есть процентов 80-90. Шок!

Во-вторых, вся суть корреляции – в коэффициенте Пирсона, который довольно просто считается.

Здесь я, внезапно, нарушу правило «не рисовать вам формулы» и сделаю это, мужайтесь.

Формула коэффициента Пирсона:

Ах да, cov(x,y) – это математическое обозначение ковариации, а не то, что нынче можно было бы подумать.

Так вот, этой формуле совершенно плевать, какие данные вы туда загнали.

Например, (обожаю этот пример) есть такой показатель состояния экономики - индекс длины юбок или индекс подола (Hemline Index). Он был введен еще в 1926г. экономистом, профессором Уортонской университета Пенсильвании Джорджем Тейлором. Согласно его гипотезе, чем короче юбки, тем лучше обстоят дела в экономике. Да-да, корреляция по формуле есть.

В общем, ничто не мешает подставлять в формулу различные ряды данных и получать подтвержденную корреляцию на всякий бред. А потом с надутыми щеками рассказывать о влиянии одного фактора на другой.

Было бы смешно, если бы не было так грустно.

Вы можете тут мне возразить, что от этого не застрахованы и другие типы анализа. В целом верно, но во всех остальных вариантах либо есть вспомогательные элементы (например, графики), позволяющие лучше разобраться в ситуации, либо сама постановка задачи в них дает меньше шансов ввести бредовые данные. В корреляционном анализе вам вернется только коэффициент Пирсона – число от -1 до 1. И все. И дальше «думайте сами… решайте сами». Вдруг у вас там синусоида, например.

И, в-третьих, вишенка на торте: в корреляционном анализе участвуют только две переменные. Хочется больше? Перехочется.

Что имеем в итоге ~~«с гуся»~~ с корреляционного анализа?

Сравниваются только две переменные
Проверяется только линейная зависимость
На выходе только 1 голый коэффициент Пирсона.

Как-то небогато.

Я сам почти не использую этого «монстрика», разве что изредка как вспомогательную проверку на взаимное влияние факторов.

Но не перестаю поражаться, как много народу всерьез надеется на него.

Теперь старший брат (или сестра, кто их там разберет), регрессия.

Признаю, очень соблазнительно выглядит перспектива завести все факторы в инструмент и на выходе получить формулу с хорошей достоверностью и так далее.

И сразу все, как по Винни Пуху: «Конец твоим страданиям… »

Действительно, имея на руках формулу, вопрос нахождения решения становится уже чисто техническим.

Но, к сожалению, все совсем не так радужно.

Во-первых. Это еще вопрос, удастся ли вам еще получить эту формулу. Типовые ошибки на практике:

Пытаются сразу закинуть все возможные факторы в модель. Обычно уже на 4-5 факторах модель говорит «ых, тяжело», а ее точность стремительно летит к нулю.
Не учитывают взаимное влияние факторов друг на друга (а такие нельзя в одну модель) или смещение их по времени. Точность летит к нулю.
Не проверяют взаимное влияние факторов на результат. А оно может быть определяющим. Например, в адиабатическом процессе Давление и Объем максимально влияют на температуру только при отсутствии теплообмена с окружающей средой (а на этом эффекте почти вся автомобильная техника катается).
Выбирают неправильную регрессионную модель. Это, наверное, самое сложное в этом виде анализа. Да, есть ПО, которое подбирает модели. Тот же Minitab дает возможность проверить сразу линейную, квадратичную и кубическую функции. Но вариантов функций, как мы знаем, чуточку больше.

И это ошибки только на этапе построения регрессионной формулы.

Дальше больше. На выходе регрессионная модель выдает вам два основных показателя (реально больше, но принципиальных два):

R-sq – это показатель достоверности регрессионной формулы, который, по большому счету, говорит вам о том, насколько близко полученная формула описывает введенные реальные данные. И тут очень легко можно не дотянуть до заветных 85%, после которых формула считается приемлемой. Minitab
выдает их 3: R-sq, R-sq(adj), R-sq (ref). Формулы у них слегка отличаются. Берите второй. В большинстве случаев не ошибетесь.
S – стандартное отклонение ошибки формулы. Если по-простому, то, на сколько в абсолютных величинах ваша формула в среднем ошибается. Minitab выдает S², так что учимся извлекать квадратный корень. И вот этот второй показатель частенько обламывает всю радость от полученной формулы.

Приведу пример из недавнего. Делал мат модель для предсказания спроса алкогольной продукции. Собрали факторы, данные, все нормально. Сделали регрессионный анализ, достоверность формулы 96,4%. Круто. Далее смотрим на среднюю ошибку… 1350 бутылок (!). Все, модель можно дальше даже не рассматривать. Погрешность в абсолютных значениях слишком велика. И такие случаи не редкость для регрессии.

В общем, в сухом остатке, чтобы результативно использовать регрессионный анализ:

Вам потребуется хорошо понимать уже на старте, какие факторы каким образом влияют на результат и друг на друга. По крайней мере, характер зависимостей. Для этого либо самим надо хорошо разбираться, либо экспертов терзать, либо литературу штудировать.
Вам нужно четко выстроить данные на старте. Убрать смещения, ошибки в данных, аномалии (каждая аномалия будет резать точность формулы) и т.д. А это то еще удовольствие.
Вам нужно понимать, как интерпретировать результаты, когда можно принять формулу, когда лучше не стоит. И тут не обольщаемся, я привел лишь одну из распространенных проблем выбора.

И в итоге, потратив на все это время, усилия и иногда нервы, вы можете получить величественное… ничего. Низкая достоверность формулы или большая ошибка, или еще что-то из подводных камней легко могут свести на нет все ваши усилия. И все. Вы, по сути, вернетесь ровно на ту точку, с которой стартовали.