Переводные статьи
Популярное | Последнее
4516
×
Что такое Множественная регрессия?
Сообщество Lean+6Sigma в России
Что такое Множественная регрессия?
Вадим Сеничев, Преподаватель каф. АИДМиСВ МГОУ
02 ноября 2016 в 13:00
Фото: pixabay.com
Фото: pixabay.com

Авторский перевод статьи "What is Multiple Regression?". Автор перевода: Вадим Сеничев

Что такое Множественная регрессия?

Представьте ситуацию, в которой большое число различных факторов (так называемых предикторов или независимых переменных) взаимодействует и влияет на результат (так называемый критерий или зависимая переменная). В зависимости от этих факторов могут быть получены разные результаты. Например, цена, по которой продается дом (критерий), может быть определена такими факторами (предикторами), как расположение дома, год постройки, состояние местного рынка недвижимости, состояние дома и т.д.Множественная регрессия используется для постройки модели, которая позволяет изучать подобные взаимодействия. Модель, основанная на множественной регрессии, использует данные для построения функции, которая предсказывает результат, основываясь на независимых переменных. Модель строится, например, с использованием реальных данных по тем или иным проблемам, она может быть использована для предсказания результата по конкретным независимым переменным или для понимания того, насколько хорошо существующие данные подходят к модели и нет ли выпадающих значений. 

Зачем нам это нужно?

Множественная регрессия может быть использована в большом диапазоне сфер. Для примера, HR-специалисты могут собирать данные о зарплатах сотрудников, основываясь на множестве факторов, таких как опыт, область деятельности, навыки и т.д. Затем они могут построить модель, основанную на этих данных и использовать ее для определения зарплат и понимания того, попадают ли их сотрудники под эту модель. Возможно некоторые сотрудники или группы сотрудников получают меньше, чем должны? Или больше?

Также, разные исследователи могут использовать регрессию чтобы выявить лучшие предикторы для конкретного результата. Например, какие независимые переменные нужны для получения видимых результатов. Какие факторы отвечают за результаты различных школ в рейтингах. Какие факторы влияют на эффективность работы цепи поставщика?

Как выполняется множественная регрессия?

1. Случай с двумя переменными: Позвольте начать с простого примера независимой переменной X, которая предсказывает результат Y. Например, X может отражать годы опыта сотрудника и Y – его или ее зарплату. Если мы сопоставим X и Y, то получим график зависимости.

Цель множественной регрессии состоит в нахождении линии, которая лучше отражает распределени. Для примера, «синяя линия» примерно соответствует красным точкам, которые отражают наши данные. Наиболее подходящая линия может быть применена к модели отношения между X и Y, а в конкретном значении X мы можем «предсказывать» наиболее подходящий Y. Эта линия может быть представлена как отношение:  Y = a + bX

Это уравнение называется «Уравнение регрессии». Таким образом наша проблема уменьшается до задачи нахождения лучших значений для «a» и «b».

2. Случай с множественными переменными: Мы можем развить этот пример на множественные переменные  X1, X2, X3,… Xn, которые предсказывают решение Y. Как и выше, мы сможем уложить «линию», которая предсказывает Y, основываясь на переменных  X1, X2, X3,… Xn. Такая «линия» примет форму уравнения регрессии:  Y = a0 + a1X1 + a2X2 + … + anXn

Наша проблема, таким образом, упрощается до поиска лучших коэффициентов действующих факторов для показателей Y и Xi.

Рассчитывая коэффициенты

Чтобы рассчитать коэффициенты для построения модели Множественной Регрессии с использованием известных данных мы используем метод Наименьших Квадратов, этот метод основан на «минимизации коэффициента, равного сумме квадратов отклонений каждой точки от линии». 


Насколько хороша наша модель?

После нахождения коэффициентов для наших уравнений, необходимо узнать, насколько хороша сама модель. Для этого необходимо измерить, насколько использованные данные подходят к модели уравнения. Это представлено «Коэффициентом корреляции», который так же представляет, насколько хорошо независимые переменные Xi предсказывают результат Y.

Обычно это рассчитывается нахождением отклонения каждой точки от линии. Назовем это отклонением точки «i» от линии «ri».

Предположения и Ограничения

Множественные переменные хорошо работают в определенных условиях. Лежащее в основе следующих предположений так же должно быть верным для правильной работы модели:

1. Так же как описанное выше уравнение является линейным, то отношения между переменными так же должны быть линейными. Нелинейные отношения требуют другой формы регрессии.

2. Распределение отклонений от линии должно быть «нормальным распределением».

3. Хорошая модель предсказывает отношения, но не причины. Существование хорошей модели не означает, что независимые переменные повлияют на результат, их существование только указывает на возможные соотношения.

4. «Независимость» переменных. Предикторы переменных предполагаются как независимые. Если же они сильно зависят друг от друга, модель может быть не достоверной.

Заключение: В пределах своих ограничений, Множественная Регрессия это хороший метод для решения большого количества реальных ситуаций и широко применим для построения простых в использовании моделей. Он может быть применен для анализа данных в большом количестве сфер, таких как бизнес, медицина, инженерия, и многих других. 


Полная версия доступна только пользователям сайта
Войдите, чтобы прочитать всю статью и оставить комментарий
E-Mail
Комментариев нет
Поделиться