Множественная линейная регрессия. Линейное уравнение множественной регрессии

Суть регрессионного анализа : построение математической модели и определение ее статистической надежности.

Вид множественной линейной модели регрессионного анализа: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i где e i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s .

Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии b j показывает, на какую величину в среднем изменится результативный признак Y , если переменную X j увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y (n x 1) наблюдаемых значений результативного признака (y 1 , y 2 ,..., y n );
X - матрица размерности [n x (k+1) ] наблюдаемых значений аргументов;
b - вектор - столбец размерности [(k+1) x 1 ] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b 0 , b 1 ,..., b k . Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X i и Y :

  • получить наилучшие оценки неизвестных параметров b 0 , b 1 ,..., b k ;
  • проверить статистические гипотезы о параметрах модели;
  • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

  1. выбор формы связи (уравнения регрессии);
  2. определение параметров выбранного уравнения;
  3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
  • Множественная регрессия с одной переменной
  • Множественная регрессия с тремя переменными

Инструкция . Укажите количество данных (количество строк), количество переменных x нажмите Далее.

Количество факторов (x) 1 2 3 4 5 6 7 8 9 10 Количество строк
.");">

Пример решения нахождения модели множественной регрессии

Множественная регрессия с двумя переменными

Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2:

Для решения системы можете воспользоваться
2) Или использовав формулы


Для этого строим таблицу вида:

Y x 1 x 2 (y-y ср) 2 (x 1 -x 1ср) 2 (x 2 -x 2ср) 2 (y-y ср)(x 1 -x 1ср) (y-y ср)(x 2 -x 2ср) (x 1 -x 1ср)(x 2 -x 2ср)

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z" jj - j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

Приэтом:

где m - количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:


Или

или
,,.
Здесьr 12 - выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j - стандартная ошибкакоэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1-α ) неизвестное значение параметра β j, определяется как

Множественная регрессия в Excel

Чтобы найти параметры множественной регресии средствами Excel, используется функция ЛИНЕЙН(Y;X;0;1),
где Y - массив для значений Y
где X - массив для значений X (указывается как единый массив для всех значений Х i)

Проверка статистической значимости коэффициентов уравнения множественной регрессии

Как и в случае множественной регрессии, статистическая значимость коэффициентовмножественной регрессии с m объясняющими переменными проверяется на основе t-статистики:

имеющей в данном случае распределение Стьюдента с числом степеней свободы v = n- m-1. При требуемом уровне значимости наблюдаемое значение t-статистики сравнивается с критической точной распределения Стьюдента.
В случае, если , то статистическая значимость соответствующего коэффициента множественной регрессии подтверждается. Это означает, что фактор Xj линейно связан с зависимой переменной Y. Если же установлен факт незначимости коэффициента b j , то рекомендуется исключить из уравнения переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2:

Справедливо соотношение 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
Длямножественной регрессии коэффициент детерминации является неубывающей функциейчисла объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

Соотношение может быть представлено вследующем виде:

для m>1. С ростом значения m


Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R 2 =0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm..Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F>Fкр, то R 2 статистически значим.

Проверка выполнимости предпосылок МНК множественной регрессии. Статистика Дарбина-Уотсона для множественной регрессии

Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут рассмотрены в последующих главах. В данном параграфе рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.

При этом проверяется некоррелированность соседних величин e i ,i=1,2,…n..
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α , числа наблюдений n и количества объясняющих переменных m .

Частные коэффициенты корреляции при множественной регрессии

Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х i при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции, т.е. последовательно беруться пары yx 1 ,yx 2 ,... , x 1 x 2 , x 1 x 3 и так далее и для каждой пары находится коэффициент корреляции
Вычисления в MS Excel . Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
1) Выполнить команду Сервис / Анализ данных / Корреляция .
2) Указать диапозон данных;

Проверка общего качества уравнения множественной регрессии

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2 :

Справедливо соотношение 0 < =R 2 < = 1 . Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y .
Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведениезависимой переменной.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:

Соотношение может быть представлено в следующем виде:

для m>1. С ростом значения mскорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R 2 = 1. может принимать отрицательные значения.
Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:
Показатели F и R 2 равны или не равен нулю одновременно. Если F=0 , то R 2 =0, следовательно, величина Y линейно не зависит от X 1 ,X 2 ,…,X m .Расчетное значение F сравнивается с критическим Fкр. Fкр , исходя из требуемого уровня значимости α и чисел степеней свободы v 1 = m и v 2 = n - m - 1 , определяется на основе распределения Фишера. Если F > Fкр , то R 2 статистически значим.

Во время учебы студенты очень часто сталкиваются с разнообразными уравнениями. Одно из них - уравнение регрессии - рассмотрено в данной статье. Такой тип уравнения применяется специально для описания характеристики связи между математическими параметрами. Данный вид равенств используют в статистике и эконометрике.

Определение понятия регрессии

В математике под регрессией подразумевается некая величина, описывающая зависимость среднего значения совокупности данных от значений другой величины. Уравнение регрессии показывает в качестве функции определенного признака среднее значение другого признака. Функция регрессии имеет вид простого уравнения у = х, в котором у выступает зависимой переменной, а х - независимой (признак-фактор). Фактически регрессия выражаться как у = f (x).

Какие бывают типы связей между переменными

В общем, выделяется два противоположных типа взаимосвязи: корреляционная и регрессионная.

Первая характеризуется равноправностью условных переменных. В данном случае достоверно не известно, какая переменная зависит от другой.

Если же между переменными не наблюдается равноправности и в условиях сказано, какая переменная объясняющая, а какая - зависимая, то можно говорить о наличии связи второго типа. Для того чтобы построить уравнение линейной регрессии, необходимо будет выяснить, какой тип связи наблюдается.

Виды регрессий

На сегодняшний день выделяют 7 разнообразных видов регрессии: гиперболическая, линейная, множественная, нелинейная, парная, обратная, логарифмически линейная.

Гиперболическая, линейная и логарифмическая

Уравнение линейной регрессии применяют в статистике для четкого объяснения параметров уравнения. Оно выглядит как у = с+т*х+Е. Гиперболическое уравнение имеет вид правильной гиперболы у = с + т / х + Е. Логарифмически линейное уравнение выражает взаимосвязь с помощью логарифмической функции: In у = In с + т* In x + In E.

Множественная и нелинейная

Два более сложных вида регрессии - это множественная и нелинейная. Уравнение множественной регрессии выражается функцией у = f(х 1 , х 2 ...х с)+E. В данной ситуации у выступает зависимой переменной, а х - объясняющей. Переменная Е - стохастическая, она включает влияние других факторов в уравнении. Нелинейное уравнение регрессии немного противоречиво. С одной стороны, относительно учтенных показателей оно не линейное, а с другой стороны, в роли оценки показателей оно линейное.

Обратные и парные виды регрессий

Обратная - это такой вид функции, который необходимо преобразовать в линейный вид. В самых традиционных прикладных программах она имеет вид функции у = 1/с + т*х+Е. Парное уравнение регрессии демонстрирует взаимосвязь между данными в качестве функции у = f (x) + Е. Точно так же, как и в других уравнениях, у зависит от х, а Е - стохастический параметр.

Понятие корреляции

Это показатель, демонстрирующий существование взаимосвязи двух явлений или процессов. Сила взаимосвязи выражается в качестве коэффициента корреляции. Его значение колеблется в рамках интервала [-1;+1]. Отрицательный показатель говорит о наличии обратной связи, положительный - о прямой. Если коэффициент принимает значение, равное 0, то взаимосвязи нет. Чем ближе значение к 1 - тем сильнее связь между параметрами, чем ближе к 0 - тем слабее.

Методы

Корреляционные параметрические методы могут оценить тесноту взаимосвязи. Их используют на базе оценки распределения для изучения параметров, подчиняющихся закону нормального распределения.

Параметры уравнения линейной регрессии необходимы для идентификации вида зависимости, функции регрессионного уравнения и оценивания показателей избранной формулы взаимосвязи. В качестве метода идентификации связи используется поле корреляции. Для этого все существующие данные необходимо изобразить графически. В прямоугольной двухмерной системе координат необходимо нанести все известные данные. Так образуется поле корреляции. Значение описывающего фактора отмечаются вдоль оси абсцисс, в то время как значения зависимого - вдоль оси ординат. Если между параметрами есть функциональная зависимость, они выстраиваются в форме линии.

В случае если коэффициент корреляции таких данных будет менее 30 %, можно говорить о практически полном отсутствии связи. Если он находится между 30 % и 70 %, то это говорит о наличии связей средней тесноты. 100 % показатель - свидетельство функциональной связи.

Нелинейное уравнение регрессии так же, как и линейное, необходимо дополнять индексом корреляции (R).

Корреляция для множественной регрессии

Коэффициент детерминации является показателем квадрата множественной корреляции. Он говорит о тесноте взаимосвязи представленного комплекса показателей с исследуемым признаком. Он также может говорить о характере влияния параметров на результат. Уравнение множественной регрессии оценивают с помощью этого показателя.

Для того чтобы вычислить показатель множественной корреляции, необходимо рассчитать его индекс.

Метод наименьших квадратов

Данный метод является способом оценивания факторов регрессии. Его суть заключается в минимизировании суммы отклонений в квадрате, полученных вследствие зависимости фактора от функции.

Парное линейное уравнение регрессии можно оценить с помощью такого метода. Этот тип уравнений используют в случае обнаружения между показателями парной линейной зависимости.

Параметры уравнений

Каждый параметр функции линейной регрессии несет определенный смысл. Парное линейное уравнение регрессии содержит два параметра: с и т. Параметр т демонстрирует среднее изменение конечного показателя функции у, при условии уменьшения (увеличения) переменной х на одну условную единицу. Если переменная х - нулевая, то функция равняется параметру с. Если же переменная х не нулевая, то фактор с не несет в себе экономический смысл. Единственное влияние на функцию оказывает знак перед фактором с. Если там минус, то можно сказать о замедленном изменении результата по сравнению с фактором. Если там плюс, то это свидетельствует об ускоренном изменении результата.

Каждый параметр, изменяющий значение уравнения регрессии, можно выразить через уравнение. Например, фактор с имеет вид с = y - тх.

Сгруппированные данные

Бывают такие условия задачи, в которых вся информация группируется по признаку x, но при этом для определенной группы указываются соответствующие средние значения зависимого показателя. В таком случае средние значения характеризуют, каким образом изменяется показатель, зависящий от х. Таким образом, сгруппированная информация помогает найти уравнение регрессии. Ее используют в качестве анализа взаимосвязей. Однако у такого метода есть свои недостатки. К сожалению, средние показатели достаточно часто подвергаются внешним колебаниям. Данные колебания не являются отображением закономерности взаимосвязи, они всего лишь маскируют ее «шум». Средние показатели демонстрируют закономерности взаимосвязи намного хуже, чем уравнение линейной регрессии. Однако их можно применять в виде базы для поиска уравнения. Перемножая численность отдельной совокупности на соответствующую среднюю можно получить сумму у в пределах группы. Далее необходимо подбить все полученные суммы и найти конечный показатель у. Чуть сложнее производить расчеты с показателем суммы ху. В том случае если интервалы малы, можно условно взять показатель х для всех единиц (в пределах группы) одинаковым. Следует перемножить его с суммой у, чтобы узнать сумму произведений x на у. Далее все суммы подбиваются вместе и получается общая сумма ху.

Множественное парное уравнение регрессии: оценка важности связи

Как рассматривалось ранее, множественная регрессия имеет функцию вида у = f (x 1 ,x 2 ,…,x m)+E. Чаще всего такое уравнение используют для решения проблемы спроса и предложения на товар, процентного дохода по выкупленным акциям, изучения причин и вида функции издержек производства. Ее также активно применяют в самых разнообразным макроэкономических исследованиях и расчетах, а вот на уровне микроэкономики такое уравнение применяют немного реже.

Основной задачей множественной регрессии является построение модели данных, содержащих огромное количество информации, для того чтобы в дальнейшем определить, какое влияние имеет каждый из факторов по отдельности и в их общей совокупности на показатель, который необходимо смоделировать, и его коэффициенты. Уравнение регрессии может принимать самые разнообразные значения. При этом для оценки взаимосвязи обычно используется два типа функций: линейная и нелинейная.

Линейная функция изображается в форме такой взаимосвязи: у = а 0 + a 1 х 1 + а 2 х 2 ,+ ... + a m x m . При этом а2, a m , считаются коэффициентами «чистой» регрессии. Они необходимы для характеристики среднего изменения параметра у с изменением (уменьшением или увеличением) каждого соответствующего параметра х на одну единицу, с условием стабильного значения других показателей.

Нелинейные уравнения имеют, к примеру, вид степенной функции у=ах 1 b1 х 2 b2 ...x m bm . В данном случае показатели b 1 , b 2 ..... b m - называются коэффициентами эластичности, они демонстрируют, каким образом изменится результат (на сколько %) при увеличении (уменьшении) соответствующего показателя х на 1 % и при стабильном показателе остальных факторов.

Какие факторы необходимо учитывать при построении множественной регрессии

Для того чтобы правильно построить множественную регрессию, необходимо выяснить, на какие именно факторы следует обратить особое внимание.

Необходимо иметь определенное понимание природы взаимосвязей между экономическими факторами и моделируемым. Факторы, которые необходимо будет включать, обязаны отвечать следующим признакам:

  • Должны быть подвластны количественному измерению. Для того чтобы использовать фактор, описывающий качество предмета, в любом случае следует придать ему количественную форму.
  • Не должна присутствовать интеркорреляция факторов, или функциональная взаимосвязь. Такие действия чаще всего приводят к необратимым последствиям - система обыкновенных уравнений становится не обусловленной, а это влечет за собой ее ненадежность и нечеткость оценок.
  • В случае существования огромного показателя корреляции не существует способа для выяснения изолированного влияния факторов на окончательный результат показателя, следовательно, коэффициенты становятся неинтерпретируемыми.

Методы построения

Существует огромное количество методов и способов, объясняющих, каким образом можно выбрать факторы для уравнения. Однако все эти методы строятся на отборе коэффициентов с помощью показателя корреляции. Среди них выделяют:

  • Способ исключения.
  • Способ включения.
  • Пошаговый анализ регрессии.

Первый метод подразумевает отсев всех коэффициентов из совокупного набора. Второй метод включает введение множества дополнительных факторов. Ну а третий - отсев факторов, которые были ранее применены для уравнения. Каждый из этих методов имеет право на существование. У них есть свои плюсы и минусы, но они все по-своему могут решить вопрос отсева ненужных показателей. Как правило, результаты, полученные каждым отдельным методом, достаточно близки.

Методы многомерного анализа

Такие способы определения факторов базируются на рассмотрении отдельных сочетаний взаимосвязанных признаков. Они включают в себя дискриминантный анализ, распознание обликов, способ главных компонент и анализ кластеров. Кроме того, существует также факторный анализ, однако он появился вследствие развития способа компонент. Все они применяются в определенных обстоятельствах, при наличии определенных условий и факторов.

Наименование переменных и параметров. Учет влияния случайных факторов. В общем виде линейной уравнение множественной регрессии можно записать следующим образом:

y = a 1 x 1 + a 2 x 2 + … +a n x n + b + ε,

где y – результативный признак (зависимая, результирующая, эндогенная переменная);

n – число факторов, включенных в модель;

x 1 , x 2 , …, x n – признаки-факторы (регрессоры, объясняющие, предикторные, предопределенные, экзогенные переменные);

a 1 , a 2 , …, a n – коэффициенты регрессии;

b – свободный член регрессии;

ε - компонента, отражающая в модели влияние случайных факторов, из-за которых реальное значение показателя может отклоняться от теоретического (регрессионный остаток).

По своей природе результирующая переменная всегда случайна. Регрессионный остаток позволяет отразить в модели стохастическую, вероятностную природу экономических процессов. Кроме того, можно также сказать, что он отражает все прочие не учтенные в явном виде факторы, которые могут повлиять на результат.

В дальнейшем в этом разделе, рассматривая способы построения уравнения регрессии, случайную компоненту пока не будем учитывать, т.е. будем рассматривать только детерминированную часть результата.

Экономический смысл параметров регрессии. Коэффициенты и свободный член регрессии принято также называть параметрами регрессии, или параметрами модели.

Коэффициенты регрессии a 1 , a 2, … , a n , как видно из записи модели, представляют собой частные производные результата по отдельным признакам-факторам:

(1.11)

Они показывают, на сколько изменяется результативный признак при изменении соответствующего признака на единицу и неизменных значениях остальных признаков (например, в формуле (1.9) коэффициент a показывает, на сколько изменится спрос на продукт при изменении цены на единицу) . Поэтому иногда коэффициент линейной регрессии называют также предельной эффективностью фактора.

Знак коэффициента линейной регрессии всегда совпадает со знаком коэффициента корреляции, так как положительная корреляция означает, что результат растет с ростом фактора, а отрицательная – что с ростом фактора результат убывает.

Однако, сравнение коэффициентов регрессии при различных признаках-факторах между собой представляется затруднительным, поскольку различные факторы обычно имеют разные единицы измерения, характеризуются различными значениями средних и показателями вариации. Чтобы решить эту проблему, рассчитывают стандартизованные коэффициенты регрессии (см. далее). В отличие от стандартизованных коэффициентов регрессии коэффициенты регрессии a 1 , a 2, … , a n принято называть коэффициентами чистой регрессии .



Свободный член регрессии b показывает значение признака-результата при условии, что все признаки-факторы равны нулю. Если такая ситуация невозможна, свободный член может и не иметь экономического содержания.

Частные уравнения регрессии. На основе линейного уравнения множественной регрессии могут быть получены частные уравнения регрессии, в которых все факторы, кроме обычно одного, закреплены на своем среднем уровне. Такое частное уравнение регрессии устанавливает связь между результативным признаком и одним из признаков-факторов при условии, что остальные факторы приравнены к своим средним значениям. Система таких уравнений выглядит следующим образом:

,
(1.14)

Кроме того, можно построить частные уравнения регрессии и для нескольких независимых переменных, т.е. закрепить на среднем уровне все факторы, кроме нескольких.

На основе частных уравнений регрессии могут быть построены так называемые частные коэффициенты эластичности Э i , которые рассчитываются по формулам и показывают, на сколько процентов изменится результат при изменении фактора x i на 1%. Расчет этих коэффициентов позволяет оценить, какие факторы более сильно воздействуют на результативный признак. Таким образом, их тоже можно использовать при отборе факторов в регрессионную модель.

Стандартизованное уравнение регрессии [Лукин]. Перейдем от переменных модели y, x 1 , x 2 , …, x n к так называемым стандартизованным переменным по следующим формулам:

,

где - стандартизованные переменные;

α 1 , α 2 , …, α n – стандартизованные коэффициенты регрессии.

Для нахождения стандартизованных коэффициентов используют матрицу парных коэффициентов корреляции (1.6). Можно доказать, что для стандартизованных коэффициентов регрессии выполняется следующая система уравнений:

где α i – стандартизованные коэффициенты регрессии,

Парные коэффициенты корреляции результата с каждым из факторов.

Подставив в стандартизованное уравнение регрессии (1.16) вместо стандартизованных переменных формулы (1.15), можно вернуться к уравнению чистой регрессии.


Парную линейную регрессию еще иногда называют простой регрессией.

Формулы для нелинейных функций приведены для случая, когда имеется один признак-фактор, хотя эти функции можно использовать и в случае множественной регрессии.

Можно показать, что показательная и экспоненциальная функция – одно и то же. Действительно, пусть у = ab x = a(e ln b) x = ae x * ln b = aе bx , где
b = ln b.

Формула (1.17) получена из формулы (1.6) следующим образом: правые части уравнений получены путем перемножения стандартизованных коэффициентов на столбцы матрицы (1.6), начиная со второго столбца и второй строки. В левой части – первая строка матрицы (1.6). Аналогичный результат можно получить, если перемножать коэффициенты на строки, а в левой части оставить первый столбец.


Лекция 3. Множественная регрессия

    Условия применения метода и его ограничения

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии:

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель. Спецификация модели включает два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Требования к факторам:

    Должны быть количественно измеримы. Если необходимо, включить в модель качественный фактор, не имеющий количественного измерения, ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).

    Не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Включение в модель факторов с высокой интеркорреляцией, когда

для зависимости

может привести к нежелательным последствиям, повлечь неустойчивость и ненадежность оценок коэффициентов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, поэтому параметры уравнения регрессии оказываются неинтерпретированными.

    Мультиколлинеарность

Специфическим для многофакторных систем является условие недопустимости слишком тесной связи между факторными признаками. Это условие часто именуется проблемой коллинеарности факторов. Коллинеарность означает достаточно тесную неслучайную линейную корреляцию одних факторов с другими. Часто рекомендуют исключить фактор, связанный с другим фактором при . Из двух тесно связанных друг с другом факторов рационально исключить фактор, слабее связанный с результативным признаком.

Более сложная методика требуется для нахождения и исключения фактора, не имеющего тесной связи с каким-либо отдельным фактором, но имеющего тесную многофакторную связь с комплексом остальных факторов. Это положение называют мультиколлинеарностью. Для ее измерения следует вычислить последовательно коэффициенты множественной корреляции (или детерминации) каждого фактора (в роли результата) со всеми прочими факторами (в роли объясняющих переменных). Обнаружив мультиколлинеарный фактор либо несколько таковых, следует рассмотреть возможность исключения наиболее зависимого от комплекса остальных фактора, если это не приведет к потере экономического смысла модели.

Коллинеарность и мультиколлинеарность факторов в экономических системах возникают неслучайно. В совокупности однородных предприятий или регионов, как правило, в силу законов экономики возникает параллельная вариация факторных признаков: те предприятия, которые имеют лучшие значения одних факторов, например, лучшие природные условия, одновременно имеют и более высокую фондо- и энерговооруженность, более высокую квалификацию персонала, лучшую технологию и т.п. Отсюда и неизбежная большая или меньшая коллинеарность всех факторов производства либо социально-экономических условий жизни.

Наличие в системе коллинеарности ухудшает математические качества модели, может привести к неустойчивости результативных параметров, резко меняющихся при небольшом изменении значений факторов.

Специфичной проблемой многофакторного анализа является вопрос о возможности замены фактора, по которому отсутствует информация, на другой фактор и последствия такой замены.

Следует по возможности найти другую переменную, значения которой известны и которая находится в достаточно тесной связи с отсутствующим фактором. Например, если нет данных по региону о средней заработной плате, то их можно заменить величиной валового регионального продукта на душу населения, имея в виду, что между этими экономическими признаками должна быть тесная (хотя и неизвестная точно) связь.

Важно учитывать, с какой целью строится модель. Если целью является только прогнозирование результативного признака, то замена фактора другой пременной при ее тесной связи с заменяемым фактором не приведет к существенным ошибкам. Но если целью модели являлось принятие менеджером решений о своей экономической политике, то замена управляемого фактора на тесно с ним связанный, однако неуправляемый заменяющий фактор лишает модель смысла, несмотря на высокую детерминацию.

    Выбор типа многофакторной модели и факторных признаков

Связь результативного признака y с факторами x 1 , x 2 , …, x k выражается уравнением:

(22)

где a – свободный член уравнения;

k – число факторов;

j – номер фактора;

i – номер единицы совокупности;

b j – коэффициент условно-чистой регрессии при факторе x j , измеряющий изменение результата при изменении фактора на его единицу, и при постоянстве прочих факторов, входящих в модель;

ε i – случайная вариация y i , не объясненная моделью.

Модель в форме (22) является аддитивной. Это означает, что в основе модели лежит гипотеза о том, что каждый фактор что-то добавляет или что-то отнимает от значения результативного признака. Такая гипотеза о типе связи причин и следствия вполне отражает ряд экономических систем взаимосвязанных признаков. Например, если y – это урожайность сельскохозяйственной культуры, а x 1 , x 2 , …, x k – агротехнические факторы: дозы разных видов удобрений, число прополок, поливов, доля потерь при уборке, то действительно, каждый из этих факторов либо повышает, либо снижает величину урожайности, причем результат может существовать и без любых из перечисленных факторов.

Однако аддитивная модель пригодна не для любых связей в экономике. Если изучается такая связь как зависимость объема продукции предприятия y от занимаемой площади x 1 , числа работников x 2 , стоимости основных фондов x 3 (или всего капитала), то каждый из факторов является необходимым для существования результата, а не добавлением к нему. В таких ситуациях нужно исходить из гипотезы о мультипликативной форме модели:

(23)

Такая модель по ее первым создателям получила название «модель Кобба-Дугласа».

Возможна и смешанная форма модели, в которой одни факторы будут входить аддитивно, а другие мультипликативно.

При выборе факторных признаков следует исходить из следующих положений.

    Факторы должны являться причинами, а результативный признак – их следствием. Недопустимо в число факторов включать признак, занимающий в реальной экономике место на «выходе» системы, т.е. зависимый от моделируемого. Например, строится модель себестоимости центнера зерна. Факторами взяты урожайность зерновых культур и трудоемкость центнера, но коэффициент детерминации невелик, модель плохая. Для ее «улучшения» в число факторов добавили рентабельность производства зерна. Коэффициент детерминации сразу подскочил до 0,88. Но модель не стала лучше, она стала бессмысленной, так как рентабельность зависит от себестоимости, а не наоборот.

    Факторный признаки не должны быть составными частями результативного признака. В ту же модель себестоимости нельзя вводить факторами зарплату в расчете на центнер зерна, затраты на перевозку центнера зерна и т.п. связь целого с ее структурными частями следует анализировать не с помощью корреляционного анализа, а с помощью систем индексов.

    Следует избегать дублирования факторов. Каждый реальный фактор должен быть представлен одним показателем. Например, трудовой фактор в модели объема продукции может быть представлен либо среднесписочным числом работников, либо затратами человеко-дней (человеко-часов) на производство продукции, но не обоими показателями. Дублирование факторов ведет к раздроблению влияния фактора, и он может оказаться ненадежным из-за такого раздробления.

    Следует по возможности избегать факторов, тесно связанных с другими.

    Следует включать факторы одного уровня иерархии, не следует включать и факторы вышележащего уровня и их субфакторы. Например, в модель себестоимости зерна включаем урожайность, трудоемкость, но не добавляем еще балл плодородия, дозу удобрений, энерговооруженность работников, т.е. субфакторы – причины, влияющие на урожайность и трудоемкость. Включение субфакторов тоже дублирование фактора.

    Есть логика в таком построении модели, при котором все признаки отнесены на одну и ту же единицу совокупности, как результативный признак, так и факторы. Например, если моделируется объем продукции предприятия, то и факторы должны относиться к предприятию: число работников, площадь угодий, основные фонды и т.д. Если строится модель заработной платы работника, то и факторы должны относиться к работнику: его стаж, возраст, образование, разряд тарифной сетки (шкалы), энерговооруженность и т.д.

    Действует принцип простоты модели. Если возможно построить хорошую модель с пятью факторами, то не следует гнаться за идеальной моделью с десятью факторами, обычно лишние факторы ухудшают модель.

    Системы показателей многофакторной корреляции и регрессии

Рассмотрим данную систему показателей на примере связи урожайности зерновых культур в 51 агрофирме Орловской области. Первоначально были отобраны 8 факторных признаков, которые могут влиять на вариацию урожайности:

x 1 – размер посевной площади зерновых, га;

x 2 – удельный вес зерновых в общей площади, %;

x 3 – затраты на 1 га посева зерновых, тыс. руб./га;

x 4 – затраты труда на 1 га, чел.-ч;.

x 5 – уровень оплаты труда, руб./чел.-ч.;

x 6 – энергообеспеченность, л.с./100 га пашни;

x 7 – число комбайнов на 1000 га зерновых, шт.;

x 8 – число трактористов-машинистов на 100 га пашни, чел.

Первоначальное уравнение регрессии имеет вид:

Однако надежно отличными от нуля оказались только коэффициенты при x 3 (t -критерий равен 10,5) и при x 8 (t -критерий равен 2,72). Большую надежность, чем другие факторы имеет и x 5 .

После отсева ненадежных факторов, т.е. исключения их из уравнения, окончательное уравнение регрессии таково:

Таким образом, на различие урожайности в данных 51 агрофирмы сильнее всего и надежно повлияли различия между предприятиями в затратах на 1 га, в уровне оплаты труда и в обеспеченности квалифицированными работниками.

Каждый из коэффициентов, называемых коэффициентами чистой регрессии, интерпретируются как величина изменения урожайности при условии, что данный фактор изменяется на принятую единицу измерения, а два других фактора остаются постоянными на средних уровнях. Например, b 3 означает, что при увеличении затрат на 1 га зерновых и при неизменности оплаты труда и обеспеченности трактористами-машинистами урожайность в среднем увеличивалась в среднем на 4, 6 ц/га. Термин «условно чистая регрессия» означает, что влияние отдельного фактора очищено от сопутствующей вариации только тех факторов, которые входят в уравнение, но не очищено от возможной сопутствующей вариации других факторов.

Величина коэффициентов условно чистой регрессии зависит от принятых единиц измерения. Если бы фактор x 3 измерялся не в тысячах рублей на гектар, а в рублях на гектар, то коэффициент b 3 был бы равен 0,00461 руб./га. Следовательно, сравнивать между собой коэффициенты условно чистой регрессии нельзя. Чтобы получить сравнимые коэффициенты влияния вариации факторов на вариацию результата, следует избавиться от единиц измерения, привести к одной условной единице. Для этого можно применить два способа.

Первый способ называется стандартизацией. Этот термин возник из английского названия среднего квадратического отклонения (Standard deviation). Стандартизированные коэффициенты регрессии выражаются в долях или величинах, если они превышают единицу – в величинах σ y . Стандартизированные коэффициенты обозначают греческой буквой β и называют бета-коэффициентами. Их формула такая:

В нашем примере получаем:

β 3 = 0,772;

β 5 = 0,147;

β 8 = 0,223.

Интерпретация бета-коэффициентов такова: при изменении фактора x 3 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак (урожайность) отклонится от своего среднего уровня на 0,772 его среднего квадратического отклонения. Так как все стандартизированные коэффициенты выражены в одинаковых единицах измерения, в σ y , они сравнимы между собой, и можно сделать вывод, что на вариацию урожайности сильнее всего повлияла в изучаемой совокупности предприятий вариация затрат на гектар посева.

Другой способ приведения коэффициентов регрессии к сравнимому виду – их преобразование в коэффициенты эластичности. Формула коэффициента эластичности ℓ j :

(25)

Интерпретируется коэффициент эластичности следующим образом: при изменении фактора x j на его среднюю величину и при постоянстве других входящих в уравнение факторов результативный признак в среднем изменится на ℓ j части его средней величины (или на ℓ j средних, если ℓ j >1, что бывает реже). Часто говорят, «изменится на ℓ j процентов на 1% изменения фактора».

В нашем примере имеем:

Коэффициенты эластичности так же выражены, как и β j , в одинаковых единицах и сравнимы между собой. Ими удобнее, чем β-коэффициентами, пользоваться в планировании и прогнозировании. Вряд ли менеджер станет планировать увеличение фактора, скажем, инвестиций на 0,6 сигмы. Обычно планируют изменение факторов, если они управляемы, на столько-то процентов от достигнутого уровня. Например, если планируем увеличить затраты на гектар зерновых на 10%, оплату труда на 30%, а обеспеченность квалифицированными трактористами-машинистами на 20%, то можно ожидать изменения урожайности на
, где k j – планируемые темпы прироста факторов.

Теперь рассмотрим систему показателей тесноты многофакторных связей. Прежде всего строится матрица парных коэффициентов корреляции (табл. 1).

Таблица 1. Матрица парных коэффициентов корреляции

Признаки

x 3

x 5

x 8

x 3

x 5

x 8

Матрица парных коэффициентов корреляции дает исходные данные для других показателей тесноты связи и для первичной проверки на коллинеарность. В данном случае все связи между факторами слабые, коллинеарность не испортит модель.

Важнейшим показателем тесноты связи в многофакторной системе является коэффициент множественной детерминации R 2 . Он измеряет общую тесноту связи вариации результативного признака y с вариацией всей системы входящих в модель факторов. Величина коэффициента множественной детерминации может быть вычислена несколькими способами.

1.Вычисление на основе матрицы парных коэффициентов корреляции

,

где Δ * - определитель матрицы;

, (26)

а Δ – определитель матрицы, не включающей первой строки Δ * и ее последнего столбца, т.е.:

При двух факторах получается упрощенная формула расчета:

(27)

Из (27) следует, что при независимости факторов друг от друга, т.е. , коэффициент множественной детерминации есть сумма парных коэффициентов детерминации.

Пользуясь формулой (27), можно вычислить три возможных двухфакторных коэффициента детерминации:

2.Вычисление на основе парных коэффициентов корреляции и β-коэффициентов:

В примере: R 2 =0,86·0,772+0,35·0,147+0,433·0,223=0,8119.

3.Вычисление как корреляционное отношение, т.е. отношение вариации результативного признака y , связанной с вариацией системы факторов, входящих в модель (в уравнение регрессии), ко всей, общей, вариации результативного признака:

. (30)

Числитель формулы (30) – это сумма квадратов отклонений индивидуальных расчетных значений результативного признака от его средней, а знаменатель – сумма квадратов фактических значений результативного признака от средней, для всех единиц совокупности.

Частными коэффициентами детерминации называются показатели, измеряющие, на какую долю уменьшается необъясненная вариация уже имеющимися в модели факторами при включении в модель данного фактора x m . Формула частного коэффициента детерминации такова:

В нашем примере:

Интерпретация такова: включение в модель фактора x 3 после x 5 и x 8 y на 74%; включение фактора x 5 после x 3 и x 8 уменьшает необъясненную вариацию y на 10%; включение фактора x 8 после x 3 и x 5 уменьшает необъясненную вариацию y на 20%.

Коэффициенты частной детерминации несравнимы между собой, так как это доли разных величин-знаменателей.

Извлекая корень квадратный из любого коэффициента детерминации, получают коэффициент соответствующей корреляции: множественной, парной или частной.

5. Включение в многофакторную модель неколичественных факторов

Неколичественными являются такие факторы аграрного производства, как природная зона, форма собственности предприятий, преобладающее производственное направление (отрасль) и другие. Предпочтительно не смешивать в исходной совокупности предприятия или регионы, различающиеся по этим качественным признакам. Но может возникнуть и необходимость построения модели с неоднородными единицами совокупности, например, если число единиц, однородных по качественному признаку, слишком мало для надежной связи. Иногда может быть поставлена цель измерения чистого влияния неколичественного фактора, например, формы собственности на результаты производства, а это требует включения качественного фактора в многофакторную модель.

В таких случаях качественные градации признака можно закодировать специальными переменными, часто называемыми «фиктивными» или «структурными» переменными. Они отражают неоднородность качественной структуры совокупности. Предположим, необходимо построить регрессионную модель рентабельности продукции предприятий, причем в регионе имеется 16 государственных предприятий, 28 частных, 13 кооперативной формы собственности.

Если игнорировать различия, связанные с формой собственности, то они или уйдут в остаточную вариацию, ухудшив модель рентабельности, либо в неизвестной пропорции станут смешиваться с влиянием тех или иных качественных факторов, искажая меру их влияния.

Необходимо для m неколичественных факторов или градаций такового фактора ввести m -1 структурную переменную, обозначим которую U j . Данные для расчета будут иметь следующий вид при m =3 (табл. 2).

Таблица 2. Исходные данные со структурными переменными

Форма собственности

Единица совокупности

Количественные признаки

Структурные переменные

X 1

X 2

X k

U 1

U 2

Государственная

Значения этих признаков

Значения этих признаков

Кооперативная

Значения этих признаков

В результате решения будет получена модель вида:

где x k +1 соответствуют переменной U 1 , а x k +2 – переменной U 2 .

Перепишем модель в специальных обозначениях:

Значение коэффициентов при структурных переменных таково: коэффициент c 1 означает, что предприятия частной формы собственности при тех же значениях количественных факторов x 1 x k имеют рентабельность на c 1 больше, чем государственные предприятия, которые приняты за базу сравнения (не имеют структурных переменных U 1 и U 2 ). Предприятия кооперативной формы собственности имеют рентабельность на c 2 большую, чем государственные. Величины c 1 и c 2 могут быть как положительными, так и отрицательными.

Вместо общей модели можно записать три частные модели для предприятий отдельных групп по формам собственности, присоединяя коэффициент при структурной переменной к свободному члену уравнения:

а) для предприятий государственного сектора

б) для предприятий частного сектора

в) для предприятий кооперативного сектора

6.Применение многофакторных регрессионных моделей для анализа деятельности предприятий и прогнозирования

Оценка деятельности на основе регрессионной модели в сравнении с простейшим приемом такой оценки – сравнением результата, достигнутого данным предприятием, со средним результатом по однородной совокупности – дает дополнительные преимущества.

Согласно нашему примеру, средняя урожайность по 51 агрофирме составила 22,9 ц/га зерна.

Агрофирма 1 получила 17,6 ц/га. Следовательно, эта фирма отстающая. Однако возникает вопрос: может быть и условия производства у этой фирме были хуже средних? Сравнение со средней по совокупности полностью игнорирует различие в «факторообеспеченности» предприятий, а на самом деле предприятия всегда находятся не в одинаковых условиях.

Оценка деятельности на основе регрессионной модели предполагает учет неравенства условий производства, например, плодородия почв, финансового положения, наличия квалифицированных кадров и другие. Полностью учесть различие в условиях производства между предприятиями невозможно, так как любая модель учитывает не все факторы вариации урожайности. Оценка на основе модели производится сравнением фактического результата (урожайности) с тем результатом, который был бы достигнут предприятием при фактически имеющихся факторах и средней по совокупности их эффективности, выраженной коэффициентами условно чистой регрессии. Рассмотрим результаты расчета урожайности двух фирм (табл. 3).

Таблица 3. Фактический и расчетный результат производства

Агрофирма

Факторные признаки

Урожайность, ц/га

x 3

x 5

x 8

фактическая

расчетная

Средняя по выборке

Обе фирмы имеют худшие, чем в среднем в выборке, значения основных факторов x 3 и x 8 , а соответственно и значения расчетной урожайности ниже, чем средняя. Но при этом фирма 1 практически имеет ту же расчетную урожайность, что и фактически полученную. Нет основания считать эту фирму отстающей. Фирма 2 имеет фактическую урожайность ниже, чем расчетная по имеющимся факторам. Это означает, что либо у этой фирмы оказались хуже среднего неизвестные, не входящие в модель факторы, либо степень использования основных факторов – затрат на гектар и обеспеченность квалифицированными работниками ниже, чем в среднем.

Прогнозирование на основе регрессионной модели исходит из предположения, что факторы управляемы и могут принять то или иное плановое, ожидаемое значение, а прочие неизвестные условия сохранятся на среднем по совокупности уровне. Управляемость факторов не означает, что при прогнозе в модель можно подставлять любые их значения. Уравнение регрессии отражает те условия, которые существовали в совокупности, по данным которой уравнение получено. Если бы значения факторных признаков были в 2-3 раза более высокими, то нельзя утверждать, что коэффициенты условно чистой регрессии остались бы теми же.

Поэтому рекомендуется при прогнозировании по уравнению регрессии не выходить за пределы реально наблюдаемых значений факторов в совокупности или выходить за эти границы не более чем на 10-15% средних величин. Не менее важным требованием при прогнозировании является требование о соблюдении системности прогнозируемых значений факторов. Необходимо учитывать знак и тесноту связи между факторами. Например, если прогнозируется повысить степень обеспеченности квалифицированными работниками, то нельзя оставить без изменения, тем более снижать, прогнозируемую величину уровня оплаты труда. Планируя рост энерговооруженности, необходимо примерно в той же пропорции увеличить и фондовооруженность.

Ориентируясь на указанные в таблице 3 значения факторов, предположим, что прогнозируя урожайность, планируем затраты на гектар (x 3 ) на уровне 3 тыс. руб., наличие трактористов-машинистов на 100 га пашни 0,8; оплату часа труда в размере 20 руб. в час. Подставляя эти значения в регрессионную модель получим точечный прогноз урожайности зерновых культур:

Точечный прогноз представляет собой математическое ожидание (среднюю) возможных с разной вероятностью значений прогнозируемого признака. Необходимо дополнить точечный прогноз расчетом доверительных границ с достаточно большой вероятностью. Для этого следует использовать величину средней квадратической ошибки аппроксимации, которая вычисляется по формуле:

(33)

Числитель подкоренного выражения – это остаточная, не объясненная моделью сумма квадратов отклонений результативного признака, а знаменатель – число степеней свободы остаточной вариации. В нашем примере остаточная сумма квадратов отклонений равна 814,3. Имеем:

Следовательно, с надежностью 0,95 прогнозируемая урожайность составит 25,4±4,16·2, или от 17,8 до 33,72 ц/га. Все эти расчеты относятся к прогнозам урожайности для отдельных агрофирм. Если речь идет о средней урожайности по совокупности 51 агрофирмы, то средняя ошибка средней арифметической величины равна среднему квадратическому отклонению, деленному на корень квадратный из объема выборки n , т.е. составит:

Интерпретация этого значения ошибки прогноза средней величины такова: если обеспечить 51 агрофирму факторами x 3 , x 5 , x 8 на уровнях соответственно 3, 20, 0,8, то будет получена средняя по совокупности урожайность 25,4±0,583 ц/га. С вероятностью 0,95 средняя по совокупности ожидаемая урожайность составит 25,4±0,583·2, или от 23,7 до 27,1 ц/га.

Эконометрической корреляционно-регрессионной моделью системы взаимосвязанных признаков изучаемой совокупности является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака в совокупности, обладает высоким значением коэффициента детерминации (не ниже 0,5), надежными и правильно интерпретируемыми в соответствии (по знаку и по порядку величины) с теорией изучаемой системы коэффициентами регрессии, и в силу данных свойств пригодное для оценки деятельности единиц совокупности и для прогнозирования.

Множественной регрессии (2)Реферат >> Маркетинг

Вводя их в модель, т.е, построить уравнение множественной регрессии . Множественная регрессия широко используется в решении проблем спроса...

1. Модель с двумя независимыми переменными.

2. Оценка коэффициентов модели множественной регрессии методом наименьших квадратов.

3. Парная и частная корреляция в модели множественной регрессии.

4. Оценка качества модели множественной регрессии.

5. Мультиколлинеарность и методы ее устранения.

6. Интерпретация коэффициентов модели множественной регрессии.

Множественная регрессия - это уравнение статистической связи с несколькими независимыми переменными:

y = f (x 1 , x 2 , x p)

где y - зависимая переменная (результативный признак);

x 1 , x 2 , x p - независимые переменные (факторы).

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором факторов, то для нее рассчитывается показатель детерминации , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как с соответствующей остаточной дисперсией .

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй - на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

0,8 0,7 0,6
0,8 0,8 0,5
0,7 0,8 0,2
0,6 0,5 0,2

Очевидно, что факторы и дублируют друг друга. В анализ целесообразно включить фактор , а не , хотя корреляция с результатом слабее, чем корреляция фактора с , но зато значительно слабее межфакторная корреляция . Поэтому в данном случае в уравнение множественной регрессии включаются факторы , .


По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга . Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

1. Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл.

2. Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице:

.

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если , то возможно построение следующего совмещенного уравнения:

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по -критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми.

В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

1. Метод исключения - отсев факторов из полного его набора.

2. Метод включения - дополнительное введение фактора.

3. Шаговый регрессионный анализ - исключение ранее введенного фактора.

Публикации по теме