Стандартизированные коэффициенты регрессии. Стандартизованные коэффициенты

Задание.

  1. Для заданного набора данных постройте линейную модель множественной регрессии. Оцените точность и адекватность построенного уравнения регрессии.
  2. Дайте экономическую интерпретацию параметров модели.
  3. Рассчитайте стандартизованные коэффициенты модели и запишите уравнение регрессии в стандартизованном виде. Верно ли утверждение, что цена блага оказывает большее влияние на объем предложения блага, чем заработная плата сотрудников?
  4. Для полученной модели (в естественной форме) проверьте выполнение условия гомоскедастичности остатков, применив тест Голдфельда-Квандта .
  5. Проверьте полученную модель на наличие автокорреляции остатков с помощью теста Дарбина-Уотсона .
  6. Проверьте, адекватно ли предположение об однородности исходных данных в регрессионном смысле. Можно ли объединить две выборки (по первым 8 и остальным 8 наблюдениям) в одну и рассматривать единую модель регрессии Y по X ?

1. Оценка уравнения регрессии. Определим вектор оценок коэффициентов регрессии с помощью сервиса Уравнение множественной регрессии . Согласно методу наименьших квадратов, вектор s получается из выражения: s = (X T X) -1 X T Y
Матрица X

1 182.94 1018
1 193.45 920
1 160.09 686
1 157.99 405
1 123.83 683
1 152.02 530
1 130.53 525
1 137.38 418
1 137.58 425
1 118.78 161
1 142.9 242
1 99.49 226
1 116.17 162
1 185.66 70

Матрица Y
4.07
4
2.98
2.2
2.83
3
2.35
2.04
1.97
1.02
1.44
1.22
1.11
0.82

Матрица X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1
182.94 193.45 160.09 157.99 123.83 152.02 130.53 137.38 137.58 118.78 142.9 99.49 116.17 185.66
1018 920 686 405 683 530 525 418 425 161 242 226 162 70

Умножаем матрицы, (X T X)
Находим обратную матрицу (X T X) -1
2.25 -0.0161 0.00037
-0.0161 0.000132 -7.0E-6
0.00037 -7.0E-6 1.0E-6

Вектор оценок коэффициентов регрессии равен

Y(X) =
2,25 -0,0161 0,00037
-0,0161 0,000132 -7,0E-6
0,00037 -7,0E-6 1,0E-6
*
31,05
4737,044
18230,79
=
0,18
0,00297
0,00347

Уравнение регрессии (оценка уравнения регрессии)
Y = 0.18 + 0.00297X 1 + 0.00347X 2

2. Матрица парных коэффициентов корреляции R. Число наблюдений n = 14. Число независимых переменных в модели равно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (14 х 4).
Матрица, составленная из Y и X

1 4.07 182.94 1018
1 4 193.45 920
1 2.98 160.09 686
1 2.2 157.99 405
1 2.83 123.83 683
1 3 152.02 530
1 2.35 130.53 525
1 2.04 137.38 418
1 1.97 137.58 425
1 1.02 118.78 161
1 1.44 142.9 242
1 1.22 99.49 226
1 1.11 116.17 162
1 0.82 185.66 70

Транспонированная матрица.

1 1 1 1 1 1 1 1 1 1 1 1 1 1
4.07 4 2.98 2.2 2.83 3 2.35 2.04 1.97 1.02 1.44 1.22 1.11 0.82
182.94 193.45 160.09 157.99 123.83 152.02 130.53 137.38 137.58 118.78 142.9 99.49 116.17 185.66
1018 920 686 405 683 530 525 418 425 161 242 226 162 70

Матрица A T A.

14 31.05 2038.81 6471
31.05 83.37 4737.04 18230.79
2038.81 4737.04 307155.61 995591.55
6471 18230.79 995591.55 4062413

Полученная матрица имеет следующее соответствие:

∑n ∑y ∑x 1 ∑x 2
∑y ∑y 2 ∑x 1 y ∑x 2 y
∑x 1 ∑yx 1 ∑x 1 2 ∑x 2 x 1
∑x 2 ∑yx 2 ∑x 1 x 2 ∑x 2 2

Найдем парные коэффициенты корреляции.
Признаки x и y ∑{x i } ∑{y i } ∑{x i y i }
Для y и x 1 2038.81 145.629 31.05 2.218 4737.044 338.36
Для y и x 2 6471 462.214 31.05 2.218 18230.79 1302.199
Для x 1 и x 2 6471 462.214 2038.81 145.629 995591.55 71113.682
Признаки x и y
Для y и x 1 731.797 1.036 27.052 1.018
Для y и x 2 76530.311 1.036 276.641 1.018
Для x 1 и x 2 76530.311 731.797 276.641 27.052

Матрица парных коэффициентов корреляции R:
- y x 1 x 2
y 1 0.558 0.984
x 1 0.558 1 0.508
x 2 0.984 0.508 1

Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае все парные коэффициенты корреляции |r| Модель регрессии в стандартном масштабе Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:

где х ji - значение переменной х ji в i-ом наблюдении.

Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S .
Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:
t y = ∑β j t xj
Для оценки β-коэффициентов применим МНК. При этом система нормальных уравнений будет иметь вид:
r x1y =β 1 +r x1x2 β 2 + ... + r x1xm β m
r x2y =r x2x1 β 1 + β 2 + ... + r x2xm β m
...
r xmy =r xmx1 β 1 + r xmx2 β 2 + ... + β m
Для наших данных (берем из матрицы парных коэффициентов корреляции):
0.558 = β 1 + 0.508β 2
0.984 = 0.508β 1 + β 2
Данную систему линейных уравнений решаем методом Гаусса : β 1 = 0.0789; β 2 = 0.944;
Стандартизированная форма уравнения регрессии имеет вид:
y 0 = 0.0789x 1 + 0.944x 2
Найденные из данной системы β–коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:

Стандартизированные частные коэффициенты регрессии . Стандартизированные частные коэффициенты регрессии - β-коэффициенты (β j) показывают, на какую часть своего среднего квадратического отклонения S(у) изменится признак-результат y с изменением соответствующего фактора х j на величину своего среднего квадратического отклонения (S хj) при неизменном влиянии прочих факторов (входящих в уравнение).
По максимальному β j можно судить, какой фактор сильнее влияет на результат Y.
По коэффициентам эластичности и β-коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат.
Коэффициент β j может также интерпретироваться как показатель прямого (непосредственного) влияния j -ого фактора (x j) на результат (y). Во множественной регрессии j -ый фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели).
Косвенное влияние измеряется величиной: ∑β i r xj,xi , где m - число факторов в модели. Полное влияние j-ого фактора на результат равное сумме прямого и косвенного влияний измеряет коэффициент линейной парной корреляции данного фактора и результата - r xj,y .
Так для нашего примера непосредственное влияние фактора x 1 на результат Y в уравнении регрессии измеряется β j и составляет 0.0789; косвенное (опосредованное) влияние данного фактора на результат определяется как:
r x1x2 β 2 = 0.508 * 0.944 = 0.4796

Общие интенсивные коэффициенты (рождаемости, смертности, детской смертности, заболеваемости и т.д.) правильно отражают частоту явлений при их сопоставлении лишь в том случае, если состав сравниваемых совокупностей однороден. Если же они имеют неоднородный возрастно-половой или профессиональный состав, различие по тяжести болезни, по нозологическим формам иди по другим признакам, то ориентируясь на общие показатели, сравнивая их, можно сделать неправильный вывод о тенденциях изучаемых явлений и истинных причинах разницы общих показателей сравниваемых совокупностей.

Например, больничная летальность на терапевтическом отделении № 1 в отчетном году составила 3%, а на терапевтическом отделении №2 в том же году - 6%. Если оценивать деятельность этих отделений по общим показателям, то можно сделать вывод о неблагополучии на 2 терапевтическом отделении. А если предположить, что состав лечившихся на этих отделениях разнится по нозологическим формам или по тяжести заболеваний госпитализированных, то наиболее правильным способом анализа является сопоставление специальных коэффициентов, рассчитанных отдельно.для каждой группы больных с одинаковыми нозологическими формами или тяжестью заболеваний, так называемых «повозрастных коэффициентов».

Зачастую, однако, в сравниваемых совокупностях наблюдаются противоречивые данные. Кроме того, даже при наличии одинаковой тенденции во всех сравниваемых группах не всегда удобно пользоваться набором показателей, а предпочтительнее получить единую суммарную оценку. Во всех подобных случаях прибегают к методу стандартизации, то есть к устранению (элиминации) влияния состава (структуры) совокупностей на общий, итоговый показатель.

Следовательно, метод стандартизации применяется тогда, когда имеющиеся различия в составе сравниваемых совокупностей могут повлиять на размеры общих коэффициентов.

Для того, чтобы устранить влияние неоднородности составов сравниваемых совокупностей на величину получаемых коэффициентов, их приводят к единому стандарту, то есть условно допускается, что состав сравниваемых совокупностей одинаков. В качестве стандарта можно принять состав какой-либо близкой по существу третьей совокупности, средний состав двух сравниваемых групп или, проще всего, состав одной из сравниваемых групп.

Стандартизованные коэффициенты показывают, каковы были бы общие интенсивные показатели (рождаемости, заболеваемости, смертности, летальности и т.д.), если бы на их величину не оказывала влияние неоднородность в составах сравниваемых групп. Стандартизованные коэффициенты являются условными величинами и применяются исключительно для анализа в целях сравнения.



Существуют три метода стандартизации: прямой, косвенный и обратный (Керриджа).

Рассмотрим применение этих трех методов стандартизации на примерах, взятых из статистики злокачественных новообразований. Как известно, с возрастом значительно повышаются, коэффициенты смертности от злокачественных новообразований. Отсюда следует, что если в каком-либо городе будет относительно высока доля людей пожилых возрастов, а в другом - преобладать население среднего возраста, то даже при полном равенстве санитарных условий жизни и медицинской помощи в обоих сравниваемых городах неизбежно общий коэффициент смертности населения от злокачественных новообразований в первом городе будет выше, чем тот же коэффициент во втором городе.

Для того, чтобы нивелировать влияние возраста на общий показатель смертности населения от злокачественных новообразований, необходимо применить стандартизацию. Только после этого можно будет сравнивать полученные коэффициенты и сделать обоснованный вывод о большем или меньшем уровне смертности от злокачественных новообразований в целом в сравниваемых городах.

Прямой метод стандартизации. В нашем примере его можно применять в том случае, когда известен возрастной состав населения и есть информация для расчета повозрастных коэффициентов смертности населения от злокачественных новообразований (числа умерших от злокачественных новообразований в каждой возрастной группе).

Методика вычисления стандартизованных коэффициентов прямым методом слагается из четырех последовательных этапов (табл. 5.1).

Первый этап. Вычисление «повозрастных» коэффициентов смертности от злокачественных новообразований (отдельно для каждой возрастной группы).

Второй этап. Выбор стандарта осуществляется произвольно. В нашем примере за стандарт взят возрастной состав населения в городе «А».

Таблица 5.1

Стандартизация коэффициентов смертности от злокачественных новообразований в городах «А» и «Б» (прямой метод)


Третий этап. Расчет «ожидаемых» чисел. Мы определяем, сколько бы человек умерло от злокачественных новообразований в каждой возрастной группе населения города «Б» при имеющихся повозрастных показателях смертности от злокачественных новообразований в этом городе, но при возрастном составе города «А» (стандарт).

Например, в возрастной группе «до 30 лет»:

или в возрастной группе «40-49 лет»:

Четвертый этап. Расчет стандартизованных коэффициентов. Сумму «ожидаемых» чисел (1069,0) мы предлагаем получить из общей численности населения города «А» (700000). А сколько же умерших от злокачественных новообразований приходится на 100000 населения?

Из наших результатов можно сделать следующий вывод: если бы возрастной состав населения «Б» был бы такой же, как в городе «А» (стандарт), то смертность населения от злокачественных новообразований в городе «Б» была бы существенно выше (152,7%ооо против 120,2%ооо).

Косвенный метод стандартизации. Применяется, если специальные коэффициенты в сравниваемых группах неизвестны или известны, но мало достоверны. Это наблюдается, например, когда числа заболевших очень малы и, следовательно, вычисляемые коэффициенты будут существенно меняться в зависимости от прибавления одного или нескольких случаев заболеваний.

Вычисление стандартизованных коэффициентов косвенным способом можно разбить на три этапа (см. табл. 5.2).

Первый этап. Состоит в выборе стандарта. Так как нам обычно неизвестны специальные коэффициенты сравниваемых групп (коллективов), то за стандарт берутся специальные коэффициенты какого-то хорошо изученного коллектива. В рассматриваемом примере таковыми могут служить повозрастные показатели смертности от злокачественных новообразований в городе «С».

Второй этап включает вычисление «ожидаемых» чисел умерших от злокачественных новообразований. Допуская, что повозрастные коэффициенты смертности в обоих сравниваемых городах равны стандартным, определяем сколько бы умерло людей от злокачественных новообразований в каждой возрастной группе.

На третьем этапе вычисляются стандартизованные коэффициенты смертности населения от злокачественных новообразований. Для этого действительное число умерших относят к суммарному «ожидаемому» числу, и результат умножают на общий коэффициент смертности стандарта.


Действительное число умерших Общий коэф. смертности стандарта

«Ожидаемое» число умерших

Cтраница 1


Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор х, изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты рефессии Д сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов рефессии в отличие от коэффициентов чистой рефессии, которые несравнимы между собой.  

Согласованность частной корреляции и стандартизованных коэффициентов регрессии наиболее отчетливо видна из сопоставления их формул при двухфакгорном анализе.  

Согласованность частной корреляции и стандартизованных коэффициентов регрессии наиболее отчетливо видна из сопоставления их формул при двухфакторном анализе.  

Для определения значений оценок at стандартизованных коэффициентов регрессии а (наиболее часто находят применение следующие методы решения системы нормальных уравнений: метод определителей, метод квадратного корня и матричный метод. В последнее время для решения задач регрессионного анализа широко применяется матричный метод. Здесь же рассмотрим решение системы нормальных уравнений методом определителей.  

Иными словами, в двухфакторном анализе частные коэффициенты корреляции - это стандартизованные коэффициенты регрессии, умноженные на корень квадратный цз соотношения долей остаточных дисперсий фиксируемого фактора на фактор и на результат.  

Существует и другая возможность оценки роли группировочных признаков, их значимости для классификации: на основе стандартизованных коэффициентов регрессии или коэффициентов раздельной детерминации (см. гл.  

Как видно из табл. 18, компоненты исследованной композиции распределились по абсолютной величине коэффициентов регрессии (Ь5) с их квадратной ошибкой (5ъг) в ряд от окиси углерода и органических кислот до альдегидов и паров масла. При вычислении стандартизованных коэффициентов регрессии (р) оказалось, что с учетом диапазона колебаний концентраций на первый план ло значимости в формировании токсичности смеси в целом выходят кетоны и окись углерода, а органические кислоты остаются на 3 - м месте.  

Коэффициенты условно-чистой регрессии bf являются Именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или - коэффициентом.  

Коэффициенты условно-чистой регрессии А; являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или - коэффициентом.  

В процессе разработки нормативов численности собираются исходные данные о списочной численности управленческого персонала и значениях факторов по отобранным базовым предприятиям. Далее отбираются существенные факторы для каждой функции на основе корреляционного анализа, исходя из значения коэффициентов корреляции. Выбираются факторы с наибольшим значением парного коэффициента корреляции с функцией и стандартизованного коэффициента регрессии.  

Результаты перечисленных выше вычислений позволяют расположить в порядке уменьшения коэффициенты регрессии, соответствующие исследуемой смеси, и тем самым количественно оценить степень их опасности. Однако полученный таким путем коэффициент регрессии не учитывает диапазона возможных колебаний каждого компонента в составе смеси. В результате продукты деструкции, имеющие высокие коэффициенты регрессии, но колеблющиеся в малом диапазоне концентраций, могут оказать на суммарный токсический эффект меньшее влияние, чем ингредиенты с относительно малыми Ь, содержание которых в составе смеси изменяется в более широких пределах. Поэтому представляется целесообразным производить дополнительную операцию - расчет так называемых стандартизованных коэффициентов регрессии р (Дж.  

Страницы:      1

В долях среднего квадратического отклонения факторного и результативного признаков;

6. Если параметр а в уравнении регрессии больше нуля, то:

7. Зависимость предложения от цен характеризуется уравнением вида у = 136·х 1,4 . Что это означает?

С увеличением цен на 1 %, предложение увеличивается в среднем на 1,4%;

8. В степенной функции параметр b является:

Коэффициентом эластичности;

9. Остаточное среднее квадратическое отклонение определяется по формуле:

10. Уравнение регрессии, построенное по 15 наблюдениям, имеет вид: у = 4 + 3х +?6значение t - критерия равно 3,0 Коэффициент детерминации для этого уравнения равен:

На стадии формирования модели, в частности в процедуре отсева факторов, используют

Частные коэффициенты корреляции.

12. «Структурными переменными» называются :

Фиктивные переменные.

13. Дана матрица парных коэффициентов корреляции:

У xl х2 х3

У 1,0 - - -

Xl 0,7 1,0 - -

Х2 -0,5 0,4 1,0 -

Х3 0,4 0,8 -0,1 1,0

Какие факторы являются коллинеарными?

14. Автокорреляционная функция временного ряда - это:

последовательность коэффициентов автокорреляции уровней временного ряда;

15. Прогнозное значение уровня временного ряда в аддитивной модели - это:

Сумма трендовой и сезонной компонент.

16. Одним из методов тестирования гипотезы о коинтеграции временных рядов является:

Критерий Энгеля-Грангера;

17. Коинтеграция временных рядов - это:

Причинно - следственная зависимость в уровнях двух (или более) временных рядов;

18. Коэффициенты при экзогенных переменных в системе уравнений обозначаются:



19. Уравнение сверхидентифицируемо, если:

20.Модель считается неидентифицируемой, если:

Хотя бы одно уравнение модели неидентифицируемо;

ВАРИАНТ 13

1. Первым этапом эконометрического исследования является:

Постановка проблемы.

При какой зависимости разным значениям одной переменной соответствуют разные распределения значений другой переменной?

Статистической;

3. Если коэффициент регрессии больше нуля, то:

Коэффициент корреляции больше нуля.

4. Классический подход к оцениванию коэффициентов регрессии основан на:

Методе наименьших квадратов;

F-критерий Фишера характеризует

Соотношение факторной и остаточной дисперсий, рассчитанных на одну степень свободы.

6. Стандартизованным коэффициентом регрессии является:

Множественный коэффициент корреляции;

7. Для оценки значимости коэффициентов нелинейной регрессии рассчитывают:

F - критерий Фишера;

8. Методом наименьших квадратов определяются параметры:

Линейной регрессии;

9. Случайная ошибка коэффициента корреляции определяется по формуле:

M= √(1-r 2)/(n-2)

10. Дано: Dфакт = 120;Docт = 51. Чему будет равно фактическое значение F-критерия Фишера?

11.Частный F-критерий Фишера оценивает:

Статистическую значимость присутствия соответствующего фактора в уравнении множественной регрессии;

12. Несмещенность оценки означает, что :

Математическое ожидание остатков равно нулю.

13. При расчете модели множественной регрессии и корреляции в Ехсеl для вывода матрицы парных коэффициентов корреляции используется:

Инструмент анализа данных Корреляция;

14. Сумма значений сезонной компоненты по всем кварталам в аддитивной модели должна быть равна:

15. Прогнозное значение уровня временного ряда в мультипликативной модели - это:

Произведение трендовой и сезонной компонент;

16. Ложная корреляция вызвана наличием:

Тенденции.

17. Для определения авто корреляции остатков используют:

Критерий Дарбина- Уотсона;

18. Коэффициенты при эндогенных переменных в системе уравнений обозначаются :

19 . Условие, что ранг матрицы, составленной из коэффициентов при переменных. отсутствующих в исследуемом уравнении не меньше числа эндогенных переменных системы на единицу-это:

Дополнительное условие идентификации уравнения в системе уравнений

20. Косвенный метод наименьших квадратов применяется для решения:

Идентифицируемой системы уравнений.

ВАРИАНТ 14

1. Математико-статистическими выражениями, количественно характеризующими экономические явления и процессы и обладающими достаточно высокой степенью надежности, называются:

Эконометрические модели.

2. Задачей регрессионного анализа является:

Определение тесноты связи между признаками;

3. Коэффициент регрессии показывает:

Среднее изменение результата с изменением фактора на одну единицу его измерения.

4. Средняя ошибка аппроксимации - это:

Среднее отклонение расчетных значений результативного признака от фактических;

5. Неправильный выбор математической функции относится к ошибкам:

Спецификации модели;

6. Если параметр а в уравнении регрессии больше нуля, то :

Вариация результата меньше вариации фактора;

7. Линеаризация какой функции происходит путем замены переменных: x=x1, x2=x2

Полинома второй степени;

8. Зависимость спроса от цен характеризуется уравнением вида у = 98 х - 2,1. ЧТО это означает?

С увеличением цен на 1 %, спрос снижается в среднем на 2,1 %;

9. Средняя ошибка прогноза определяется по формуле:

- σост=√(∑(у-ỹ) 2 / (n-m-1))

10. Пусть имеется уравнение парной регрессии: у = 13+6*x, построенное по 20 наблюдениям, при этом r = 0,7. Определить стандартную ошибку для коэффициента корреляции:

11. Стандартизованные коэффициенты регрессии показывают:

На сколько сигм изменится в среднем результат, если соответствующий фактор изменится на одну сигму при неизменном среднем уровне других факторов;

12. Одной ИЗ пяти предпосылок метода наименьших квадратов является:

Гомоскедастичность;

13. Для расчета множественного коэффициента корреляции в Excel используется :

Инструмент анализа данных Регрессия.

14. Сумма значений сезонной компоненты по всем периодам в мультипликативной модели в цикле должна быть равна:

Четырем.

15. При аналитическом выравнивании временного ряда в качестве независимой переменной выступает:

16. Автокорреляция в остатках - это нарушение предпосылки МНК о:

Случайности остатков, полученных по уравнению регрессии;

Коэффициенты уравнения регрессии, как и всякие абсолютные показатели, не могут быть использованы в сравнительном анализе, если единицы измерения соответствующих переменных различны. Например, если y – расходы семьи на питание, х 1 – размер семьи, а х 2 – общий доход семьи, и мы определяем зависимость типа = a + b 1 x 1 + b 2 x 2 и b 2 > b 1 , то это не значит, что x 2 сильнее влияет на y , чем х 1 , т. к. b 2 – это изменение расходов семьи при изменении доходов на 1 руб., а b 1 – изменение расходов при изменении размера семьи на 1 человека.

Сопоставимость коэффициентов уравнения регрессии достигается при рассмотрении стандартизованного уравнения регрессии:

y 0 =  1 x 1 0 +  2 x 2 0 + … +  m x m 0 + е,

где y 0 и x 0 k стандартизованные значения переменных y и x k :

S y и S– стандартные отклонения переменныхy и x k ,

 k (k=)-коэффициенты уравнения регрессии (но не параметры уравнения регрессии, в отличие от приведенных ранее обозначений). -коэффициенты показывают, на какую часть своего стандартного отклонения (S y) изменится зависимая переменная y , если независимая переменная x k изменится на величину своего стандартного отклонения (S). Оценки параметров уравнения регрессии в абсолютных показателях (b k) и β-коэффициенты связаны соотношением:

-коэффициенты уравнения регрессии в стандартизованном масштабе создают реальное представление о воздействии независимых переменных на моделируемый показатель. Если величина -коэффициента для какой-либо переменной превышает значение соответствующего -коэффициента для другой переменной, то влияние первой переменной на изменение результативного показателя следует признать более существенным. Следует иметь в виду, что стандартизированное уравнение регрессии в силу центрирования переменных не имеет свободного члена по построению.

Для простой регрессии -коэффициент совпадает с коэффициентом парной корреляции, что позволяет придать коэффициенту парной корреляции смысловое значение.

При анализе воздействия показателей, включённых в уравнение регрессии, на моделируемый признак, наравне с -коэффициентами используются также коэффициенты эластичности. Например, показатель средней эластичности рассчитывается по формуле

и показывает, на сколько процентов в среднем изменится зависимая переменная, если среднее значение соответствующей независимой переменной изменится на один процент (при прочих равных условиях).

2.2.9. Дискретные переменные в регрессионном анализе

Как правило, переменные в регрессионных моделях имеют непрерывные области изменения. Однако теория не накладывает никаких ограничений на характер таких переменных. Довольно часто возникает необходимость учитывать в регрессионном анализе влияние качественных признаков и зависимость таковых от разных факторов. В этом случае появляется необходимость вводить в регрессионную модель дискретные переменные. Дискретные переменные могут быть как независимыми, так и зависимыми. Рассмотрим эти случаи по-отдельности. Сначала рассмотрим случай дискретных независимых переменных.

Фиктивные переменные в регрессионном анализе

Чтобы включить в регрессию в качестве независимых переменных качественные признаки, их надо оцифровать. Одним из методов их оцифровки является использование фиктивных переменных. Название не совсем удачное – никакие они не фиктивные, просто для этих целей более удобно использовать переменные, принимающие всего два значения – ноль или единица. Вот их и назвали фиктивными. Обычно качественная переменная может принимать несколько значений-уровней. Например, пол – мужской, женский; квалификация – высокая, средняя, низкая; сезонность – I, II, III и IV кварталы и т. д. Существует правило, согласно которому для оцифровки таких переменных нужно вводить количество фиктивных переменных, числом меньше на единицу, чем число уровней моделируемого показателя. Это необходимо для того, чтобы такие переменные не оказались бы линейно зависимыми.

В наших примерах: пол – одна переменная, равная 1 для мужчин и 0 – для женщин. Квалификации имеет три уровня, значит, нужны две фиктивные переменные: например, z 1 = 1 для высокого уровня, 0 – для других; z 2 = 1 для среднего уровня, 0 – для других. Третью аналогичную переменную вводить нельзя, т. к. в этом случае они оказались бы линейно зависимыми (z 1 + z 2 + z 3 = 1), определитель матрицы (X T X) обратился бы в нуль и найти обратную матрицу (X T X) -1 не удалось бы. Как известно, оценки параметров уравнения регрессии определяются из соотношения: T X) -1 X T Y).

Коэффициенты при фиктивных переменных показывают, насколько значение зависимой переменной отличается при анализируемом уровне по сравнению с отсутствующим уровнем. Например, если бы моделировался уровень зарплаты в зависимости от нескольких признаков и уровня квалификации, то коэффициент при z 1 показал бы, насколько зарплата у специалистов с высоким уровнем квалификации отличается от зарплаты у специалиста с низким уровнем квалификации при прочих равных условиях, а коэффициент при z 2 – аналогичный смысл для специалистов со средним уровнем квалификации. В случае с сезонностью пришлось бы вводить три фиктивных переменных (если рассматриваются квартальные данные) и коэффициенты при них показали бы, насколько величина зависимой переменной отличается для соответствующего квартала от уровня зависимой переменной для квартала, который не был введён при их оцифровке.

Фиктивные переменные кроме того вводятся для моделирования структурных изменений в динамике изучаемых показателей при анализе временных рядов.

Пример 4. Стандартизированное уравнение регрессии и фиктивные переменные

Рассмотрим пример использования стандартизированных коэффициентов и фиктивных переменных на примере анализа рынка двухкомнатных квартир на основе уравнения множественной регрессии при следующем наборе переменных:

PRICE – цена;

TOTSP – общая площадь;

LIVSP – жилая площадь;

KITSP – площадь кухни;

DIST – расстояние до центра города;

WALK – равна 1, если до станции метро можно дойти пешком и равна 0, если надо воспользоваться общественным транспортом;

BRICK – равна 1, если дом кирпичный и равна 0, если панельный;

FLOOR – равна 1, если квартира не на первом и не на последнем этаже и равна 0 в противном случае;

TEL – равна 1, если в квартире есть телефон и равна 1, если нет;

BAL – равна 1, если есть балкон и равна 0, если балкона нет.

Расчёты проведены с помощью ППП STATISTICA (рисунок 2.23). Наличие -коэффициентов позволяет упорядочить переменные по степени их влияния на зависимую переменную. Проведем краткий анализ результатов расчётов.

На основе статистики Фишера делаем вывод о значимости уравнения регрессии (р-level < 0,05). Обработана информация о 6 286 квартирах (n–m–1 = 6 276, а m = 9). Все коэффициенты уравнения регрессии (кроме при переменной BAL) значимы (р-величины для них < 0,05), а наличие или отсутствие балкона в этом случае существенно не сказывается на цене квартиры.

Рисунок 2.24 – Отчёт о рынке квартир на основе ППП STATISTICA

Коэффициент множественной детерминации равен 52%, следовательно, включённые в регрессию переменные обусловливают изменение цены на 52 %, а остальные 48 % изменения цены квартиры зависят от неучтённых факторов. В том числе и от случайных колебаний цены.

Каждый из коэффициентов при переменной показывает, насколько изменится цена квартиры (при прочих равных условиях), если данная переменная изменится на единицу. Так, например, при изменении общей площади на 1 кв. м цена квартиры в среднем изменится на 0,791 у.е., а при удалении квартиры от центра города на 1 км цена квартиры в среднем уменьшится на 0,596 у.е. и т. д. Фиктивные переменные (последние 5) показывают, на сколько в среднем изменится цена квартиры, если перейти с одного уровня этой переменной на другой. Так, например, если дом кирпичный, то квартира в нем в среднем на 3,104 у. е. дороже, чем такая же в панельном доме, а наличие телефона в квартире поднимает ее цену в среднем на 1,493 у. е. и т. п.

На основе -коэффициентов можно сделать следующие выводы. Наибольшим -коэффициентом, равным 0,514 является коэффициент при переменной «общая площадь», следовательно в первую очередь цена квартиры формируется под влиянием её общей площади. Следующий фактор по степени влияния на изменение цены квартиры является расстояние до центра города, затем материал, из которого построен дом, затем площадь кухни и т. д.