Считаем коэффициент множественной корреляции

Для оценки качества регрессионных моделей целесообразно также использовать индекс корреляции (коэффициент множественной корреляции) R:

(33)

Чем выше значение индекса, тем ближе расчетные значения результативного признака к фактическим.

Индекс корреляции используется при любой форме связи переменных; при парной линейной регрессии он равен парному коэффициенту корреляции.

В качестве меры точности модели применяют точностные характеристики:

  • максимальная ошибка — соответствует максимальному отклонению расчетных значений от фактических;

  • средняя абсолютная ошибка — показывает, насколько в среднем отклоняются фактические значения от расчетных. Определяется по формуле:

(34)

  • дисперсия ряда остатков (остаточная дисперсия):

(35)

  • средняя квадратическая ошибка (представляет собой корень квадратный из дисперсии:

(36)

Чем меньше значение ошибки, тем точнее модель.

  • средняя относительная ошибка аппроксимации:

% (37)

допустимым пределом значений считается уровень порядка 8 … 15 %.

Теперь, когда все проверки нами выполнены, можно переходить к построению прогноза по модели.

Введение в эконометрику

Цель эконометрики – эмпирический анализ экономических законов. Эконометрика дополняет теорию, используя реальные данные для проверки и уточнения исследуемых отношений.

Наиболее распространенным инструментом эконометрики является регрессионный анализ, позволяющий проанализировать и оценить связи между зависимой (объясняемой) и независимыми (объясняющими) переменными (регрессорами, факторами).

Обозначим зависимую (объясняемую) переменную как y, а независимые (объясняющие) как ​\( x_1, x_2, … , x_k \)​ Если k = 1, то регрессия называется простой (парной). Если k>1, то регрессия — множественная. Простейшая модель имеет вид:

\( y = \alpha + \beta * x + \epsilon \)                             (1)

где ​\( \alpha + \beta * x \)​ неслучайная составляющая, а ​\( \epsilon \)​ — случайный член.

Существование отклонение от прямой регрессии, то есть случайных слагаемых ​\( \epsilon \)​, объясняется рядом причин:

  1. ошибки измерения;

  2. невключение объясняющих переменных в модель;

  3. неправильный выбор вида зависимости в уравнении;

  4. отражение уравнением регрессии связи между агрегированными переменными.

В связи с этим невозможно точно определить значения , поэтому для этих параметров находят приблизительные оценки для параметров ​\( \alpha \)​ и \( \beta \) — значения а и b, и уравнение линейной регрессии принимает вид:

\( y = a + b*x \)                                     (2)

Вид зависимости выбирают либо графически, либо проверяя качество моделей на контрольной выборке, либо используя априорные экономические соображения.

Можно сказать, что построение и анализ парной линейной регрессии является фундаментом для большинства методов эконометрического анализа — множественной регрессии, нелинейной регрессии, временных рядов. Поэтому знакомство с эконометрикой следует начинать именно с детального изучения методов построения и анализа парной линейной регрессии. Оставайтесь на связи, заходите на этот сайт — и вы будете понимать эконометрику лучше вашего преподавателя! (Шутка)

А теперь я предлагаю Вам перейти к следующей небольшой статье, где за каких-то пару минут Вы узнаете о том, какие шаги необходимо выполнить, чтобы построить и проанализировать модель парной линейной регрессии.  

R/S-критерий

Проверку соответствия распределения остаточной последовательности нормальному закону распределения можно осуществить с помощью R/S-критерия, который определяется по формуле:

(32)

То есть, чтобы найти расчётное значение R/S-критерия, мы должны из максимальной величины ошибки (т.е. разницы между значением, предсказанным нашим уравнением регрессии, и фактическим значением) вычесть минимальную (разумеется, эти значения берутся по модулю), и эту разность разделить на ​\( S_\epsilon \)​.

Расчетное значение R/S-критерия сравнивают с табличными значениями (нижней и верхней границами данного отношения), и если значение не попадает в интервал между критическими границами, то с заданным уровнем значимости гипотеза о нормальности распределения отвергается; в противном случае гипотеза принимается. 

Если с R/S-критерием всё в порядке, переходим к расчёту коэффициента множественной корреляции.

Проверка отсутствия автокорреляции (d-критерий Дарбина-Уотсона)

Проверку независимости последовательности остатков (отсутствие автокорреляции) осуществляют с помощью d-критерия Дарбина-Уотсона. Этот тест считается достаточно универсальным и широко применяется в эконометрических исследованиях вследствие своей простоты, хотя и не обладает существенной эффективностью (достоверностью). Тест Дарбина-Уотсона обычно используется для установления факта наличия автокорреляционной зависимости первого порядка в ряду ошибки, то есть между соседними её значениями. Автокорреляционные зависимости второго и последующих порядков этот тест не обнаруживает.

Расчётное значение d-критерия определяется по формуле:

(29)

Значение d = 0 соответствует случаю, когда между рассматриваемыми рядами остатков существует строгая положительная линейная зависимость, а значение d=4 соответствует строгой отрицательной связи. Если ряды остатков независимы, то d = 2.

Расчетное значение критерия сравнивается с нижним (d1) и верхним (d2) критическими значениями статистики Дарбина-Уотсона. При этом возможны следующие случаи:

      1. Если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию.

      2. Если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков.

      3. Если то считается, что нет достаточных оснований сделать тот или иной вывод и нужно использовать дополнительный, более мощный критерий, например первый коэффициент автокорреляции:

(30)

Если расчетное значение коэффициента по модулю меньше табличного значения , то гипотеза об отсутствии автокорреляции принимается, в противном случае эта гипотеза отвергается.

      1. Если d>2, то это свидетельствует об отрицательной автокорреляции остатков. В этом случае расчетное значение критерия необходимо преобразовать по формуле:

(31)

и сравнивать с теми же критическими значениями статистики d1 и d2.

Если имеет место автокорреляция остатков, то есть их зависимость друг от друга, то коэффициенты регрессии не смещены, но стандартные ошибки недооценены, а проверка статистической значимости коэффициентов ненадежна. Автокорреляция может появиться из-за невключения в модель значимых переменных, неверной формы функции в оценочном выражении (например, линейная модель тогда, когда она должна быть нелинейной).

Тест Дарбина-Уотсона можно применять только в случае выполнения следующих условий:

  • в регрессионном уравнении присутствует свободный член;

  • регрессоры являются нестохастическими;

  • в регрессионном уравнении нет лаговых значений зависимой переменной.

Кроме того, необходимо учитывать, что тест Дарбина-Уотсона проверяет только наличие автокорреляции между регрессионными остатками в последовательных наблюдениях. Однако если коррелируют показатели с лагом, большим единице (например, ), то с помощью теста Дарбина-Уотсона не удастся обнаружить никакой автокорреляции. В таком случае используют тест Броша-Годфри, рассмотрение которого выходит за рамки нашего курса.

Следующий этап анализа модели — проверка соответствия распределения остаточной последовательности нормальному закону распределения.

P.S. Говоря о практической стороне расчёта d-критерия, должен отметить, что мои студенты иногда получали значение d=4… Вроде бы как нужно вычесть 2 (ведь значение больше 4, верно?) — и мы снова получаем d = 2, которое нужно сравнить… с каким значением? Допускаю, что из-за условности модели, которую строили студенты, и её особенностей, у них получалась «классическая» автокорреляция, однако проверить свои догадки не могу — информация про тест Дарбина-Уотсона в интернете крайне скудная…

Пять формул для расчёта коэффициента корреляции

Итак, построение однофакторной линейной модели начинается с ответа на вопрос: есть ли вообще какая-либо взаимосвязь между двумя рассматриваемыми переменными? Проверка наличия связи осуществляется с помощью линейного коэффициента корреляции. Его расчет может быть выполнен по любой из следующих формул:

Читать далее «Пять формул для расчёта коэффициента корреляции»