Предпосылки регрессионного анализа

Регрессионный анализ заключается в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения. Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака от факторных признаков. Основной предпосылкой регрессионного анализа является то, что результативный признак подчиняется нормальному закону распределения, а факторные признаки — произвольному закону распределения. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным и факторными признаками.

Уравнение регрессии адекватно реальному моделируемому явлению или процессу только в случае соблюдения требований его построения:

      1. Совокупность исходных данных должна быть однородной и математически описываться непрерывными функциями.

      2. Наличие достаточно большого объема исследуемой выборочной совокупности.

      3. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.

      4. Причинно-следственные связи между явлениями и процессами, по возможности, следует описывать линейной (или приводимой к линейной) формой зависимости.

      5. Отсутствие количественных ограничений по параметрам модели.

      6. Количественное выражение факторных признаков.

      7. Постоянство структуры изучаемой совокупности в пространстве и во времени.

Теоретическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий:

      1. Все признаки и их совместные распределения должны подчиняться нормальному закону распределения.

      2. Дисперсия моделируемого признака должна всё время оставаться постоянной при изменении величины и значений факторных признаков.

      3. Отдельные наблюдения должны быть независимыми, т. е. результаты, полученные в отдельно взятом наблюдении, не должны быть связаны с предыдущими или содержать информацию о последующих наблюдениях, а также влиять на них.

Проверка этих предпосылок по большому счёту обязательна. Не всегда мы можем быть уверены в том, что все они соблюдаются неукоснительно. Если эту проверку не сделать, мы можем признать вывод, сделанный исключительно по выборке, соответствующим генеральной совокупности в целом (хотя на самом деле результаты, полученные по выборке, могут отражать только состояние изучаемого явления в отношении именно этой выборки, но никак не генеральной совокупности… помните, как в анекдоте «Вась, Карузо скоро приедет в наш город, пойдём на концерт, а? — Да ладно, так себе этот певец, ваш Карузо, мне вчера Колька напел пару его песен…»). Мой вам совет: если нужно построить модель для сдачи зачёта 🙂 — бог с ними, с последовательностью и проверками 🙂 Но вот если речь идёт о реальном исследовании — тут уж будьте добры пройти весь путь без пропусков. Договорились?

Итак… Установив связь между двумя переменными, мы должны проверить, а можно ли применить к этим переменным инструменты регрессионного анализа? Для этого — устраиваем нашим данным проверки, но прежде чем это сделать — давайте построим его, это таинственное уравнение регрессии!