Страница: 27/38
При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n-наблюдений; хik – i- ое наблюдение k-ой переменной.
Связь между случайными величинами X и Y в генеральной совокупности, имеющими совместное нормальное распределение, можно описать коэффициентами корреляции:
r = М ((X – mx) (Y – my)) / sx sy , или r = Кxy / sx sy , ( 17 )
где r - коэффициент корреляции (или парный коэффициент корреляции) генеральной совокупности.
Оценкой коэффициента корреляции r является выборочный парный коэффициент корреляции:
N _ _
r = å (xi – x ) (yi – y) / nSxSy, ( 18 )
i = 1
где Sx.Sy – оценки дисперсии;
x , y – наилучшие оценки математического ожидания.
Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменными и обладает следующими основными свойствами:
Свойство 1. Коэффициент корреляции принимает значение в интервале (-1,+1), или rxy < 1. Значение коэффициентов парной корреляции лежит в интервале от -1 до +1. Его положительное значение свидетельствует о прямой связи, отрицательное - об обратной, то есть когда растет одна переменная, другая уменьшается. Чем ближе его значение к 1 , тем теснее связь.
Коэффициент множественной корреляции, который принимает значение от 0 до 1, более универсальный: чем ближе его значение к 1, тем в большей степени учтены факторы, влияющие на зависимую переменную, тем более точной может быть модель.
Свойство 2. Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, то есть
р (a1X + b a2 Y + b) = r xy , ( 19 )
где a1, a2 , b - постоянные величины, причем a1 > 0 , a2 > 0.
Случайные величины X,Y можно уменьшать (увеличивать) в a раз, а также вычитать или прибавлять к значениям X и Y одно и тоже число b - это не приведет к изменению коэффициента корреляции r.
Свойство 3. При r = +-1 корреляционная связь представляется линейной функциональной зависимостью. При этом линии регрессии y по x и x по y совпадают.
Свойство 4. При r = 0 линейная корреляционная связь отсутствует и параллельны осям координат.
Рассмотренные показатели во многих случаях не дают однозначного ответа на вопрос о наборе факторов. Поэтому в практической работе с использованием ПЭВМ чаще осуществляется отбор факторов непосредственно в ходе построения модели методом пошаговой регрессии. Суть метода состоит в последовательном включении факторов. На первом шаге строится однофакторная модель с фактором , имеющим максимальный коэффициент парной корреляции с результативным признаком. Для каждой переменной регрессии , за исключением тех, которые уже включены в модель , рассчитывается величина С(j) , равная относительному уменьшению суммы квадратов зависимой переменной при включении фактора в модель. Эта величина интерпретируется как доля оставшейся дисперсии независимой переменной, которую объясняет переменная j. Пусть на очередном шаге k номер переменной, имеющей максимальное значение, соответствует j. Если Сk меньше заранее заданной константы, характеризующей уровень отбора, то построение модели прекращается. В противном случае k-я переменная вводится в модель.
После того, как с помощью корреляционного анализа выявлены статистические значимые связи между переменными и оценена степень их тесноты, переходят к математическому описанию
Регрессионной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации и коэффициентом регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе.
Основной задачей линейного регрессионного анализа является установление формы связи между переменными, а так же выбор наиболее информативных аргументов Xj; оценивание неизвестных значений параметров aj уравнения связи и анализ его точности.
В регрессионном анализе вид уравнения выбирается исходя из физической сущности изучаемого явления и результатов наблюдений. Простейший случай регрессионного анализа для линейной зависимости между зависимой переменной Y и независимой переменной Х выражается следующей зависимостью:
Y = a0 + a1X + e , ( 20 )
где a0 – постоянная величина (или свободный член уравнения).
a1 – коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий процентное изменение переменой Y, при изменении значения X на единицу. Если a1 > 0 –переменные X и Y положительно коррелированны, если a2 < 0 – отрицательно коррелированны;
Реферат опубликован: 8/03/2006