6. Статистическое изучение взаимосвязи социально-экономических явлений
6.1. Причинность, регрессия, корреляция
Исследование объективно существующих связей между явлениями - важнейшая задача общей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие существенное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения - это связь явлений и процессов, при которой изменение одного из них - причины - ведет к изменению другого - следствия.
Причина - это совокупность условий, обстоятельств, действие которых приводит к появлению следствия. Если между явлениями действительно существуют причинно-следственные отношения, то эти условия должны обязательно реализовываться вместе с действием причин. Причинные связи носят всеобщий и многообразный характер, и для обнаружения причинно-следственных связей необходимо отбирать отдельные явления и изучать их изолированно.
Особое значение при исследовании причинно-следственных связей имеет выявление временной последовательности: причина всегда должна предшествовать следствию, однако не каждое предшествующее событие следует считать причиной, а последующее - следствием.
В реальной социально-экономической действительности причину и следствие необходимо рассматривать как смежные явления, появление которых обусловлено комплексом сопутствующих более простых причин и следствий. Между сложными группами причин и следствий возможны многозначные связи, в которых за одной причиной будет следовать то одно, то другое действие или одно действие будет иметь несколько различных причин. Чтобы установить однозначную причинную связь между явлениями или предсказать возможные следствия конкретной причины, необходима полная абстракция от всех прочих явлений в исследуемой временной или пространственной среде. Теоретически такая абстракция воспроизводится. Приемы абстракции часто применяются при изучении взаимосвязей между двумя признаками (парная корреляция). Но чем сложнее изучаемые явления, тем труднее выявить причинно-следственные связи между ними. Взаимное переплетение различных внутренних и внешних факторов неизбежно приводит к некоторым ошибкам в определении причины и следствия.
Особенностью причинно-следственных связей в социально-экономических явлениях является их транзитивность, т.е. причина X и следствие У связаны соотношением , а не непосредственно .
Однако промежуточные факторы, как правило, при анализе опускаются.
Так, например, при использовании показателей международной методологии расчетов фактором валовой прибыли (У) считается валовое накопление основных и оборотных фондов (X), но при этом допускаются такие факторы, как валовой выпуск (Х/), оплата труда (X") и т. д. Правильно вскрытые причинно-следственные связи позволяют установить силу воздействия отдельных факторов на результаты хозяйственной деятельности.
Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо, абстрагируясь от второстепенных, выявлять главные, основные причины.
На первом этапе статистического изучения связи осуществляется качественный анализ изучаемого явления методами экономической теории, социологии, конкретной экономики.
На втором этапе строится модель связи на основе методов статистики: группировок, средних величин, таблиц и т. д.
На третьем, последнем этапе интерпретируются результаты; анализ вновь связан с качественными особенностями изучаемого явления.
Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и поставленных задач. Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.
В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.
Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.
По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.
По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, степенной, показательной, экспоненциальной и т. д.), то такую связь называют нелинейной, или криволинейной.
В статистике не всегда требуются количественные оценки связи, часто важно определить лишь ее направление и характер, выявить форму воздействия одних факторов на другие. Для выявления наличия связи, ее характера и направления в статистике используются методы приведения параллельных данных; аналитических группировок; графический, корреляционный, регрессионный.
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменения двух величин X и У. С увеличением величины X величина У также возрастает. Поэтому связь между ними прямая, и описать ее можно или уравнением прямой, или уравнением параболы второго порядка.
Х | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
У | 5 | 6 | 9 | 10 | 14 | 17 | 15 | 20 | 23 |
Взаимосвязь двух признаков изображается графически с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат –результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей наблюдается беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис. 6.1).
Рис. 6.1.
Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака, на него оказывают воздействие многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер и аналитически выражаются функцией вида .
Корреляционный метод имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике различаются следующие варианты зависимостей:
- парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными);
- частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
- множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: корреляция оценивает силу (тесноту) статистической связи, регрессия исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.
Корреляционный и регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ).
Регрессионный метод заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).
По форме зависимости различают:
линейную регрессию, которая выражается уравнением прямой (линейной функцией) вида:
нелинейную регрессию, которая выражается уравнениями вида:
парабола;
гипербола и т.д.
По направлению связи различают:
- прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;
- обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.
Положительную и отрицательную регрессии можно легче понять, если использовать их графическое изображение (см. рис. 6.1).
Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, приобретает практический смысл только последнее положение; при множественности причинных связей невозможно четко отграничить одни причинные явления от других.
6.2. Основные задачи и предпосылки применения корреляционно-регрессионного анализа
Все явления и процессы, характеризующие социально-экономическое развитие и составляющие единую систему национальных счетов, тесно взаимосвязаны и взаимозависимы между собой.
Корреляционная зависимость является частным случаем стохастической зависимости, при которой изменение значений факторных признаков влечет за собой изменение среднего значения результативного признака.
Корреляционная зависимость исследуется с помощью методов корреляционного и регрессионного анализов.
Корреляционный анализ изучает взаимосвязи показателей и позволяет оценить:
- тесноту связи между показателями с помощью парных, частных и множественных коэффициентов корреляции,
- уравнение регрессии.Основной предпосылкой применения корреляционного анализа является необходимость подчинения совокупности значений всех факторныхи результативного (У) признаков к -мерному нормальному закону распределения или близость к нему. Если объем исследуемой совокупности достаточно большой (n > 50), то нормальность распределения может быть подтверждена на основе расчета и анализа критериев Пирсона, Ястремского, Боярского, Колмогорова, чисел Вастергарда и т. д. Если n < 50, то закон распределения исходных данных определяется на базе построения и визуального анализа поля корреляции. При этом если в расположении точек наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному распределению.регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (У) от факторных.Основной предпосылкой регрессионного анализа является то, что только результативный признак (У) подчиняется нормальному закону распределения, а факторные признаки могут иметь произвольный закон распределения. В анализе динамических рядов в качестве факторного признака выступает время t. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативными факторными признаками.
Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией
является достаточно адекватной реальному моделируемому явлению или процессу, если выполняются следующие требования к их построению:
- совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями;
- моделируемые явления должны описываться одним или несколькими уравнениями причинно-следственных связей;
- все факторные признаки должны иметь количественное (цифровое) выражение;
- объем исследуемой выборочной совокупности должен быть достаточно большим;
- причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной формами зависимости,
- параметры модели связи не должны иметь количественных ограничений,
- территориальная и временная структура изучаемой совокупности должна быть постоянной.
Соблюдение данных требований позволяет исследователю построить статистическую модель связи, наилучшим образом аппроксимирующую моделируемые социально-экономические явления и процессы
Теоретическая обоснованность моделей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением следующих основных условий.
- все признаки и их совместные распределения должны подчиняться нормальному закону распределения;
- в дисперсия моделируемого признака (У) должна все время оставаться постоянной при изменении величины (У) и значений факторных признаков;
- отдельные наблюдения должны быть независимыми, т. е результаты, полученные в i-м наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.
Отступление от выполнения этих условий и предпосылок приводит к тому, что модель регрессии будет неадекватно отражать реально существующие связи между анализируемыми признаками
Одной из проблем построения уравнения регрессии является ее размерность, т е определение числа факторных признаков, включаемых в модель Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, реализуемую быстрее и качественнее. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
Практика выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом исследуемой совокупности. Согласно данному критерию, число факторных признаков (k) должно быть в 5-6 раз меньше объема изучаемой совокупности.
Общая блок-схема реализации корреляционного и регрессионного методов анализа представлена на рис. 6.2.
Приведенная последовательность реализации корреляционного и регрессионного методов анализа позволяет достаточно полно охарактеризовать и смоделировать реально существующие взаимосвязи и взаимозависимости между показателями, характеризующими развитие социально-экономических явлений и процессов.
Рис. 6.2.
Построение корреляционно-регрессионных моделей, какими бы сложными они ни были, само по себе не вскрывает полностью всех причинно-следственных связей. Основой их адекватности является предварительный качественный анализ, основанный на учете специфики и особенностей исследуемых социально-экономических явлений и процессов.
6.3. Парная регрессия на основе метода наименьших квадратов и метода группировок
Парная регрессия характеризует связь между двумя признаками - результативным и факторным. Аналитическая связь между ними описывается следующими уравнениями:
прямой
гиперболы
параболы и т.д.
Определить тип уравнения можно, исследуя зависимость графически. Однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи - гиперболическая. Если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее, то используется связь параболическая или степенная.
Оценка параметров уравнений регрессии (а0, а1, и а2 в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности.
Основной принцип метода наименьших квадратов рассмотрим на следующем примере: будем считать, что две величины (два показателя) X и У взаимосвязаны между собой, причем У находится в некоторой зависимости от Х. Следовательно, У будет зависимой, а Х- независимой величинами.
Сущность метода наименьших квадратов заключается в нахождении параметров модели (а0, а1), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:
Для прямой зависимости:
-
Рассмотрим S в качестве функции параметров а0 и а1, проведем математические преобразования (дифференцирование) и получим:
Откуда система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов примет следующий вид:
где n - объем исследуемой совокупности (число единиц наблюдений).
В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а1 (а в уравнении параболы и а2) –коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
Применение метода наименьших квадратов объясняется неизбежным наличием случайных ошибок в результатах опыта.
Статистические данные обладают ошибками упрощения, которые возникают как следствие:
неполноты охвата, потому что часть единиц совокупности, полученных в результате наблюдения, не может быть использована в исследовании;
неполноты факторов, определяющих то или иное социально-экономическое явление, в силу того, что ни в одно уравнение, или модель, нельзя включить бесконечное число аргументов (во всех случаях отбирается только часть воздействующих факторов, причем отбор носит чисто субъективный характер);
характера выбранного уравнения связи. Как бы хорошо оно ни было обосновано, как бы теоретически адекватно ни описывало исследуемое явление, оно не может быть его точным аналогом.
Решение вопроса о возможности использования метода наименьших квадратов для изучения связей между социально-экономическими явлениями зависит от свойства оценок, получаемых с помощью этого метода.
Даже при сравнительно небольшом числе наблюдений применение метода наименьших квадратов позволяет получить достоверные оценки.
Метод наименьших квадратов может быть также использован в анализе косвенных наблюдений, являющихся функциями многих неизвестных.
Обобщенная блок-схема построения уравнения парной регрессии представлена на рис. 6.3.
Рис. 6.3.
6.4. Множественная (многофакторная) регрессия
Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии. При исследовании зависимостей методами множественной регрессии задача формулируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение связи между результативным признаком и факторными признаками,найти функцию:
Построение моделей множественной регрессии включает несколько этапов:
- выбор формы связи (уравнения регрессии);
- отбор факторных признаков;
- обеспечение достаточного объема совокупности для получения несмещенных оценок.
Рассмотрим каждый из них.
Выбор формы связи затрудняется тем, что с использованием математического аппарата теоретически зависимость между признаками выражается большим числом различных функций.
Выбор типа уравнения осложнен тем, что для любой формы зависимости выбирается целый ряд уравнений, которые в определенной степени будут описывать эти связи. Некоторые предпосылки для выбора определенного уравнения регрессии получают на основе анализа предшествующих аналогичных исследований или на базе анализа подобных работ в смежных отраслях знаний. Поскольку уравнение регрессии строится главным образом для объяснения и количественного выражения взаимосвязей, оно должно хорошо отражать сложившиеся между исследуемыми факторами фактические связи.
Наиболее приемлемым способом определения вида исходного уравнения регрессии является метод перебора различных уравнений.
Сущность данного метода заключается в том, что большое число уравнений (моделей) регрессии, отобранных для описания связей какого-либо социально-экономического явления или процесса, реализуется на ЭВМ с помощью специально разработанного алгоритма перебора с последующей статистической проверкой, главным образом, на основе - критерия Стьюдента и F -критерия Фишера-Снедекора.
Способ перебора является достаточно трудоемким и связан с большим объемом вычислительных работ.
Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:
1) линейную:
2) степенную:
3) показательную:
4) параболическую:
5) гиперболическую
Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации.
Важным этапом построения уже выбранного уравнения множественной регрессии является отбор и последующее включение факторных признаков.
Сложность формирования уравнения множественной регрессии заключается в том, что почти все факторные признаки находятся в зависимости один от другого.
Определение размерности модели связи, т.е. определение оптимального числа факторных признаков, является одной из основных проблем построения множественного уравнения регрессии. В то же время чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных признаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует простоте и качеству ее реализации. Но построение модели регрессии малой размерности может привести к тому, что такая модель будет недостаточно адекватна исследуемым явлениям и процессам.
Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена на основе эвристических или многомерных статистических методов анализа.
Обобщенную методику корреляционного метода анализа экономических явлений и процессов можно представить блок-схемой (рис. 6.4.).
Рис. 6.4.
6.5. Методы изучения связи социальных явлений
Важной задачей статистики является разработка методики статистической оценки социальных явлений, которая осложняется тем, что многие социальные явления не имеют количественной оценки.
Как правило, анализ социальных явлений, их связей и зависимостей должен начинаться с построения графиков связей. В настоящее время используются графики, характеризующие связь социальных явлений (рис. 6.5.).
С помощью графика (рис. 6.5,а) «цепь» изображаются связи между социальными признаками, которые одинаково существенны и значимы.
График (рис. 6.7,б) «звезда» изображает зависимость социальных явлений, которые тяготеют к одному наиболее значимому. Исключение данного признака нарушает взаимосвязи между оставшимися признаками.
На графике (рис. 6.5,в) «сетка» выделяется несколько значимых признаков, которые тесно зависимы друг от друга.
Для количественной характеристики многомерных (многофакторных) связей социальных явлений используется метод корреляционны плеяд, основанный на расчете коэффициентов связи, которые носят общее название информативных коэффициентов.… Продолжение »