logo search
Москаленко В

3.8. Анализ взаимосвязи между параметрами статистической совокупности

В подразделе описана сущность метода корреляционно регрессионного анализа, его практическое значение и мето­дика расчета коэффициентов корреляции и регрессии.

Вопросы для изучения:

— Когда возникает необходимость применения корре­ляционного анализа?

Цель: обосновать необходимость использования ме­тода корреляционно регрессионного анализа; научить рассчитывать ρ и анализировать коэффициенты корреляции и регрессии.

Все изменения, которые происходят в природе, являются взаимосвязанными и взаимообусловленными. Изменчивость определенного признака как следствие изменчивости других параметров, в свою очередь, обуславливают изменчивость других признаков. Однако, указанная зависимость в отдельных ситуациях проявляется по-разному. Функциональная связь часто присутствует при изучении химических и физических явлений, в математике, геометрии.

Когда при изменении одного параметра на определенную величину всегда происходит изменение другого также на определенную фиксированную величину, можно говорить о функциональной зависимости между ними.

В медико-биологических исследованиях зависимость между отдельными параметрами не является функциональной связью. При изменении одного признака невозможно абсолютно точно спрогнозировать величину, на которую изменяются другие. Примером такой корреляционной связи является зависимость веса и роста детей, тяжести патологии и сроков лечения, концентрации вредных веществ в рабочей зоне и уровень заболеваемости работников.

Когда определенному значению одного параметра может отвечать несколько значений другого, идет речь о корреляционной связи.

Определение характера связи между определенными параметрами проводят путем расчета коэффициента корреляции, который в зависимости от его характера и формы представления данных может быть рассчитан разными методами.

Таблица 26.

Направленность связи – определяется по знаку коэффициента корреляции.

Прямая связь – динамика параметров является однонаправленной – увеличение одного параметра обуславливает увеличение другого.

Обратная – динамика параметров разнонаправлена – увеличение одного параметра обуславливает уменьшение другого.

Сила связи

Слабая

r=0.01-0.29

Средняя

r=0.30-0.69

Сильная

r=0.70-0.99

Коэффициент парной корреляции отображает характер связи 2 признаков. Он может быть рассчитан при сопоставлении двух рядов в виде рангового коэффициента корреляции (ρ) и линейного коэффициента корреляции (r).

Парный коэффициент корреляции дает характеристику обобщенного «неочищенной» связи между параметрами. При этом возможное влияние других факторов, которые не учитываются, потому самостоятельная ценность парного коэффициента несколько ограничена.

Корреляционная зависимость различается по направлению, силе и форме связи (таблица 26).

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

Максимальное возможное абсолютное значение коэффициента корреляции r = 1,00; минимальное r = 0,00.

Коэффициенты регрессии достаточно широко используются для построения уравнений регрессии при разработке многих медико-социальных и клинических проблем, в том числе для оценивания физического развития детей и подростков. Данные уравнения — это математическая модель, которая описывает характер взаимосвязи между исследуемыми параметрами. Это особенно актуально при построении многофакторных моделей и прогнозировании уровней результативного параметра системы при фиксированных уровнях отдельных компонентов (показателей). Коэффициент регрессии показывает, на какую величину в среднем изменится второй параметр при изменении первого на определенную единицу измерения.

Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями.

Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

1) Определить каждому из признаков их порядковый номер (ранг) по возрастанию (или убыванию).

2) Определить разности рангов каждой пары сопоставляемых значений.

3) Возвести в квадрат каждую разность и суммировать полученные результаты.

4) Вычислить коэффициент корреляции рангов по формуле:

ρ =1-

где - сумма квадратов разностей рангов, а - число парных наблюдений.

Для оценки достоверности коэффициент корреляции должен превышать свою погрешность не меньше, чем в 2,5 – 3 раза при достаточном числе наблюдений.

Методика расчета на примере характеристики взаимосвязи стажа работы работников угольной промышленности и частотой заболеваний на бронхит в них.

Стаж работы (годы)

Х

Частота заболеваний на бронхит (на 100 работников)

У

Порядковый номер (ранги)

Разница рангов

Квадрат разницы рангов

Х

У

До 5

3,31

1

1

0

0

5-9

3,91

2

2

0

0

10-14

8,06

3

3

-1

1

15-19

5,77

4

4

1

1

20 и больше

10,76

5

5

0

0

Подставляем полученные результаты в формулу:

=1-6*2/5*(25-1)=

ВЫВОД: между стажем работы работников и частотой заболевания на бронхит выявлено сильную, прямую корреляционную связь.

Ошибка рангового коэффициента корреляции для нашего случая исчисляется по формуле:

m=

для нашего случая m1=0,245 и t=3,67, что, соответственно, выше граничных значений. Полученный результат позволяет сделать вывод о вероятности данного рангового коэффициента корреляции.

При большом числе наблюдений ( n> 100) средняя погрешность рангового коэффициента корреляции может быть определена по формуле:

mp=

Оценка достоверности коэффициента корреляции про­водиться по тем же принципами, что используются для других показателей с учетом числа наблюдений (числа степеней свободы вариационных рядов n` = n – 2).

Один из методов расчета коэффициента линейной корреляции был предложен К.Пирсоном. Формула для подсчета коэффициента корреляции Пирсона такова:

r =

X и Y – варианты сравниваемых вариационных рядов;

dx и dy – отклонение каждой варианты от своей средней арифметческой

Таблица 28. Зависимость между составом железа в крови и уровнем гемоглобина в крови.

Содержание железа у крови (мг/л)

Уровень гемоглобина в крови (%)

57

71

5.2

1.9

9.88

27.04

3.61

50

68

-1.8

-1.1

1.98

3.24

1.21

54

70

2.2

0.9

1.98

4.84

0.81

48

65

-3.8

-4.1

15.58

14.44

16.81

58

72

6.2

2.9

17.98

38.44

8.41

54

70

2.2

0.9

1.98

4.84

0.81

53

70

1.2

0.9

1.08

1.44

0.81

49

68

-2.8

-1.1

3.08

7.84

1.21

43

68

-8.8

-1.1

9.68

77.44

1.21

Xx=51.8

Xy=69.1

=34.89

Подставив полученные значения в формулу Пирсона, получаем:

r =

Вывод: между составом железа в крови и уровнем гемоглобина существует сильная прямая связь. Для нашего случая коэффициент вероятности=3,6, что свыше гранично допустимых значений при вероятности ошибки меньшей 0,05

Расчет линейного коэффициента корреляции:

  1. Определяют средние значения для каждого ряда (Хх, Ху).

  2. Определяют отклонение каждого из значений ряда от средней величины (dх, dу).

  3. Возводят определенные отклонения в квадрат и определяют их суммы:

Особенность коэффициента Спирмена – простота вычисления при недостаточной точности позволяет его использовать для ориентировочного анализа с проведением быстрых расчетов, при определении данных в получисленном описательном виде.

Достоверность полученного результата определим соотношением t = r / mr, где mr при малом числе наблюдений (n < 30) равняется:

mr=

При большом числе наблюдений (n > 100) формула для расчета средней погрешности коэффициента корре­ляции может иметь вид:

m=

Прямолинейная корреляционная связь между парамет­рами характеризуется тем, что каждому из одинаковых измерений одного показателя отвечает определено среднее зна­чение другого показателя. Данную зависимость можно описа­ть коэффициентом регрессии. Рассчитывается коэффициент рег­рессии по формуле:

Rx/y=rxy*

Где: Rx/y - коэффициент регрессии от Х до У;

rxy - коэффициент корреляции;

и средние квадратические отклонения рядов Х и У.

Рассмотрим использование коэффициента регрессии на примере.

При анализе данных физического развития 10-летних мальчиков получены такие параметры рост (Хх) и веса (Ху):

Хх = 137,2 см; Х = 3,2 см и Ху = 30,7 кг; у = 1,76 кг; rху = 0,81.

Коэффициент регрессии при данных условиях составляет:

Rx/y=rxy* (кг)

Вывод: при изменении роста на 1 см вес мальчиков в среднем изменится на 1,47 кг. Определенный коэффициент регрессии можно использовать в уравнении регрессии при прогнозировании ситуации - какой вес в среднем будет отвечать возрасту мальчиков 140,0 см:

Вывод: возрасту мальчиков 140,0 см будет отвечать вес 34,8 кг.

Выше приведенные методики расчета парных ко­эффициентов корреляции являются основой и только первым этапом многофакторного корреляционной анализа. Парные ко­эффициенты показывают характер связи (общего, «неочищенного») между исследуемыми параметрами без учёта влияния других факторов. Оценивание «чистой» взаимосвязи в многофакторных моделях определяется на основе парциальных коэффициентов корреляции, основой для расчета которых являются парные и множественные коэффициенты.

В практике медицинских исследований достаточно часто возни­кает вопрос об определении влияния нескольких разных факторов на определенное явление, например, на частоту осложнений при родах влияет возраст женщины, наличие аку­шерской и экстрагенитальной патологии, качество предоставления медицинской помощи и др. В таких случаях для выявления комбинированного влияния нескольких факторов на размер исследуемого явления пользуются методом множественной корреляции. Использование этого метода про­водиться в несколько этапов. Математический аппарат данно­го анализа является достаточно сложным и выходит за пределы програ­ммы подготовки врачей. В настоящее время существует много специализирова­нных программ статистического анализа, которые позволяют рассчитать множественный коэффициент корреляции для определенной совокупности показателей. Важным является оценка резуль­тата: в случае, когда сумма парциальных коэффициентов ко­рреляции меньше величины множественного коэффициента ко­рреляции, мы можем говорить о потенцируемом действии исследуемых параметров относительно результативного приз­нака. Иначе (что, по нашему опыту, случается чаще) мы можем отмечать параллельное влияние факторов с невыраженным взаимным потенцируемым эффектом с условия, когда сумма парциальных коэффициентов значительно превышает значение множественного коэффициента корреляции.

Следовательно, множественный коэффициент корреляции отображает связь одновременно комплекса факторов с исследуемым ре­зультативным фактором (клиническими показателями и др.).

Вопросы для контроля:

  1. Что такое корреляционная связь ? Чем она отличается от функциональной?

  2. Дайте характеристику формы, направления и силы связи.

  1. Что такое регрессия?