logo search
Москаленко В

3.9. Методы многофакторного анализа

Одним из важных моментов при изучении состояния здоровья населения и деятельности системы охраны здоровья является анализ действия многочисленных факторов, которые формируют здоровье людей, влияют на рост заболеваемости, приводят к инвалидности или смерти пациентов. Тем более при разработке профилактических способов улучшения состояния здоровья населения, состояния окружающей среды, деятельности медицинских учреждений растет значимость оценивания факторов. Биостатистика владеет большим количеством возможностей для этого, необходимо только научиться правильно подбирать методы статистического анализа, которые являются наиболее адекватными для данного конкретного исследования. Благодаря использованию методов корреляционно-регрессивного, факторного, дисперсионного, кластерного анализа медицинская статистика превратится из описательной в аналитическую.

Одним из распространенных методов анализа является корреляционный анализ(см.выше). Коэффициент линейной корреляции существует 3 типов:

Парный коэффициент корреляции дает характеристику обобщенной, «неочищенной» связи между параметрами. При этом возможно влияние других факторов, которые не учитываются, поэтому самостоятельная ценность парного коэффициента не высока. Поэтому чаще используют парциальные коэффициенты (которые можно рассчитать при наличии парных коэффициентов корреляции). Они отражают связь между факторами и уровнем здоровья в чистом виде, исключая влияние других факторов. Множественный коэффициент корреляции отражает одновременно связь изучаемых факторов с результативным признаком.

Степень влияния факторов характеризуется т.н. коэффициентом детерминации-квадраты парциальных коэффициентов, перемноженные на 100 (в процентах). . Коэффициент детерминации отображает искомый вес влияния на здоровье данного фактора среди других.

Регрессионный анализ чаще проводится вместе с корреляционным, поэтому его и называют корреляционно-регрессионным. Главная задача регрессионного анализа -составить уравнение регрессии, которое описывает «поведение», например, профессионального заболевания при изменении интенсивности влияния включенных в исследование факторов (пола, возраста, профессии, стажа работы, условий работы).

Дисперсионный анализ. Основной целью дисперсионного анализа является исследование значимости различия между средними. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Чтобы проиллюстрировать логику дисперсионного анализа, рассмотрим простой план эксперимента, включающий одну независимую переменную (или фактор А) и, скажем, 3 группы испытуемых. Целью такого плана обычно является выяснение того, изменяется ли зависимая переменная как функция фактора А.. Дисперсионный анализ позволяет нам проверить нулевую гипотезу об отсутствии действительных эффектов данного фактора - и тогда различия в показателях вызваны исключительно случайной изменчивостью. Предполагая, что нулевая гипотеза верна, можно получить две разные оценки дисперсии генеральной совокупности. Одна из этих оценок вычисляется на основе изменчивости групповых средних, а другая - на основе дисперсии показателей внутри каждой включенной в план группы. Если нулевая гипотеза и в самом деле верна, то обе оценки являются, по существу, оценками одной и той же генеральной дисперсии. Как следствие, эти оценки будут иметь одинаковую величину, за исключением случайной изменчивости, а их отношение будет иметь известное теоретическое. Если нулевая гипотезе не верна, то наши выборочные оценки не являются оценками дисперсии одной и той же генеральной совокупности, т. к. на первую будут влиять любые реальные эффекты фактора, а на вторую – нет.

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Предположим, что вы измеряете рост в случайной выборке из 50 мужчин и 50 женщин. Женщины в среднем не так высоки, как мужчины, и эта разница должна найти отражение для каждой группы средних (для переменной Рост). Поэтому переменная Рост позволяет вам провести дискриминацию между мужчинами и женщинами.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе.

Каждый статистический метод основан на собственной математической модели, и результаты его правильны настолько, насколько эта модель отвечает действительности. Необходимо научиться понимать и оценивать правильность применения статистических методов, которые используются для анализа результатов.

Таким образом, все указанные методы многофакторного анализа расширяют возможности исследователя относительно статистического анализа полученных результатов, необходимо только научиться их правильно подбирать и смело использовать.

Вопросы для контроля:

  1. В чём принципиальное отличие описательной от аналитической статистики?

  2. Почему возникает необходимость в использовании методов многофакторного анализа?