logo search
Москаленко В

3.5. Характеристика и анализ статистической совокупности

В подразделе|подразделении| изложено практическое|практичное| значение и виды средних величин, методика их расчета, описанные ха­рактеристики| и параметры вариационного ряда.

Вопрос для изучения:

Цель: ознакомить с элементами и характеристиками вариационных рядов, научить рассчитывать средние вели­чины| и другие параметры вариационного ряда, проанализировать| практическое|практичное| использование|употребление| средних величин.

Средние величины в прикладных статистических исследованиях используются настолько широко, что статистику иногда называют наукой о средних. Почему же для характеристики определенного явления не всегда можно ограничиться расчетом простои средней арифметической?

Сбор, регистрация и благоустройство данных, в процессе любого исследования завершается формированием статистической совокупности (Statistical aggregate), которую можно определить как совокупность объектов или явлений одного вида, объединенных по определенному признаку. Например, больные с определенным диагнозом, определенным методом лечения и так далее. При этом для всех явлений, которые изучаются в медицине, характерна изменчивость, вариабельность. Каждый человек имеет количественную оценку определенного набора физиологических и клинических параметров, которые являются индивидуальными. Но в группе людей любой клинический параметр может изменяться и приобретать значения в определенном диапазоне.

Статистическая совокупность (Statistical aggregate) – совокупность объектов или явлений одного вида, объединенных по определенному признаку.

Прежде чем|перед тем как| давать характеристику вариабельности| совокупности|, что имеет разные|различные| значения признаков в отдельных ее единицах|, необходимо иметь единственную|единую| типичную|типовую| для совокупности ве­личину| (показатель), что позволяет дать ее обобщённую характеристику. Для этого применяются средние величины, которые|какие| рассчитываются только по количественным признакам|, то есть определение средней для атрибутивных признаков невозможно.

Средние величины дают обобщенную количественную характеристику определенного признака в статистической совокупности при определенных условиях места и времени.

В практике здравоохранения|здравоохранительный| средние величины используются достаточно широко:

• для характеристики организации работы учреждений охраны здоровья (средняя занятость койки, средний срок пребывания в стационаре и др.);

• для оценивания данных медико-социальных и санитарно-гигиенических исследований (среднее число лабораторных исследований, средние нормы питательного рациона, средний уровень радиационного загрязнения, но|да| др.).

Обязательным условием расчета средних величин для исследуемой совокупности является ее однородность. Если отдельные элементы совокупности имеют слишком большие, или слишком малые количественные значения признаки, которые существенно отличаются от других, такие элементы будут влиять на размер средней величины для данной совокупности и средняя не будет объективно выражать обобщающую характеристику совокупности. Одним из вариантов решения проблемы может быть исключение отдельных вариант из последующего анализа (что требует использования соответствующих методик оценки), или проведения расчета погрупповых средних с определением максимальных и минимальных колебаний.

Свойством средней величины является ее обобщённая характеристика. Средняя величина рассчитывается путем сопоставления абсолютных или относительных величин. При этом качественно однородная совокупность и достаточное число наблюдений является основными требованиями для расчета средних величин. Смешивание совокупности, которая определяется разными качественными признаками, приводит к расчету нетипичных средних величин, которые не могут быть основой научного анализа. Как избежать качественной неоднородности, решается во время планирования исследования и во время группирования первичного материала на основе качественного анализа исследуемых явлений. Например, нельзя изучать клинические параметры больных вообще, без деления их за нозологическими формами, возрастом и так далее Необходимо число наблюдений определяется за соответствующими методиками в зависимости от характера данных и дизайна исследования. Распространен шаблонный подход отбора не меньше N (ЗО, 50, 100) пациентов является априорным, что недопустимо в клинических исследованиях.

Средняя величина имеет двойственный характер: с одной стороны она характеризует совокупность в целом, а из|с| второго — она является основой|основанием| для оценки отдельных единиц совокупности|, их разнообразия и изменчивости|переменчивости|.

1. По форме расчета можно выделить:

а) среднюю арифметическую величину;

б) среднюю гармоничную величину;

в) среднюю геометрическую величину;

г) среднюю квадратичную, кубическую, и другие величины.

2. За охватыванием|охватом| совокупности выделяются:

а) групповая средняя величина;

б) общая средняя величина.

Рассмотрим подробнее отдельные виды средних вели­чин|.

Средняя арифметическая является самым распространенным видом средних величин. Она отображается|обозначается| как X. Однако, часто средняя арифметическая отражается|обозначается| буквой М (лат. Media|). За характером данных она может быть простою или взвешенной|.

Средняя арифметическая простая определяется как сумма вариант вариационного ряда, разделенная на их число. При этом вариационный ряд — это совокупность числовых значений признаков (вариант), которые могут быть не систематизированы за своим абсолютным значением (неранговый ряд), систематизированные в порядке роста или уменьшения - (ранговый ряд).

Отдельные элементы (значение) совокупности однородных за качественным составом предметов, явлений, параметров являются вариантами, а всю их совокупность можно представить в виде вариационного ряда, который является основой для определения средних величин. Вариационный ряд – это ряд вариант и соответствующих им частот.

Вариационный ряд может быть простым, где каждая варианта представлена отдельно, потому частота каждой из них равняется единице. Например, распределение больных по частоте пульса:

68, 69, 75, 70, 65, 68, 70, 75, 74, 72, 72, 68. Данный ряд также неранговый, потому что варианты не систематизированы. Систематизировав варианты в порядке увеличения или уменьшения их числового значения, данный ряд можно превратить в ранговый:

65, 68, 68, 68, 69, 70, 70, 72, 72, 74, 75, 75.

Если варианты сгруппировать за их абсолютным значением|, то можно получить сгруппированный вариационный ряд, где каждая варианта имеет свою частоту. Например:

X

66

68

69

70

72

74 |

75

F

1

3

1

2

2

1

2

Приведенный сгруппированный ряд является неинтервальным , потому что группирование|группировка| проведено за абсолютным значением каждой варианты.

Вариационные ряды, где значение вариант представлен в виде интервалов, называются интервальными. В виде| интервального ряда часто представляют признаки со значительным количеством вариант. При этом значение каждой варианты поданы в виде интервала (см. ниже).

Распределение мальчиков 7 лет по росту

Рост (х)

Число мальчиков (f)

125,0-126,9

127,0-128,9

129,0-130,9

131,0-132,9

4

12

8

4

Всего:

n=28

В приведенной|наведенной| таблице интервалы являются закрытыми — каждый из них имеет верхний и нижний предел|границу|. В практике попадаются открыты интервалы (возраст|век| 60 лет и старше, рост до 120 см но|да| др.). В процессе анализа ширину открытого интервала|, конечно, принимают ровной|равной| ширине смежного с ним интервала.

Сгруппированный интервальный вариационный ряд можно получить путем объединения вариант в группы. При этом необходимо помнить, что:

а)размер вариационных групп должен зависеть от природы| явления;

б|б|) имеет смысл определять одинаковые интервалы;

в) границы вариационных групп не должны повторяться.

Все вариационные ряды за качественной характеристикой распределяются на дискретные, в которых|каких| варианты могут быть представлены только целыми числами или полученные в результате подсчетов|вычисления| (распределение|деление| за частотою пульсу|, числом кроватных|постель| дней, посещений) и инкретные (непрерывные|), где варианты могут быть представлены как целыми, так и дробными, числами, или является результатом измерений (приведена|наведенный| таблица). Клинические параметры являются по большей части примером|прикладом| инкретных| вариант.

В процессе проведения исследования вопроса о чис­ло| вариационных групп решают|разрешают| учитывая характер ма­териала| и численность совокупности. Характерные особенности по распределению|делению| не окажутся|проявляются|, если при незначительном числе единиц наблюдения взять значительное число групп, или если число групп является недостаточным. Одним из вариантов автоматического группирования|группировки| есть использование|употребление| формулы Стерджеса для определения оптимального числа групп:

n=1+3,322 х lgN

n – число групп; N – число единиц наблюдения

Использование|употребление| данной формулы целесообразное при большом|великом| числе единиц наблюдение.

Другим вариантом, более гибким с практической точки зрения, является метод определения амплитуды ряда (разница между максимальным и минимальным значением варианта). Для решения вопроса о числе групп необходимо подать статистическую совокупность в виде рангового ряда, то есть разместить ее единицы в определенном порядке. При численности совокупности менее 100 единиц не целесообразно планировать больше 10 групп.

Этапы составления|сдает| интервального вариационного ряда:

Расчет средних величин базируется на значениях вариант. Если вариант представлен в виде интервала за величину в каждом из них принимают центральный вариант, то есть середину|средину| интервала. Для дискретного ря­да| центральный вариант определяется как полусумма| одного интервала. Для инкрементного ряда (предыдущий|предварительный| пример|приклад|) ею является полусумма начальных|первоначальных| значений двух соседних интервалов|: (125,0+127,0)/2=126 см.

Средняя арифметическая величина имеет определены математические свойства, которые полнее раскрывают ее сущность: произведение средней на сумму частот равняется сумме произведений каждой варианты на соответствующие им частоты;

2) сумма отклонений отдельных вариант от средней арифметической равняется нулю;

3) если все варианты совокупности увеличить или уменьшить на постоянную величину, то средняя арифметическая соответственно изменится на такую же величину;

4) если все варианты совокупности увеличить или уменьшить в определенное количество раз (А), то средняя арифметическая соответственно изменится в такое же количество раз (А);

5) если все частоты (весы) разделить или умножить на какое-то число, то средняя арифметическая вследствие этого не изменится — если мы увеличиваем или уменьшаем равнозначно частоты всех вариант, мы не изменяем вес каждой отдельной варианты ряда.

Взвешенная средняя арифметическая определяется как сумма произведений вариант на соответствующие частоты, разделенная на общее число наблюдений. Частоты отражаются|обозначаются| бук­вою| f (frequency|) и указывают, сколько раз встречается каждая варианта в вариационном ряду.

Если варианты обозначить X, частоты f, общее чис­ло наблюдений, — буквой N, арифметическую сумму сим­волом Σ, то формула средней арифметической будет иметь вид:

1) для простого ряда (простая средняя арифметическая):

2)для сгруппированного ряда (взвешенная средняя арифметическая):

=

Средняя арифметическая величина – наиболее часто используемый вид средних величин. Она может быть простой и взвешенной. Отражается как Х (иногда М).

Наряду со средней арифметической, для статистич­еского анализа применяются, хотя и реже, другие виды с­редних: средняя гармоничная и средняя геометрическая.

Средняя гармоничная определяется в тех случаях, когда известны данные числителя при отсутствии данных о знаменателе.

Xгарм=

Например, необходимо определить среднее время, тратящее на прием одного больного, когда известно, что 5 врачей вели прием в течение|на протяжении| 8 часов. Каждый из них тратил в среднем на прием одного больного, соответственно 20; 16; 20; 15; 24 минуты. Средняя арифметическая (М=17,75) в данном случае не даст точную оценку результату, поскольку каждый из врачей принял различное|различную| ' количество пациентов.

Например, необходимо определить среднее время, потраченное на прием одного больного, когда известно, что 5 врачей вели прием в течении 8 часов. Каждый из них потратил в среднем на прием одного больного, соответственно 20; 16; 20; 15; 24 минуты. Среднее арифметическое (М=17,75) в данном случае не даст точной оценки результату, так как каждый с врачей принял разное количество пациентов.

Расчет имеет такую схему: общее рабочее время врачей составляло: n=8*5=40 часов (2400минуты, или 480 минут на одного врача). Нагрузка на каждого врача определяется : для первого - 480/16=30 больных и т.д. Суммарно 130 больных.

Х гарм. = =

Среднюю гармоничную целесообразно использовать также при оценивании выживания больных, средней длительности жизни, некоторых|некоих| экономических|экономичных| показателей.

Средняя геометрическая определяется для тех параметров, изменения значений которых проходят в геометрической прогрессии (изменение численности населения в период между переписями, результаты титрования вакцин, прирост массы тела новорожденных в течение отдельных месяцев жизни, но др.).

Формула для расчета простой средней геометрической следующая:

Mгеом=

или

lgMгеом=

Логарифм средней геометрической равняется сумме логарифмов всех членов ряда, разделенных на их число. Лога­рифм полученного результата есть средняя геометрическая.

Например: имеем 16 наблюдений по уровню столбнякового антитоксина через 20 дней после его введения (АО): 0,05; 0,05; 0,025; 0,015; 0,01; 0,05; 0,075; 0,015; 0,25; 0,10; 0,10; 0,25; 0,25; 0,075; 0,075; Подставив данные в указанную формулу получаем:

lgMгеом= Mгеом = 0,056

Средняя арифметическая для данного вариационного ряда будет несколько завышена и составляет М=0,088.

Иногда в здравоохранении|здравоохранительный| для характеристики показателей используют среднюю реверсивную|. Дана вели­чина| рассчитывается из|с| вариант, которые|какие| имеют среднюю| прогрессивную длительности лечения больных в стационарах, и будет рассчитываться из значений, какие более малые среднего уровня длительности госпитализации для всей исследуемой совокупности. Такая средняя может служить базой для определения оптимального уровня определенного показателя|.

К|до| средним величинам, которые имеют относительный характер относятся медиана и мода.

Что такое медиан мода?

Медиана (Me|) — это срединная, центральная варианта, который делит вариационный ряд на две равных части. Например, когда число наблюдений составляет 29, медианой будет 15-я| за счетом|счет-фактурой|, потому что по оба бо­ки| от нее стоит по 14 наблюдений. В ряду с парным|четным| числом наблюдений центральное положение имеют две величины. Если числовые значения этих две величин разные|различные|, то за медиану берется их полусумма|.

Медианой в статистике называется варианта, который занимает срединное (центральное) положение в вариационном ряду.

Рассматривая моду нельзя не рассмотреть понятие квартилей|, которые|какие| также применяются для характеристики совокупности. Квартили — это значения, которые делят две половины совокупность (разделенные медианой) еще раз пополам (от слова кварта — четверть). Выделяют верхний квартиль|, который|какой| часто помечают символом 75 % (значит|означает|, что 75 % вариант меньше верхнего квартиль|). Нижний квартиль 25 % (25 % вариант меньше нижнего квартиль|). Таким чи­ном|, три точки — нижний квартиль|, медиана и верхний квартиль — делят выборку на 4 равных части.

Мода – это варианта, который имеет наибольшую частоту.

Мода (Мо) — величина, которая чаще всего встречается, или чаще всего повторяется. Отвечает на графическом изображении максимальной ординате, то есть наивысшему значению графической кривой. Таким образом, при приближенном нахождении моды в простом (несгруппированному) ряду она определяется как варианта с наибольшим количеством частот (например: 2, 6, 6, 8, 9, 9, 9, 10 — мода = 9). При этом ряд может иметь бимодальный (два значения случаются с одинаковой частотой), полимодальный характер.

Отличие медианы и моды от средней арифметич­еской| заключается в том, что эти величины определяются достаточно легко и не зависят от крайних вариант или от степени рассеивания ряда.

Средняя арифметическая часто имеет ограниченное значение потому, что она не отображает размеры колебания количественных вариант ряда (вариабельность ряду).

Можно выделить несколько видов вариации:

  • альтернативная – наличие или отсутствие определенного признака;

  • систематическая – изменение признака в определенном направлении (например, в результате лечения);

  • случайная – вариация не имеет явно выраженного направления.

Важной характеристикой ряда является оценка разнообразности (изменчивость|переменчивость|, вариабельности|) вариант исследуемой совокупности. Вариацией является изменчивость|переменчивость| только тех признаков, на которые|какие| влияют внешние|наружные| факторы, при­чини| ли. Явления, которые изменяются в силу своей природы, нельзя характеризовать как вариацию, например изменение|смена| роста ребенка от роду к|до| совершеннолетию.

Нас в первую очередь |первоочеринтересует именно случайная вариация, поскольку это понятие является основой|основанием| формирования и оценка нормы и патологии в медицине.

Одной из характеристик разнообразия вариант ряда является его амплитуда — разница между крайними значениями. Однако, амплитуда не учитывает характер распределения вариант, потому она имеет ограниченное использование в медицине. Например, два вариационных ряды с разной амплитудой могут иметь одинаковое значение средней арифметической.

Для анализа вариации признаков исследуемой совокупности необходимо использовать показатели, которые учитывают значение всех единиц наблюдения данной совокупности. Таким показателем является среднее квадратичное отклонение (стандартное отклонение — standard deviation), что позна­чається символом σ (сигма). Среднее квадратичное отклонение учитывает степень разнообразия всех вариант совокупности относительно средней арифметической и определяется по формуле:

• для простого вариационного ряда.

• для сгруппированного вариационного ряда.

где n — число наблюдений в исследуемой совокуп­ности (при достаточно большом числе наблюдений — n > 30 — в формуле вместо n —1 можно использовать n); f— час­тота вариант; d = х - X — отклонение каждой варианты от средней арифметической; х — значение варианты.

Количество дней

Количество больных

X*f

D=x-X

d

D*f

14

4

56

-3

9

36

15

6

90

-2

4

24

16

8

126

-1

1

8

17

11

187

0

0

0

18

10

5

4

n=48

180

95

80

816

Х= =816/48=17 дней

= =

1

2

3

1

4

9

10

20

12

Методику расчета среднего квадратичного отклонения рассмотрим на примере оценки средней длительности лечения больных пневмонией в стационаре (см. таблицу.).

Величина амплитуды для вариационного ряда с нормальным распределением вариант приблизительно равняется шесть сигм (5), потому чем выше является значение среднего квадратичного отклонения, тем выше является степень разнообразия признаков совокупности и менее типичной средней.

Интервал оценки показателей в пределах в большинстве случаев определяет их средний уровень;

в пределах - выше или ниже средних;

в пределах - очень высокие или очень низкие уровни показателей

Правило нормального распределения вариант в вариационном ряду можно определить как правило трёх сигм (Х± 3σ) — относительно средней арифметической практически все варианты совокупность находится в диапазоне ± 3σ. Схематично это можно отобразить так:

С огласно теории статистики, которая имеет как арифметическое, так и геометрическое, доведение (по площади фигур) в пределах X ± 1σ будут находиться не менее 68,37 % всех вариант совокупности. За пределами данного интервала может быть до 31,63 % всех наблюдений. В пределах X ± 2σ будут расположены около 95,45 % всех вариант. Практически весь вариационный ряд — 99,7 % вариант будет находиться в диапазоне X ± 3σ. Отдельные варианты — до 0,3 % исследуемой совокупности могут не отвечать общему ха­рактеру распределению и выпадать из него в результате слишком низкого или высокого уровня («выскакивающие» варианты).

Обобщение представленного материала позволяет сделать вывод о возможности практического использования среднего квадратичного отклонения:

  • для определения амплитуды ряда;

  • возобновление крайних его значений;

  • определение вероятного числа наблюдений в определенных интервалах.

Для вышеуказанных условий значения средней арифме­тической моды и медианы будут одинаковыми.

Среднее квадратичное отклонение (как мера вариации) поданная в квадрате называется дисперсией. В сущности дис­персия — это средняя величина квадратов отклонений вариант от средней арифметической. Данный показатель также используется в медицине и биологии для харак­теристики однородности исследуемой совокупности. При малых значениях σ средняя арифметическая достаточно полно характеризует совокупность (является типичной), тогда как большое зна­чение σ свидетельствует о неоднородности вариационного ряда (нетипичность средней).

В медицине при разработке критериев нормы часто принимается диапазон X ± 1σ (реже X ± 1,5 σ).

С помощью σ можно оценить «выскакивающие» (нетипичные) варианты:

При условии, что результат выше 3 — данную варианту целесообразно исключить из последующего анализа.

Например: анализ организации госпитализации больных показал, что средняя продолжительность дооперационного периода при плановой госпитализации в двух стационарах составляет:

Больница №1 Больница №2

Х=3,1 дня Х=3,2 дня

Средняя длительность подготовки к операции в обоих стационарах практически одинакова, однако среднее квадратическое отклонение, отображающее его колебания, в больнице №1 значительно меньше. Это свидетельствует о высшей типичности средней величины и, вероятно, результатом лучшей организации госпитализации и подготовки к оперативному лечению.

На практике иногда возникает потребность сравнить степень однородности (разнообразие) разных параметров сово­купности. Среднее квадратичное отклонение — именуемая величина, потому непосредственно сравнивать средние квадратичные отклонения вариационных рядов с разными единицами измерения (длина в сантиметрах, вес в килограммах) нельзя.

Средняя арифметическая часто имеет ограниченное значение потому, что она не отображает размеры колебания количественных вариант ряда (вариабельность ряду). Именно поэтому возникает потребность в расчете других параметров вариационного ряда.

Для обеспечения сопоставления необходимо определить для каждого ряда коэффициент вариации (С) — отношение среднего квадратичного отклонения (сигмы) к средней арифметической в процентах. Данный показатель является относительной мерой вариабельности, что выражается в процентах, а не именуемых числах:

Например: определили, что после дозированной нагрузки средняя частота пульса у обследуемых составляла:

Коэффициент вариации для первого (по частоте пульса) ряда: С=

Коэффициент вариации для второго ( по АД) ряда: С=

Вывод: артериальное давление является более постоянным признаком, чем частота пульса.

Чем выше коэффициент вариации, тем большая вариабельности данного признака. Критерием в данном случае является такая оценка: С < 10 % — низкий уровень вариабельности; С = 10 - 25 % — средний уровень вариабельности; С > 25 % — высокий уровень вариабельности свидетельствует о невозможности использования данной совокупности для анализа, необходимость расчета по групповых средних или исключения отдельных «выскакивающих» вариант.

1.Каким требованиям|востребованию| должен отвечать материал исследования при определении средних величин?

  1. Какие основные свойства средней арифметической?

  2. Что такое вариация признака? Какими показателями о­на| измеряется?

  3. Какое практическое|практичное| использование|употребление| среднего квадра­тичного| отклонения?

  4. Какое практическое|практичное| значение коэффициента вариации?