Доставка цветов в Нижний Новгород
 

СТАТИСТИКА
курс лекций Чалиева А.А.

Лекция 7: Показатели вариации


Признаки, изучаемые статистикой, варьируются (отличаются друг от друга) у различных единиц совокупности в один и тот же период или момент времени. Например, варьируется рост людей, их заработная плата т.п.

Причиной вариации являются разные условия существования разных единиц совокупности. Например, огромное число причин влияет на рост человека, его заработную платы и т.д.

Для управления и изучения вариации статистикой разработаны специальные методы исследования вариации, система показателей, с помощью которой вариация измеряется, характеризуются ее свойства.

Первым этапом статистического изучения вариации является построение ряда распределения (или вариационного ряда) – упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Ряд распределения бывает дискретным и интервальным.

Дискретный ряд распределения – это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака Xi и числа единиц совокупности с данным значением признака fi – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака. В следующей таблице приведен пример дискретного ряда распределения:

Вес студента, кг 48 50 53 55 56 59 62 64 68 70 72 77 85 88 Итого
Кол-во студентов, чел. 1 3 2 1 1 2 3 2 2 3 5 2 2 1 30

Интервальный ряд распределения – это таблица, состоящая из двух столбцов (строк) – интервалов варьирующего признака Xi и числа единиц совокупности, попадающих в данный интервал (частот - fi), или долей этого числа в общей численности совокупностей (частостей - di).

Трансформируем дискретный ряд, представленный в таблице выше, в интервальный ряд распределения. Для этого необходимо выбрать оптимальное число групп (интервалов признака) и установить длину (размах) интервала. Поскольку при анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной. Если приходится иметь дело с интервальным рядом распределения с неравными интервалами, то для сопоставимости нужно частоты (f) или частости (d) привести к единице интервала, полученное значение называется плотностью ?, то есть ? = f/h.

Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и, в то же время, закономерность в распределении, а его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, то не проявится закономерность вариации, а если групп будет чрезмерно много, то случайные скачки частот исказят форму распределения.

Чаще всего число групп в ряду распределения определяют по формуле Стерждесса:

Формула стерджесса

где k – число групп (округляемое до ближайшего целого числа); N – численность совокупности.

Из формулы Стерджесса видно, что число групп k – это функция объема данных (N).

Зная число групп, рассчитывают длину (размах) интервала по формуле:

Размах интервала

где Xмax и Xmin — максимальное и минимальное значения в совокупности.

В нашем примере про вес студентов по формуле Стерждесса определим число групп: k = 1 + 3,322lg30 = 1+ 3,322*1,477 = 5,907. Так как число групп не может быть дробным, то необходимо округлить до ближайшего целого числа полученное значение 5,907. Таким образом получим k = 6.

Рассчитаем длину (размах) интервала: h = (88 – 48)/6 = 40/6 = 6,667 (кг).

Теперь построим интервальный ряд студентов по весу с 6 группами с интервалом 6,667 кг.

i 1 2 3 4 5 6 Итого
Вес, кг 48 - 54,667 54,667 - 61,333 61,333 - 68 68 - 74,667 74,667 - 81,333 81,333 - 88 -
Число студентов, чел. 6 4 7 8 2 3 30

Примечание к таблице: единицы совокупности, имеющие значение признака, равное границе интервала (в нашем примере это вес 68 кг), включаются в тот интервал, где это точное значение впервые указывается (то есть в интервал от 61,333 до 68, а в следующий интервал от 68 до 74,667 - не включается).

При изучении вариации применяются такие характеристики ряда распределения, которые описывают количественно его структуру, строение. Такова, например, медиана – величина варьирующего признака, делящая совокупность на две равные по численности части (со значением признака меньше медианы и со значением признака больше медианы).

При рассмотрении дискретного ряда медиана определяется суммированием частот ранжированного ряда до N/2, то есть в нашем примере про студентов - до 30/2 = 15. Значение X, отделающее первые 15 студентов от других 15, может приходиться на конкретное значение X, которое и будет медианой, или между двумя значениями X - тогда медианой будет их полусумма.

В вышеприведенном примере медианным интервалом является 3-ий (от 61,333 до 68), так как накопленная сумма частот f' до него 6+4=10, а вместе с ним - 6+4+7=17, что больше половины всех частот 30/2=15.

В интервальном ряду распределения для нахождения медианы применяется формула:

Медиана

где     X0 - нижняя граница интервала, в котором находится медиана;

h - размах медианного интервала (разность между его верхней и нижней границей);

- накопленная частота в интервале, предшествующем медианному;

fMe – частота в медианном интервале.

Продолжение лекции читайте завтра ;)


Предыдущая лекция - Лекция 6. Средние величины


Перейти к Оглавлению


 
Hosted by uCoz