Составить интервальный вариационный ряд онлайн. Правила построения дискретных и интервальных рядов распределения

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений зачастую не позволяют выделить характерные черты варьирования ее значений. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга.

Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В подобных случаях следует строить интервальный вариационный ряд распределения.

Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называют упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

Для построения интервального ряда необходимо:

  1. определить величину частичных интервалов;
  2. определить ширину интервалов;
  3. установить для каждого интервала его верхнюю и нижнюю границы ;
  4. сгруппировать результаты наблюдении.

1 . Вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке.

Приблизительно число интервалов k можно оценить исходя только из объема выборки n одним из следующих способов:

  • по формуле Стержеса : k = 1 + 3,32·lg n ;
  • с помощью таблицы 1.

Таблица 1

2 . Обычно предпочтительны интервалы одинаковой ширины. Для определения ширины интервалов h вычисляют:

  • размах варьирования R - значений выборки: R = x max - x min ,

где x max и x min - максимальная и минимальная варианты выборки;

  • ширину каждого из интервалов h определяют по следующей формуле: h = R/k .

3 . Нижняя граница первого интервала x h1 выбирается так, чтобы минимальная варианта выборки x min попадала примерно в середину этого интервала: x h1 = x min - 0,5·h .

Промежуточные интервалы получают прибавляя к концу предыдущего интервала длину частичного интервала h :

x hi = x hi-1 +h .

Построение шкалы интервалов на основе вычисления границ интервалов продолжается до тех пор, пока величина x hi удовлетворяет соотношению:

x hi < x max + 0,5·h .

4 . В соответствии со шкалой интервалов производится группирование значений признака - для каждого частичного интервала вычисляется сумма частот n i вариант, попавших в i -й интервал. При этом в интервал включают значения случайной величины, большие или равные нижней границе и меньшие верхней границы интервала.

Полигон и гистограмма

Для наглядности строят различные графики статистического распределения.

По данным дискретного вариационного ряда строят полигон частот или относительных частот.

Полигоном частот x 1 ; n 1 ), (x 2 ; n 2 ), ..., (x k ; n k ). Для построения полигона частот на оси абсцисс откладывают варианты x i , а на оси ординат - соответствующие им частоты n i . Точки (x i ; n i ) соединяют отрезками прямых и получают полигон частот (Рис. 1).

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x 1 ; W 1 ), (x 2 ; W 2 ), ..., (x k ; W k ). Для построения полигона относительных частот на оси абсцисс откладывают варианты x i , а на оси ординат - соответствующие им относительные частоты W i . Точки (x i ; W i ) соединяют отрезками прямых и получают полигон относительных частот.

В случае непрерывного признака целесообразно строить гистограмму .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению n i / h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии n i / h .

Лабораторная работа №1. Первичная обработка статистических данных

Построение рядов распределения

Упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку называется рядом распределения . При этом признак может быть как количественным, тогда ряд называется вариационным , так и качественным, тогда ряд называют атрибутивным . Так, например, население города может быть распределено по возрастным группам в вариационный ряд, или по профессиональной принадлежности в атрибутивный ряд (конечно, можно предложить еще множество качественных и количественных признаков для построения рядов распределения, выбор признака определяется задачей статистического исследования).

Любой ряд распределения характеризуется двумя элементами:

- варианта (х i ) – это отдельные значения признака единиц выборочной совокупности. Для вариационного ряда варианта принимает числовые значения, для атрибутивного – качественные (например, х=«государственный служащий»);

- частота (n i ) – число, показывающее, сколько раз встречается то или иное значение признака. Если частота выражена относительным числом (т.е. долей элементов совокупности, соответствующих данному значению варианты, в общем объеме совокупности), то она называется относительной частотой или частостью .

Вариационный ряд может быть:

- дискретным , когда изучаемый признак характеризуется определенным числом (как правило целым).

- интервальным , когда определены границы «от» и «до» для непрерывно варьируемого признака. Интервальный ряд также строят если множество значений дискретно варьируемого признака велико.

Интервальный ряд может строиться как с интервалами равной длины (равноинтервальный ряд) так и с неодинаковыми интервалами, если это диктуется условиями статистического исследования. Например, может рассматриваться ряд распределения доходов населения со следующими интервалами: <5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



где k – число интервалов, n – объем выборки. (Конечно, формула обычно дает число дробное, а в качестве числа интервалов выбирается ближайшее целое к полученному число.) Длина интервала в таком случае определяется по формуле

.

Графически вариационные ряды могут быть представлены в виде гистограммы (над каждым интервалом интервального ряда выстраивается «столбик» высоты, соответствующей частоте в этом интервале), полигона распределения (ломаная линия, соединяющая точки (х i ;n i ) либо кумуляты (строится по накопленным частотам, т.е. для каждого значения признака берется частота появления в совокупности объектов со значением признака меньшим данного).

При работе в Excel для построения вариационных рядов могут быть использованы следующие функции:

СЧЁТ(массив данных ) – для определения объема выборки. Аргументом является диапазон ячеек, в котором находятся выборочные данные.

СЧЁТЕСЛИ(диапазон; критерий ) – может быть использована для построения атрибутивного или вариационного ряда. Аргументами являются диапазон массива выборочных значений признака и критерий – числовое или текстовое значение признака или номер ячейки, в которой оно находится. Результатом является частота появления этого значения в выборке.

ЧАСТОТА(массив данных; массив интервалов ) – для построение вариационного ряда. Аргументами являются диапазон массива выборочных данных и столбец интервалов. Если требуется построить дискретный ряд, то здесь указываются значения варианты, если интервальный – то верхние границы интервалов (их еще называют «карманами»). Поскольку результатом является столбец частот, введение функции следует завершить нажатием сочетания клавиш CTRL+SHIFT+ENTER. Заметим, что задавая массив интервалов при введении функции, последнее значение в нем можно и не указывать – в соответствующий «карман» будут помещены все значения, не попавшие в предыдущие «карманы». Иногда это помогает избежать ошибки, состоящей в том, что наибольшее выборочное значение не помещается автоматически в последний «карман»

Кроме того, для сложных группировок (по нескольким признакам) используют инструмент «сводные таблицы». Для построения атрибутивных и вариационных рядов их тоже можно использовать, но это излишне усложняет задачу. Также для построения вариационного ряда и гистограммы существует процедура «гистограмма» из надстройки «Пакет анализа» (чтобы использовать надстройки в Excel, их нужно сначала загрузить, по умолчанию они не устанавливаются)

Проиллюстрируем процесс первичной обработки данных на следующих примерах.

Пример 1.1 . имеются данные о количественном составе 60 семей.

Построить вариационный ряд и полигон распределения

Решение .

Откроем таблицы Excel. Введем массив данных в диапазон А1:L5. Если Вы изучаете документ в электронной форме (в формате Word, например), для этого достаточно выделить таблицу с данными и скопировать ее в буфер, затем выделить ячейку А1 и вставить данные – они автоматически займут подходящий диапазон. Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1:L5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить. Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1:L5), и в ячейку В9: =МАКС(А1:L5).

Рис.1.1 Пример 1. Первичная обработка статистических данных в таблицах Excel

Далее, подготовим таблицу для построения вариационного ряда, введя названия для столбца интервалов (значений варианты) и столбца частот. В столбец интервалов введем значения признака от минимального (1) до максимального (6), заняв диапазон В12:В17. Выделим столбец частот, введем формулу =ЧАСТОТА(А1:L5;В12:В17) и нажмем сочетание клавиш CTRL+SHIFT+ENTER

Рис.1.2 Пример 1. Построение вариационного ряда

Для контроля вычислим сумму частот при помощи функции СУММ (значок функции S в группе «Редактирование» на вкладке «Главная»), вычисленная сумма должна совпасть с ранее вычисленным объемом выборки в ячейке В7.

Теперь построим полигон: выделив полученный диапазон частот, выберем команду «График» на вкладке «Вставка». По умолчанию значениями на горизонтальной оси будут порядковые числа - в нашем случае от 1 до 6, что совпадает со значениями варианты (номерами тарифных разрядов).

Название ряда диаграммы «ряд 1» можно либо изменить, воспользовавшись той же опцией «выбрать данные» вкладки «Конструктор», либо просто удалить.

Рис.1.3. Пример 1. Построение полигона частот

Пример 1.2 . Имеются данные о выбросах загрязняющих веществ из 50 источников:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Составить равноинтервальный ряд, построить гистограмму

Решение

Внесем массив данных в лист Excel, он займет диапазон А1:J5 Как и в предыдущей задаче, определим объем выборки n, минимальное и максимальное значения в выборке. Поскольку теперь требуется не дискретный, а интервальный ряд, и число интервалов в задаче не задано, вычислим число интервалов k по формуле Стерджесса. Для этого в ячейку В10 введем формулу =1+3,322*LOG10(B7).

Рис.1.4. Пример 2. Построение равноинтервального ряда

Полученное значение не является целым, оно равно примерно 6,64. Поскольку при k=7 длина интервалов будет выражаться целым числом (в отличие от случая k=6) выберем k=7, введя это значение в ячейку С10. Длину интервала d вычислим в ячейке В11, введя формулу =(В9-В8)/С10.

Зададим массив интервалов, указывая для каждого из 7 интервалов верхнюю границу. Для этого в ячейке Е8 вычислим верхнюю границу первого интервала, введя формулу =B8+B11; в ячейке Е9 верхнюю границу второго интервала, введя формулу =E8+B11. Для вычисления оставшихся значений верхних границ интервалов зафиксируем номер ячейки В11 в введенной формуле при помощи знака $, так что формула в ячейке Е9 примет вид =E8+B$11, и скопируем содержимое ячейки Е9 в ячейки Е10-Е14. Последнее полученное значение равно вычисленному ранее в ячейке В9 максимальному значению в выборке.

Рис.1.5. Пример 2. Построение равноинтервального ряда


Теперь заполним массив «карманов» при помощи функции ЧАСТОТА, как это было сделано в примере 1.

Рис.1.6. Пример 2. Построение равноинтервального ряда

По полученному вариационном ряду построим гистограмму: выделим столбец частот и выберем на вкладке «Вставка» «Гистограмма». Получив гистограмму, изменим в ней подписи горизонтальной оси на значения в диапазоне интервалов, для этого выберем опцию «Выбрать данные» вкладки «Конструктор». В появившемся окне выберем команду «Изменить» для раздела «Подписи горизонтальной оси» и введем диапазон значений варианты, выделив его «мышью».

Рис.1.7. Пример 2. Построение гистограммы

Рис.1.8. Пример 2. Построение гистограммы

Практическое занятие 1

ВАРИАЦИОННЫЕ РЯДЫ РАСПРЕДЕЛЕНИЯ

Вариационным рядом или рядом распределения называют упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существует 3 вида ряда распределения:

1) ранжированный ряд – это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака; если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (если признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае – интервальный ряд);

2) дискретный ряд – это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака X i и числа единиц совокупности с данным значением признака f i – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;

3) интервальный ряд – это таблица, состоящая из двух столбцов (строк) – интервалов варьирующего признака X i и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).

Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами или весами вариант и обозначаются строчной буквой латинского алфавита f . Общая сумма частот вариационного ряда равна объему данной совокупности, т. е.

где k – число групп, n – общее число наблюдений, или объем совокупности.

Частоты (веса) выражают не только абсолютными, но и от­носительными числами – в долях единицы или в процентах от общей численности вариант, составляющих данную совокуп­ность. В таких случаях веса называют относительными частотами или частостями. Общая сумма частностей равна единице

или
,

если частоты выражены в про­центах от общего числа наблюдений п. Замена частот частостями не обязательна, но иногда оказывается полезной и даже необхо­димой в тех случаях, когда приходится сопоставлять друг с дру­гом вариационные ряды, сильно отличающиеся по их объемам.

В зависимости от того, как варьирует признак – дискретно или непрерывно, в широком или узком диапазоне, – статистиче­ская совокупность распределяется в безынтервальный или интер­вальный вариационные ряды. В первом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариаци­онного ряда, во втором – подсчитывают частоты, относящиеся к отдельным промежуткам или интервалам (от – до), на которые разбивается общая вариация признака в пределах от минималь­ной до максимальной варианты данной совокупности. Эти проме­жутки, или классовые интервалы, могут быть равными и не рав­ными по ширине. Отсюда различают равно- и неравноинтервальные вариационные ряды. В неравноинтервальных рядах характер распределения час­тот меняется по мере изменения ширины классовых интервалов. Неравноинтервальную группировку в биологии применяют сравнительно редко. Как правило, биометрические данные рас­пределяются в равноинтервальные ряды, что позволяет не только выявлять закономерность варьирования, но и облегчает вычисле­ние сводных числовых характеристик вариационного ряда, сопо­ставление рядов распределения друг с другом.

Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка (когда устанавливают очень широкие классовые интервалы) искажает типичные черты варьи­рования и ведет к снижению точности числовых характеристик ряда. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.

Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требо­ваниям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построе­нии вариационного ряда:

,

где h – величина интервала; X м a x и X min – максимальное и минимальное значения в совокупности; k – число групп.

При построении интервального ряда распределения необходимо выбирать оптимальное число групп (интервалов признака) и установливать длину (размах) интервала. Поскольку при анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной. Если приходится иметь дело с интервальным рядом распределения с неравными интервалами, то для сопоставимости нужно частоты или частости привести к единице интервала, полученное значение называется плотностью ρ , то есть
.

Оптимальное число групп выбирается так, чтобы достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.

Чаще всего число групп в ряду распределения определяют по формуле Стерждесса:

где n – численность совокупности.

Существенную помощь в анализе ряда распределения и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс, – это интервалы значений варьирующего признака, а высоты столбиков – частоты, соответствующие масштабу по оси ординат. Диаграмма такого типа называется гистограммой.

Если имеется дискретный ряд распределения или используются середины интервалов, то графическое изображение такого ряда называется полигоном , которое получается соединением прямыми точек с координатами X i и f i .

Если по оси абсцисс откладывать значения классов, а по оси ординат – накопленные частоты с последующим соединени­ем точек прямыми линиями, получается график, называемый кумулятой. Накопленные частоты находят последо­вательным суммированием, или кумуляцией частот в направлении от первого класса до конца вариационного ряда.

Пример . Имеются данные о яйценоскости 50 кур-несушек за 1 год, содер­жащихся на птицеферме (табл. 1.1).

Т а б л и ц а 1.1

Яйценоскость кур-несушек

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

№ курицы-несушки

Яйценоскость, шт.

Требуется построить интервальный ряд распределения и отобразить его графически в виде гистограммы, полигона и кумуляты.

Видно, что признак варь­ирует от 212 до 245 яиц, полученных от несушки за 1 год.

В нашем примере по формуле Стерждесса определим число групп:

k = 1 + 3,322lg 50 = 6,643 ≈ 7.

Рассчитаем длину (размах) интервала по формуле:

.

Построим интервальный ряд с 7 группами и интервалом 5 шт. яиц (табл. 1.2). Для построения графиков в таблице рассчитаем середину интервалов и накопленную частоту.

Т а б л и ц а 1.2

Интервальный ряд распределения яйценоскости

Группа кур-несушек по величине яйценоскости

X i

Число кур-несушек

f i

Середина интервала

Х i ’

Накопленная частота

f i

Построим гистограмму распределения яйценоскости (рис. 1.1).

Р и с. 1.1. Гистограмма распределения яйценоскости

Данные гистограммы показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже – крайние (малые и большие) значения признака. Форма этого распределения близка к нормальному закону распределения, которое образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего значения.

Полигон и кумулята распределения яйценоскости имеют вид (рис. 1.2 и 1.3).

Р и с. 1.2. Полигон распределения яйценоскости

Р и с. 1.3. Кумулята распределения яйценоскости

Технология решения задачи в табличном процессоре Microsoft Excel следующая.

1. Введите исходные данные в соответствии с рис. 1.4.

2. Ранжируйте ряд.

2.1. Выделите ячейки А2:А51.

2.2. Щелкните левой кнопкой мыши на панели инструментов на кнопке <Сортировка по возрастанию > .

3. Определите величину интервала для построения интервального ряд распределения.

3.1. Скопируйте ячейку А2 в ячейку Е53.

3.2. Скопируйте ячейку А51 в ячейку Е54.

3.3. Рассчитайте размах вариации. Для этого введите в ячейку Е55 формулу =E54-E53 .

3.4. Рассчитайте число групп вариации. Для этого введите в ячейку Е56 формулу =1+3,322*LOG10(50) .

3.5. Введите в ячейку Е57 округленное число групп.

3.6. Рассчитайте длину интервала. Для этого введите в ячейку Е58 формулу =E55/E57 .

3.7. Введите в ячейку Е59 округленную длину интервала.

4. Постройте интервальный ряд.

4.1. Скопируйте ячейку Е53 в ячейку В64.

4.2. Введите в ячейку В65 формулу =B64+$E$59 .

4.3. Скопируйте ячейку В65 в ячейки В66:В70.

4.4. Введите в ячейку С64 формулу =B65 .

4.5. Введите в ячейку С65 формулу =C64+$E$59 .

4.6. Скопируйте ячейку С65 в ячейки С66:С70.

Результаты решения выводятся на экран дисплея в следующем виде (рис. 1.5).

5. Рассчитайте частоту интервалов.

5.1. Выполните команду Сервис , Анализ данных , щелкнув поочередно левой кнопкой мыши.

5.2. В диалоговом окне Анализ данных с помощью левой кнопки мыши установите: Инструменты анализа  <Гистограмма> (рис. 1.6).

5.3. Щелкните левой кнопкой мыши на кнопке <ОК>.

5.4. На вкладке Гистограмма установите параметры в соответствии с рис. 1.7.

5.5. Щелкните левой кнопкой мыши на кнопке <ОК>.

Результаты решения выводятся на экран дисплея в следующем виде (рис. 1.8).

6. Заполните таблицу «Интервальный ряд распределения».

6.1. Скопируйте ячейки В74:В80 в ячейки D64:D70.

6.2. Рассчитайте сумму частот. Для этого выделите ячейки D64:D70 и щелкните левой кнопкой мыши на панели инструментов на кнопке <Автосумма > .

6.3. Рассчитайте середину интервалов. Для этого введете в ячейку Е64 формулу =(B64+C64)/2 и скопируйте в ячейки Е65:Е70.

6.4. Рассчитайте накопленные частоты. Для этого скопируйте ячейку D64 в ячейку F64. В ячейку F65 введите формулу =F64+D65 и скопируйте в ячейки F66:F70.

Результаты решения выводятся на экран дисплея в следующем виде (рис. 1.9).

7. Отредактируйте гистограмму.

7.1. Щелкните правой кнопкой мыши на диаграмме на названии «карман» и на появившейся вкладке нажмите кнопку <Очистить>.

7.2. Щелкните правой кнопкой мыши на диаграмме и на появившейся вкладке нажмите кнопку <Исходные данные>.

7.3. В диалоговом окне Исходные данные измените подписи оси Х. Для этого выделите ячейки В64:С70 (рис. 1.10).

7.5. Нажмите клавишу .

Результаты выводятся на экран дисплея в следующем виде (рис. 1.11).

8. Постройте полигон распределения яйценоскости.

8.1. Щелкните левой кнопкой мыши на панели инструментов на кнопке <Мастер диаграмм > .

8.2. В диалоговом окне Мастер диаграмм (шаг 1 из 4) с помощью левой кнопки мыши установите: Стандартные  <График> (рис. 1.12).

8.3. Щелкните левой кнопкой мыши на кнопке <Далее>.

8.4. В диалоговом окне Мастер диаграмм (шаг 2 из 4) установите параметры в соответствии с рис. 1.13.

8.5. Щелкните левой кнопкой мыши на кнопке <Далее>.

8.6. В диалоговом окне Мастер диаграмм (шаг 3 из 4) введите названия диаграммы и ос Y (рис. 1.14).

8.7. Щелкните левой кнопкой мыши на кнопке <Далее>.

8.8. В диалоговом окне Мастер диаграмм (шаг 4 из 4) установите параметры в соответствии с рис. 1.15.

8.9. Щелкните левой кнопкой мыши на кнопке <Готово>.

Результаты выводятся на экран дисплея в следующем виде (рис. 1.16).

9. Вставьте на графике подписи данных.

9.1. Щелкните правой кнопкой мыши на диаграмме и на появившейся вкладке нажмите кнопку <Исходные данные>.

9.2. В диалоговом окне Исходные данные измените подписи оси Х. Для этого выделите ячейки Е64:Е70 (рис. 1.17).

9.3. Нажмите клавишу .

Результаты выводятся на экран дисплея в следующем виде (рис. 1.18).

Кумулята распределения строится аналогично полигону распределения на основе накопленных частот.

Условие:

Имеются данные о возрастном составе рабочих (лет): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28, 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Построить интервальный ряд распределения.
    2. Построить графическое изображение ряда.
    3. Графически определить моду и медиану.

Решение:

1) По формуле Стерджесса совокупность надо разделить на 1 + 3,322 lg 30 = 6 групп.

Максимальный возраст - 38, минимальный - 18.

Ширина интервала Так как концы интервалов должны быть целыми числами, разделим совокупность на 5 групп. Ширина интервала - 4.

Для облегчения подсчетов расположим данные в порядке возрастания: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Распределение возрастного состава рабочих

Графически ряд можно изобразить в виде гистограммы или полигона. Гистограмма - столбиковая диаграмма. Основание столбика - ширина интервала. Высота столбика равна частоте.

Полигон (или многоугольник распределения) - график частот. Чтобы его построить по гистограмме, соединяем середины верхних сторон прямоугольников. Многоугольник замыкаем на оси Ох на расстояниях, равных половине интервала от крайних значений х.

Мода (Мо) - это величина изучаемого признака, которая в данной совокупности встречается наиболее часто.

Чтобы определить моду по гистограмме, надо выбрать самый высокий прямоугольник, провести линию от правой вершины этого прямоугольника к правому верхнему углу предыдущего прямоугольника, и от левой вершины модального прямоугольника провести линию к левой вершине последующего прямоугольника. От точки пересечения этих линий провести перпендикуляр к оси х. Абсцисса и будет модой. Мо ≈ 27,5. Значит, наиболее часто встречаемый возраст в данной совокупности 27-28 лет.

Медиана (Mе) - это величина изучаемого признака, которая находится в середине упорядоченного вариационного ряда.

Медиану находим по кумуляте. Кумулята - график накопленных частот. Абсциссы - варианты ряда. Ординаты - накопленные частоты.

Для определения медианы по кумуляте находим по оси ординат точку, соответствующую 50% накопленных частот (в нашем случае 15), проводим через неё прямую, параллельно оси Ох, и от точки её пересечения с кумулятой проводим перпендикуляр к оси х. Абсцисса является медианой. Ме ≈ 25,9. Это означает, что половина рабочих в данной совокупности имеет возраст менее 26 лет.

При обработке больших массивов информации, что особенно актуально при проведении современных научных разработок, перед исследователем стоит серьезная задача правильной группировки исходных данных. Если данные имеют дискретный характер, то проблем, как мы видели, не возникает – необходимо просто подсчитать частотукаждого признака. Если же исследуемый признак имеет непрерывный характер (что имеет большее распространение на практике), то выбор оптимального числа интервалов группировки признака является отнюдь не тривиальной задачей.

Для группировки непрерывных случайных величин весь вариационный размах признакаразбивают на некоторое количество интервалов к.

Сгруппированным интервальным (непрерывным ) вариационным рядом называют ранжированные по значению признака интервалы (), гдеуказанные вместе с соответствующими частотами () числа наблюдений, попавших в г"-й интервал, или относительными частотами ():

Интервалы значений признака

Частота mi

Гистограмма и кумулята {огива), уже подробно рассмотренные нами, являются прекрасным средством визуализации данных, позволяющим получить первичное представление о структуре данных. Такие графики (рис. 1.15) строятся для непрерывных данных так же, как и для дискретных, только с учетом того, что непрерывные данные сплошь заполняют область своих возможных значений, принимая любые значения.

Рис. 1.15.

Поэтому столбцы на гистограмме и кумуляте должны соприкасаться, не иметь участков, куда не попадают значения признака в пределах всех возможных (т.е. гистограмма и кумулята не должны иметь "дырок" по оси абсцисс, в которые не попадают значения изучаемой переменной, как на рис. 1.16). Высота столбика соответствует частоте– числу наблюдений, попавших в данный интервал, или относительной частоте– доле наблюдений. Интервалы не должны пересекаться и имеют, как правило, одинаковую ширину.

Рис. 1.16.

Гистограмма и полигон являются аппроксимациями кривой плотности вероятности (дифференциальной функции) f(x) теоретического распределения, рассматриваемой в курсе теории вероятностей . Поэтому их построение имеет такое важное значение при первичной статистической обработке количественных непрерывных данных – по их виду можно судить о гипотетическом законе распределения.

Кумулята – кривая накопленных частот (частостей) интервального вариационного ряда. С кумулятой сопоставляется график интегральной функции распределения F(x) , также рассматриваемой в курсе теории вероятностей.

В основном понятия гистограммы и кумуляты связывают именно с непрерывными данными и их интервальными вариационными рядами, так как их графики являются эмпирическими оценками функции плотности вероятности и функции распределения соответственно.

Построение интервального вариационного ряда начинают с определения числа интервалов k. И эта задача, пожалуй, является самой сложной, важной и неоднозначной в изучаемом вопросе.

Число интервалов не должно быть слишком малым, так как при этом гистограмма получается слишком сглаженной (oversmoothed), теряет все особенности изменчивости исходных данных – на рис. 1.17 можно увидеть, как те же данные, по которым построены графики рис. 1.15, использованы для построения гистограммы с меньшим числом интервалов (левый график).

В то же время число интервалов не должно быть слишком велико – иначе мы не сможем оценить плотность распределения изучаемых данных по числовой оси: гистограмма получится недосглажепная (undersmoothed), с незаполненными интервалами, неравномерная (см. рис. 1.17, правый график).

Рис. 1.17.

Как же определить наиболее предпочтительное число интервалов?

Еще в 1926 г. Герберт Стерджес (Herbert Sturges) предложил формулу для вычисления количества интервалов, на которые необходимо разбить исходное множество значений изучаемого признака . Эта формула поистине стала сверхпопулярной – большинство статистических учебников предлагают именно ее, по умолчанию ее используют и множество статистических пакетов. Насколько это оправдано и во всех ли случаях – является весьма серьезным вопросом.

Итак, на чем основана формула Стерджеса?

Рассмотрим биномиальное распределение }

Публикации по теме