Критерии пирсона используются для оценки. Проверка гипотезы о нормальном распределении генеральной совокупности по критерию пирсона

В некоторых случаях исследователь не знает заранее, по какому именно закону распределены наблюдаемые значение исследуемого признака. Но у него могут быть достаточно веские причины предполагать, что распределение подчинено тому или иному закону, например, нормальному или равномерному. В этом случае выдвигаются основная и альтернативная статистические гипотезы следующего вида:

    H 0: распределение наблюдаемого признака подчинено закону распределения A ,

    H 1: распределение наблюдаемого признака отличается от A ;

где в качестве A может выступать тот или иной закон распределения: нормальный, равномерный, показательный и т. д.

Проверка гипотезы о предполагаемом законе распределения проводится при помощи так называемых критериев согласия. Имеется несколько критериев согласия. Наиболее универсальным из них является -критерий Пирсона, так как он применим к любому виду распределения.

-Критерий Пирсона

Обычно эмпирические и теоретические частоты различаются. Случайно ли расхождение частот? Критерий Пирсона дает ответ на этот вопрос, правда, как и любой статистический критерий, он не доказывает справедливость гипотезы в строго математическом смысле, а лишь устанавливает на определенном уровне значимости ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема получено статистическое распределение значений признака, где- наблюдаемые значения признака,- соответствующие им частоты:

Суть критерия Пирсона состоит в вычислении критерия по следующей формуле:

где - это число разрядов наблюдаемых значений, а- теоретические частоты соответствующих значений.

Понятно, что чем меньше разности , тем ближе эмпирическое распределение к эмпирическому, поэтому, чем меньше значение критерия, тем с большей достоверностью можно утверждать, что эмпирическое и теоретическое распределение подчинены одному закону.

Алгоритм критерия Пирсона

Алгоритм критерия Пирсона несложен и состоит в выполнении следующих действий:

Итак, единственным нетривиальным действием в этом алгоритме является определение теоретических частот. Они, разумеется, зависят от закона распределения, поэтому - для различных законов определяются по-разному.

Статистический критерий

Правило, по которому гипотеза Я 0 отвергается или принимается, называется статистическим критерием. В названии критерия, как правило, содержится буква, которой обозначается специально составленная характеристика из п. 2 алгоритма проверки статистической гипотезы (см. п. 4.1), рассчитываемая в критерии. В условиях данного алгоритма критерий назывался бы «в -критерий».

При проверке статистических гипотез возможны два типа ошибок:

  • - ошибка первого рода (можно отвергнуть гипотезу Я 0 , когда она на самом деле верна);
  • - ошибка второго рода (можно принять гипотезу Я 0 , когда она на самом деле не верна).

Вероятность а допустить ошибку первого рода называется уровнем значимости критерия.

Если за р обозначить вероятность допустить ошибку второго рода, то (l - р) - вероятность не допустить ошибку второго рода, которая называется мощностью критерия.

Критерий согласия х 2 Пирсона

Существует несколько типов статистических гипотез:

  • - о законе распределения;
  • - однородности выборок;
  • - численных значениях параметров распределения и т.д.

Мы будем рассматривать гипотезу о законе распределения на примере критерия согласия х 2 Пирсона.

Критерием согласия называют статистический критерий проверки нулевой гипотезы о предполагаемом законе неизвестного распределения.

В основе критерия согласия Пирсона лежит сравнение эмпирических (наблюдаемых) и теоретических частот наблюдений, вычисленных в предположении определенного закона распределения. Гипотеза # 0 здесь формулируется так: по исследуемому признаку генеральная совокупность распределена нормально.

Алгоритм проверки статистической гипотезы # 0 для критерия х 1 Пирсона:

  • 1) выдвигаем гипотезу Я 0 - по исследуемому признаку генеральная совокупность распределена нормально;
  • 2) вычисляем выборочную среднюю и выборочное среднее квадратическое отклонение о в;

3) по имеющейся выборке объема п рассчитываем специально составленную характеристику ,

где: я, - эмпирические частоты, - теоретические частоты,

п - объем выборки,

h - величина интервала (разность между двумя соседними вариантами),

Нормализованные значения наблюдаемого признака,

- табличная функция. Также теоретические частоты

могут быть вычислены с помощью стандартной функции MS Excel НОРМРАСП по формуле ;

4) по выборочному распределению определяем критическое значение специально составленной характеристики xl P

5) при гипотеза # 0 отвергается, при гипотеза # 0 принимается.

Пример. Рассмотрим признак X - величину показателей тестирования осужденных в одной из исправительных колоний по некоторой психологической характеристике, представленный в виде вариационного ряда:

На уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности.

1. На основе эмпирического распределения можно выдвинуть гипотезу Н 0 : по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осу-

жденных распределена нормально. Альтернативная гипотеза 1: по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных не распределена нормально.

2. Вычислим числовые выборочные характеристики:

Интервалы

х г щ

х} щ

3. Вычислим специально составленную характеристику j 2 . Для этого в предпоследнем столбце предыдущей таблицы найдем теоретические частоты по формуле , а в последнем столбце

проведем расчет характеристики % 2 . Получаем х 2 = 0,185.

Для наглядности построим полигон эмпирического распределения и нормальную кривую по теоретическим частотам (рис. 6).

Рис. 6.

4. Определим число степеней свободы s : к = 5, т = 2, s = 5-2-1 = 2.

По таблице или с помощью стандартной функции MS Excel «ХИ20БР» для числа степеней свободы 5 = 2 и уровня значимости а = 0,05 найдем критическое значение критерия xl P . =5,99. Для уровня значимости а = 0,01 критическое значение критерия х%. = 9,2.

5. Наблюдаемое значение критерия х =0,185 меньше всех найденных значений Хк Р.-> поэтому гипотеза Я 0 принимается на обоих уровнях значимости. Расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности. Таким образом, по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных распределена нормально.

  • 1. Корячко А.В., Куличенко А.Г. Высшая математика и математические методы в психологии: руководство к практическим занятиям для слушателей психологического факультета. Рязань, 1994.
  • 2. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных: Учеб, пособие. СПб., 2008.
  • 3. Сидоренко Е.В. Методы математической обработки в психологии. СПб., 2010.
  • 4. Сошникова Л.А. и др. Многомерный статистический анализ в экономике: Учеб, пособие для вузов. М., 1999.
  • 5. Суходольский Е.В. Математические методы в психологии. Харьков, 2004.
  • 6. Шмойлова Р.А., Минашкин В.Е., Садовникова Н.А. Практикум по теории статистики: Учеб, пособие. М., 2009.
  • Гмурман В.Е. Теория вероятностей и математическая статистика. С. 465.

Ширина интервала составит:

Xmax - максимальное значение группировочного признака в совокупности.
Xmin - минимальное значение группировочного признака.
Определим границы группы.

Номер группы Нижняя граница Верхняя граница
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Одно и тоже значение признака служит верхней и нижней границами двух смежных (предыдущей и последующей) групп.
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

Результаты группировки оформим в виде таблицы:
Группы № совокупности Частота fi
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

Таблица для расчета показателей.
Группы x i Кол-во, f i x i * f i Накопленная частота, S |x - x ср |*f (x - x ср) 2 *f Частота, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения .
Средняя взвешенная


Мода
Мода - наиболее часто встречающееся значение признака у единиц данной совокупности.

где x 0 – начало модального интервала; h – величина интервала; f 2 –частота, соответствующая модальному интервалу; f 1 – предмодальная частота; f 3 – послемодальная частота.
Выбираем в качестве начала интервала 51.49, так как именно на этот интервал приходится наибольшее количество.

Наиболее часто встречающееся значение ряда – 52.8
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина - больше.
В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода или медиана. Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал 51.49 - 54.32, т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот).


Таким образом, 50% единиц совокупности будут меньше по величине 53.06
Показатели вариации .
Абсолютные показатели вариации .
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 60 - 43 = 17
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.


Каждое значение ряда отличается от другого не более, чем на 2.3
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии.


Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 53.3 не более, чем на 3.21
Оценка среднеквадратического отклонения .

Относительные показатели вариации .
К относительным показателям вариации относят: коэффициент осцилляции, линейный коэффициент вариации, относительное линейное отклонение.
Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.

Поскольку v ≤ 30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Линейный коэффициент вариации или Относительное линейное отклонение - характеризует долю усредненного значения признака абсолютных отклонений от средней величины.

Проверка гипотез о виде распределения .
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где p i - вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей p i применим формулу и таблицу функции Лапласа

где
s = 3.21, x ср = 53.3
Теоретическая (ожидаемая) частота равна n i = np i , где n = 36
Интервалы группировки Наблюдаемая частота n i x 1 = (x i - x ср)/s x 2 = (x i+1 - x ср)/s Ф(x 1) Ф(x 2) Вероятность попадания в i-й интервал, p i = Ф(x 2) - Ф(x 1) Ожидаемая частота, 36p i Слагаемые статистики Пирсона, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: }

Публикации по теме