הקריטריונים של פירסון משמשים להערכה. בדיקת ההשערה לגבי ההתפלגות הנורמלית של האוכלוסייה הכללית לפי קריטריון פירסון

במקרים מסוימים, החוקר אינו יודע מראש לפי איזה חוק מופצים הערכים הנצפים של התכונה הנחקרת. אבל אולי יהיו לו סיבות מספיק טובות להניח שהחלוקה כפופה לחוק כזה או אחר, למשל רגיל או אחיד. במקרה זה, מובאות ההשערות הסטטיסטיות העיקריות והחלופיות של הצורה הבאה:

    ח 0: התפלגות התכונה הנצפית כפופה לחוק ההפצה א,

    ח 1: התפלגות התכונה הנצפית שונה מ א;

ואילו אחוק הפצה כזה או אחר יכול לפעול: רגיל, אחיד, אקספוננציאלי וכו'.

בדיקת ההשערה לגבי חוק ההפצה המוצע מתבצעת תוך שימוש בקריטריונים שנקראים התאמה טובה. ישנם מספר קריטריוני קבלה. האוניברסלי שבהם הוא הקריטריון של פירסון, שכן הוא ישים לכל סוג של הפצה.

-הקריטריון של פירסון

בדרך כלל תדרים אמפיריים ותיאורטיים שונים. האם הפער אקראי? קריטריון פירסון עונה על שאלה זו, אולם, כמו כל קריטריון סטטיסטי, הוא אינו מוכיח את תקפות ההשערה במובן מתמטי למהדרין, אלא רק מבסס את הסכמתה או אי הסכמתה לנתוני התצפית ברמת מובהקות מסוימת.

אז אפשר לקבל את ההתפלגות הסטטיסטית של ערכי תכונה ממדגם הנפח, היכן הם ערכי התכונה שנצפו, הם התדרים המתאימים:

המהות של קריטריון פירסון היא לחשב את הקריטריון לפי הנוסחה הבאה:

היכן הוא מספר הספרות של הערכים הנצפים, והן התדרים התיאורטיים של הערכים המתאימים.

ברור שככל שההבדל קטן יותר, ככל שההתפלגות האמפירית קרובה יותר לזו האמפירית, לכן, ככל שערך הקריטריון קטן יותר, כך ניתן לטעון בצורה מהימנה יותר שההתפלגות האמפירית והתיאורטית כפופות לאותו חוק.

אלגוריתם הקריטריון של פירסון

אלגוריתם קריטריון פירסון הוא פשוט ומורכב מהשלבים הבאים:

אז, הפעולה הלא טריוויאלית היחידה באלגוריתם זה היא קביעת התדרים התיאורטיים. הם, כמובן, תלויים בחוק ההפצה, לכן - שכן חוקים שונים מוגדרים בצורה שונה.

מבחן סטטיסטי

הכלל לפיו נדחית או מתקבלת ההשערה R 0 נקרא קריטריון סטטיסטי.שם הקריטריון, ככלל, מכיל אות, המציינת מאפיין שהורכב במיוחד מסעיף 2 של אלגוריתם בדיקת ההשערה הסטטיסטית (ראה סעיף 4.1), המחושב בקריטריון. בתנאים של אלגוריתם זה, הקריטריון ייקרא -קרִיטֶרִיוֹן".

בעת בדיקת השערות סטטיסטיות, שני סוגי שגיאות אפשריים:

  • - טעות מהסוג הראשון(אתה יכול לדחות את ההשערה I 0 כשהיא באמת נכונה);
  • - שגיאה מסוג II(אתה יכול לקבל את ההשערה I 0 כשהיא בעצם לא נכונה).

הִסתַבְּרוּת אבצע סוג שגיאה אחת נקראת רמת המובהקות של הקריטריון.

אם בשביל רציין את ההסתברות לטעות שגיאה מסוג II, ואז (l - R) -ההסתברות לא לעשות שגיאה מסוג II, אשר נקראת כוחו של הקריטריון.

כושר טוב x 2 פירסון

ישנם מספר סוגים של השערות סטטיסטיות:

  • - על חוק ההפצה;
  • - הומוגניות של דגימות;
  • - ערכים מספריים של פרמטרי הפצה וכו'.

נשקול את ההשערה לגבי חוק ההתפלגות בדוגמה של מבחן ההתאמה של פירסון x 2.

קריטריון קונקורדנציהנקרא מבחן סטטיסטי לבדיקת השערת האפס לגבי החוק לכאורה של ההתפלגות הבלתי ידועה.

מבחן ההתאמה של פירסון מבוסס על השוואה של תדירויות אמפיריות (נצפות) ותיאורטיות של תצפיות המחושבות בהנחה של חוק הפצה מסוים. השערה מס' 0 כאן מנוסחת באופן הבא: האוכלוסייה הכללית מתחלקת בדרך כלל לפי הקריטריון הנבדק.

אלגוריתם מס' 0 לבדיקת השערות סטטיסטיות עבור קריטריונים x 1פירסון:

  • 1) אנו מציגים את ההשערה R 0 - לפי הקריטריון הנבדק, האוכלוסייה הכללית מתפלגת בצורה נורמלית;
  • 2) חשב את ממוצע המדגם ואת ממוצע המדגם סטיית תקן על אודותב;

3) לפי נפח הדגימה הזמין פאנו מחשבים מאפיין מורכב במיוחד,

איפה: i, - תדרים אמפיריים, - תדרים תיאורטיים,

פ -גודל המדגם,

ח- הערך של המרווח (ההבדל בין שתי אפשרויות סמוכות),

ערכים מנורמלים של התכונה הנצפית,

- פונקציית טבלה. גם תדרים תיאורטיים

ניתן לחשב באמצעות הפונקציה הסטנדרטית של MS Excel NORMDIST לפי הנוסחה;

4) על פי התפלגות הדגימה, אנו קובעים את הערך הקריטי של מאפיין שהורכב במיוחד XL P

5) כאשר השערה מס' 0 נדחית, כאשר השערה מס' 0 מתקבלת.

דוגמא.קחו בחשבון את השלט איקס- הערך של אינדיקטורים לבדיקת מורשעים באחת ממושבות התיקון עבור חלקם מאפיינים פסיכולוגיים, המוצגת כסדרת וריאציות:

ברמת מובהקות של 0.05, בדוק את ההשערה של התפלגות נורמלית אוּכְלוֹסִיָה.

1. בהתבסס על ההתפלגות האמפירית, ניתן להעלות השערה H 0: על פי הקריטריון הנבדק "ערכו של מדד המבחן עבור מאפיין פסיכולוגי נתון", האוכלוסייה הכללית

מספר הילדים מתחלק נורמלי. השערה חלופית 1: על פי התכונה הנחקרת "ערך אינדיקטור המבחן למאפיין פסיכולוגי זה", אוכלוסיית הנידונים הכללית אינה מתפלגת בצורה נורמלית.

2. חשב מאפייני מדגם מספריים:

מרווחים

x y y

איקס) sch

3. חשב מאפיין מורכב במיוחד j 2 . לשם כך, בעמודה הלפני אחרונה בטבלה הקודמת, אנו מוצאים את התדרים התיאורטיים באמצעות הנוסחה, ובעמודה האחרונה.

בוא נחשב את המאפיין % 2 . אנחנו מקבלים x 2 = 0,185.

לשם הבהירות, נבנה מצולע של ההתפלגות האמפירית ועקומה נורמלית לפי תדרים תיאורטיים (איור 6).

אורז. 6.

4. קבעו את מספר דרגות החופש ס: k = 5, t = 2, s = 5-2-1 = 2.

לפי הטבלה או באמצעות פונקציית MS Excel הסטנדרטית "XI20BR" עבור מספר דרגות החופש 5 = 2 ורמת המובהקות א = 0,05 למצוא את הקריטיערך קריטריון xl P .=5,99. לרמת המשמעות א= 0.01 ערך קריטי של הקריטריון איקס%. = 9,2.

5. הערך הנצפה של הקריטריון איקס=0.185 פחות מכל הערכים שנמצאו Hc R.->לכן, ההשערה R 0 מקובלת בשתי רמות המובהקות. הפער בין התדרים האמפיריים לתדרים התיאורטיים אינו משמעותי. לכן, הנתונים התצפיתיים תואמים את ההשערה של התפלגות אוכלוסיה נורמלית. לפיכך, על פי התכונה הנחקרת "ערכו של מדד המבחן למאפיין פסיכולוגי זה", אוכלוסיית המורשעים הכללית מתחלקת באופן נורמלי.

  • 1. Koryachko A.V., Kulichenko A.G. מתמטיקה גבוהה יותרושיטות מתמטיות בפסיכולוגיה: מדריך ל הכשרה מעשיתלסטודנטים מהפקולטה לפסיכולוגיה. ריאזאן, 1994.
  • 2. נאסלדוב א.ד. שיטות מתמטיותמחקר פסיכולוגי. ניתוח ופרשנות נתונים: ספר לימוד, מדריך. SPb., 2008.
  • 3. סידורנקו E.V. שיטות עיבוד מתמטי בפסיכולוגיה. SPb., 2010.
  • 4. סושניקובה ל.א. ואחרים ניתוח סטטיסטי רב משתני במשק: ספר לימוד, מדריך לאוניברסיטאות. מ', 1999.
  • 5. Sukhodolsky E.V. שיטות מתמטיות בפסיכולוגיה. חרקוב, 2004.
  • 6. שמוילובה R.A., Minashkin V.E., Sadovnikova N.A. סדנה בנושא תורת הסטטיסטיקה: ספר לימוד, מדריך. מ', 2009.
  • גמורמן V.E. תורת ההסתברות וסטטיסטיקה מתמטית. ס' 465.

רוחב המרווח יהיה:

Xmax - הערך המקסימלי של תכונת הקיבוץ במצטבר.
Xmin - הערך המינימלי של תכונת הקיבוץ.
בואו נגדיר את גבולות הקבוצה.

מספר קבוצהשורה תחתונהגבול עליון
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

אותו ערך תכונה משמש כגבול העליון והתחתון של שתי קבוצות סמוכות (קודמות ואחרות).
עבור כל ערך של הסדרה, אנו מחשבים כמה פעמים הוא נופל למרווח מסוים. כדי לעשות זאת, מיין את הסדרה בסדר עולה.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

תוצאות הקיבוץ יוצגו בצורה של טבלה:
קבוצותמספר אוכלוסייהתדר ו אני
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

טבלה לחישוב אינדיקטורים.
קבוצותx iכמות, פיx i * f iתדירות מצטברת, S|x - x cf |*f(x - x sr) 2 *fתדירות, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

כדי להעריך את סדרת ההפצה, אנו מוצאים את האינדיקטורים הבאים:
מדדי מרכז ההפצה.
ממוצע משוקלל


אופנה
מצב הוא הערך הנפוץ ביותר של תכונה ביחידות של אוכלוסייה נתונה.

כאשר x 0 הוא תחילת המרווח המודאלי; h הוא הערך של המרווח; f 2 -תדר המקביל למרווח המודאלי; f 1 - תדר פרה-מודאלי; f 3 - תדירות פוסט-מודאלית.
אנו בוחרים 51.49 כתחילת המרווח, מכיוון שמרווח זה מהווה את המספר הגדול ביותר.

הערך הנפוץ ביותר של הסדרה הוא 52.8
חֲצִיוֹן
החציון מחלק את המדגם לשני חלקים: חצי מהאופציה פחות מהחציון, חצי יותר.
בְּ סדרת מרווחיםהפצה, אתה יכול מיד לציין רק את המרווח שבו ימוקמו המצב או החציון. החציון מתאים לאפשרות באמצע הטווח. החציון הוא המרווח 51.49 - 54.32, כי במרווח זה, התדר המצטבר S גדול מהמספר החציוני (המרווח הראשון נקרא חציון, שהתדר המצטבר שלו S עולה על מחצית מסך התדרים).


כך, 50% מיחידות האוכלוסייה יהיו פחות מ-53.06
מדדי וריאציה.
שיעורי וריאציה מוחלטים.
טווח השונות הוא ההבדל בין ערכי המקסימום והמינימום של התכונה של הסדרה הראשית.
R = X מקסימום - X דקות
R = 60 - 43 = 17
סטייה ליניארית ממוצעת- מחושב על מנת לקחת בחשבון את ההבדלים של כל יחידות האוכלוסייה הנחקרת.


כל ערך של הסדרה שונה מהשני ב-2.3 לכל היותר
פְּזִירָה- מאפיין את מידת ההתפשטות סביב ערכו הממוצע (מדד פיזור, כלומר סטייה מהממוצע).


אומדן השונות ללא פניותהוא אומדן עקבי של השונות.


סטיית תקן.

כל ערך של הסדרה נבדל מהערך הממוצע של 53.3 בלא יותר מ-3.21
הערכת סטיית התקן.

מדדים יחסיים של שונות.
האינדיקטורים היחסיים לשונות כוללים: מקדם תנודה, מקדם ליניאריוריאציות, סטייה ליניארית יחסית.
מקדם השונות- מדד לפיזור היחסי של ערכי אוכלוסיה: מראה מהו חלק מהערך הממוצע של כמות זו לפיזור הממוצע שלה.

מכיוון v ≤ 30%, האוכלוסייה הומוגנית והשונות חלשה. ניתן לסמוך על התוצאות שהתקבלו.
מקדם וריאציה ליניאריאוֹ סטייה ליניארית יחסית- מאפיין את הפרופורציה של הערך הממוצע של סימן הסטיות המוחלטות מהערך הממוצע.

בדיקת השערות לגבי סוג ההתפלגות.
1. בוא נבדוק את ההשערה ש-X מתחלק מעל חוק רגילבאמצעות מבחן הכושר של פירסון.

כאשר p i היא ההסתברות לפגיעה מרווח i-th משתנה רנדומלי, מופץ לפי החוק ההיפותטי
כדי לחשב את ההסתברויות p i, אנו מיישמים את הנוסחה ואת הטבלה של פונקציית Laplace

איפה
s = 3.21, xav = 53.3
התדר התיאורטי (הצפוי) הוא n i = np i, כאשר n = 36
מרווחי קבוצותתדירות נצפית n ix 1 \u003d (x i - x cf) / sx 2 \u003d (x i + 1 - x cf) / sФ(x 1)Ф(x 2)הסתברות לפגוע במרווח ה-i, p i \u003d Ф (x 2) - Ф (x 1)תדר צפוי, 36p iתנאי הסטטיסטיקה של פירסון, קי
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

הבה נגדיר את הגבול של האזור הקריטי. מכיוון שהסטטיסטיקה של פירסון מודדת את ההבדל בין ההתפלגות האמפירית לתיאורטית, ככל שהערך הנצפה של K obs גדול יותר, כך הטיעון נגד ההשערה העיקרית חזק יותר.
לכן, האזור הקריטי לנתון זה הוא תמיד ימני :)

פרסומים קשורים

  • מהי התמונה r של ברונכיטיס מהי התמונה r של ברונכיטיס

    הוא תהליך דלקתי פרוגרסיבי מפוזר בסימפונות, המוביל למבנה מחדש מורפולוגי של דופן הסימפונות ו...

  • תיאור קצר של זיהום ב-HIV תיאור קצר של זיהום ב-HIV

    תסמונת הכשל החיסוני האנושי - איידס, זיהום בנגיף הכשל החיסוני האנושי - זיהום ב-HIV; כשל חיסוני נרכש...