Merrni një seri variacione diskrete. Përmbledhja dhe grupimi i statistikave

Grupimi- kjo është ndarja e një popullsie në grupe që janë homogjene sipas disa karakteristikave.

Qëllimi i shërbimit. Duke përdorur kalkulatorin online mund të:

  • ndërtoni një seri variacionesh, të ndërtojë një histogram dhe shumëkëndësh;
  • gjeni treguesit e variacionit (mesatarja, modaliteti (përfshirë grafikisht), mesatarja, diapazoni i variacionit, kuartilët, decilat, koeficienti i diferencimit të kuartilit, koeficienti i variacionit dhe tregues të tjerë);

Udhëzimet. Për të grupuar një seri, duhet të zgjidhni llojin e serisë së variacionit të marrë (diskrete ose interval) dhe të tregoni sasinë e të dhënave (numrin e rreshtave). Zgjidhja që rezulton ruhet në Skedari Word(shih shembullin e grupimit të të dhënave statistikore).

Numri i të dhënave hyrëse
",0);">

Nëse grupimi tashmë është kryer dhe seri variacione diskrete ose seri intervali, atëherë duhet të përdorni kalkulatorin online Indekset e variacionit. Testimi i hipotezës për llojin e shpërndarjes kryhet duke përdorur shërbimin Studimi i formularit të shpërndarjes.

Llojet e grupimeve statistikore

Seritë e variacioneve. Në rast të vëzhgimeve të diskrete ndryshore e rastësishme i njëjti kuptim mund të gjendet disa herë. Vlerat e tilla x i të një ndryshoreje të rastësishme regjistrohen duke treguar n i numrin e herëve që shfaqet në n vëzhgime, kjo është frekuenca e kësaj vlere.
Në rastin e një ndryshoreje të rastësishme të vazhdueshme, grupimi përdoret në praktikë.
  1. Grupimi tipologjik- kjo është ndarja e popullsisë heterogjene cilësore në studim në klasa, lloje socio-ekonomike, grupe homogjene të njësive. Për të ndërtuar këtë grupim, përdorni parametrin e serisë së variacionit diskret.
  2. Një grupim quhet strukturor, në të cilën një popullsi homogjene ndahet në grupe që karakterizojnë strukturën e saj sipas disa karakteristikave të ndryshme. Për të ndërtuar këtë grupim, përdorni parametrin e serisë Interval.
  3. Një grupim që zbulon marrëdhëniet midis dukurive që studiohen dhe karakteristikave të tyre quhet grup analitik(shih grupimin analitik të serive).

Parimet për ndërtimin e grupimeve statistikore

Një seri vëzhgimesh të renditura në rend rritës quhet seri variacionesh. Karakteristika e grupimitështë një karakteristikë me të cilën një popullsi ndahet në grupe të veçanta. Ajo quhet baza e grupit. Grupimi mund të bazohet në karakteristikat sasiore dhe cilësore.
Pas përcaktimit të bazës së grupimit, duhet vendosur çështja e numrit të grupeve në të cilat duhet të ndahet popullsia në studim.

Kur përdorni kompjuterë personalë për të përpunuar të dhëna statistikore, grupimi i njësive të objektit kryhet duke përdorur procedura standarde.
Një procedurë e tillë bazohet në përdorimin e formulës Sturgess për të përcaktuar numrin optimal të grupeve:

k = 1+3,322*log(N)

Ku k është numri i grupeve, N është numri i njësive të popullsisë.

Gjatësia e intervaleve të pjesshme llogaritet si h=(x max -x min)/k

Më pas numërohet numri i vëzhgimeve që bien në këto intervale, të cilat merren si frekuenca n i. Pak frekuenca, vlerat e të cilave janë më pak se 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Vlerat e mesme të intervaleve x i =(c i-1 +c i)/2 merren si vlera të reja.

Kushti:

Ekzistojnë të dhëna për përbërjen e moshës së punëtorëve (vjet): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28. , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Ndërtoni një seri shpërndarjeje intervali.
    2. Ndërtoni imazh grafik rresht.
    3. Përcaktoni grafikisht mënyrën dhe mesataren.

Zgjidhja:

1) Sipas formulës Sturgess, popullsia duhet të ndahet në 1 + 3,322 lg 30 = 6 grupe.

Mosha maksimale - 38, minimumi - 18.

Gjerësia e intervalit Meqenëse skajet e intervaleve duhet të jenë numra të plotë, ne e ndajmë popullsinë në 5 grupe. Gjerësia e intervalit - 4.

Për t'i bërë llogaritjet më të lehta, ne do t'i renditim të dhënat në rend rritës: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Shpërndarja e punëtorëve në moshë

Grafikisht, një seri mund të përshkruhet si një histogram ose poligon. Histogram - grafik me shtylla. Baza e kolonës është gjerësia e intervalit. Lartësia e kolonës është e barabartë me frekuencën.

Shumëkëndëshi (ose shumëkëndëshi i shpërndarjes) - grafiku i frekuencës. Për ta ndërtuar atë duke përdorur një histogram, ne lidhim mesin e anëve të sipërme të drejtkëndëshave. Ne mbyllim poligonin në boshtin Ox në distanca të barabarta me gjysmën e intervalit nga vlerat ekstreme të x.

Modaliteti (Mo) është vlera e karakteristikës që studiohet, e cila shfaqet më shpesh në një popullatë të caktuar.

Për të përcaktuar mënyrën nga histogrami, duhet të zgjidhni drejtkëndëshin më të lartë, të vizatoni një vijë nga kulmi i djathtë i këtij drejtkëndëshi në të djathtë këndi i sipërm drejtkëndëshin e mëparshëm, dhe nga kulmi i majtë i drejtkëndëshit modal vizatoni një vijë në kulmin e majtë të drejtkëndëshit pasues. Nga pika e kryqëzimit të këtyre vijave, vizatoni një pingul me boshtin x. Abshisa do të jetë modë. Mo ≈ 27,5. Kjo do të thotë se mosha më e zakonshme në këtë popullatë është 27-28 vjeç.

Mediana (Me) është vlera e karakteristikës që studiohet, e cila është në mes të serisë së variacionit të renditur.

Ne gjejmë mesataren duke përdorur kumulimin. Kumulon - një grafik i frekuencave të grumbulluara. Abshisat janë variante të një serie. Ordinatat janë frekuenca të grumbulluara.

Për të përcaktuar mesataren mbi kumulat, gjejmë një pikë përgjatë boshtit të ordinatave që korrespondon me 50% të frekuencave të grumbulluara (në rastin tonë, 15), vizatojmë një vijë të drejtë përmes saj, paralel me boshtin Ox, dhe nga pika e prerja e tij me kumulatin, vizatoni një pingul me boshtin x. Abshisa është mediana. Unë ≈ 25,9. Kjo do të thotë se gjysma e punëtorëve në këtë popullsi janë nën 26 vjeç.

Rezultatet e grupimit të të dhënave statistikore të mbledhura zakonisht paraqiten në formën e serive të shpërndarjes. Një seri shpërndarjeje është një shpërndarje e renditur e njësive të popullsisë në grupe sipas karakteristikës që studiohet.

Seritë e shpërndarjes ndahen në atributive dhe variacionale, në varësi të karakteristikës që përbën bazën e grupimit. Nëse atributi është cilësor, atëherë seria e shpërndarjes quhet atributive. Një shembull i një serie atributesh është shpërndarja e ndërmarrjeve dhe organizatave sipas llojit të pronësisë (shih Tabelën 3.1).

Nëse karakteristika me të cilën ndërtohet seria e shpërndarjes është sasiore, atëherë seria quhet variacionale.

Seria variacionale e një shpërndarjeje përbëhet gjithmonë nga dy pjesë: një variant dhe frekuencat (ose frekuencat) përkatëse. Një variant është vlera që një karakteristikë mund të marrë në njësi të popullsisë, ndërsa frekuenca është numri i njësive të vëzhgimit që kanë një vlerë të caktuar të karakteristikës. Shuma e frekuencave është gjithmonë e barabartë me vëllimin e popullatës. Ndonjëherë, në vend të frekuencave, llogariten frekuencat - këto janë frekuenca të shprehura ose si fraksione të një njësie (atëherë shuma e të gjitha frekuencave është e barabartë me 1), ose si përqindje e vëllimit të popullsisë (shuma e frekuencave do të të jetë e barabartë me 100%).

Seritë e variacioneve janë diskrete dhe intervale. Për seritë diskrete (Tabela 3.7), opsionet shprehen në numra specifikë, më shpesh në numra të plotë.

Tabela 3.8. Shpërndarja e punonjësve sipas kohës së punës në shoqërinë e sigurimit
Koha e punuar në kompani, vite të plota (opsione) Numri i punonjesve
Njeriu (frekuencat) në % të totalit (frekuenca)
deri në një vit 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Total 129 100,0

Në seritë e intervalit (shih tabelën 3.2), vlerat e treguesit specifikohen në formën e intervaleve. Intervalet kanë dy kufij: të poshtëm dhe të sipërm. Intervalet mund të jenë të hapura ose të mbyllura. Të hapurat nuk kanë një nga kufijtë, kështu që në tabelë. 3.2 intervali i parë nuk ka kufi të poshtëm dhe i fundit nuk ka kufi të sipërm. Gjatë ndërtimit seri intervali në varësi të natyrës së shpërndarjes së vlerave të atributeve, përdoren intervale të barabarta dhe të pabarabarta (Tabela 3.2 tregon një seri variacionesh me intervale të barabarta).

Nëse një karakteristikë merr një numër të kufizuar vlerash, zakonisht jo më shumë se 10, ndërtohen seri diskrete të shpërndarjes. Nëse opsioni është më i madh, atëherë seria diskrete humbet qartësinë e saj; në këtë rast, këshillohet përdorimi i formës së intervalit të serisë së variacionit. Me një ndryshim të vazhdueshëm të një karakteristike, kur vlerat e saj brenda kufijve të caktuar ndryshojnë nga njëra-tjetra në një sasi të vogël arbitrare, ndërtohet gjithashtu një seri shpërndarjeje intervali.

3.3.1. Ndërtimi i serive të variacioneve diskrete

Le të shqyrtojmë metodologjinë për ndërtimin e serive të variacioneve diskrete duke përdorur një shembull.

Shembulli 3.2. Të dhënat e mëposhtme janë të disponueshme për përbërjen sasiore të 60 familjeve:

Për të pasur një ide mbi shpërndarjen e familjeve sipas numrit të anëtarëve të tyre, duhet të ndërtohet një seri variacionesh. Meqenëse shenja merr një numër të kufizuar vlerash të numrave të plotë, ne ndërtojmë një seri variacionesh diskrete. Për ta bërë këtë, së pari rekomandohet të shkruani të gjitha vlerat e atributit (numri i anëtarëve në familje) në rend rritës (d.m.th., renditni të dhënat statistikore):

Pastaj ju duhet të numëroni numrin e familjeve me të njëjtën përbërje. Numri i anëtarëve të familjes (vlera e një karakteristike të ndryshueshme) janë variante (do t'i shënojmë me x), numri i familjeve me të njëjtën përbërje janë frekuenca (do t'i shënojmë me f). Ne i paraqesim rezultatet e grupimit në formën e serisë së mëposhtme diskrete të shpërndarjes variacionale:

Tabela 3.11.
Numri i anëtarëve të familjes (x) Numri i familjeve (y)
1 8
2 14
3 20
4 9
5 5
6 4
Total 60

3.3.2. Ndërtimi i serive të variacionit të intervalit

Le të demonstrojmë metodologjinë për ndërtimin e serive të shpërndarjes së variacionit të intervalit duke përdorur shembullin e mëposhtëm.

Shembulli 3.3. Si rezultat i vëzhgimit statistikor, janë marrë të dhënat e mëposhtme rreth mesatare normat e interesit të 50 bankave tregtare (%):

Tabela 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Siç mund ta shohim, shikimi i një grupi të tillë të dhënash është jashtëzakonisht i papërshtatshëm, përveç kësaj, nuk ka modele të ndryshimeve në tregues. Le të ndërtojmë një seri shpërndarjeje intervali.

  1. Le të përcaktojmë numrin e intervaleve.

    Numri i intervaleve në praktikë shpesh përcaktohet nga vetë studiuesi bazuar në objektivat e çdo vëzhgimi specifik. Në të njëjtën kohë, ai gjithashtu mund të llogaritet matematikisht duke përdorur formulën Sturgess

    n = 1 + 3,322 lgN,

    ku n është numri i intervaleve;

    N është vëllimi i popullsisë (numri i njësive të vëzhgimit).

    Për shembullin tonë marrim: n = 1 + 3,322lgN = 1 + 3,322lg50 = 6,6"7.

  2. Le të përcaktojmë madhësinë e intervaleve (i) duke përdorur formulën

    ku x max është vlera maksimale e atributit;

    x min - vlera minimale e atributit.

    Për shembullin tonë

    Intervalet e një serie variacionesh janë të qarta nëse kufijtë e tyre kanë vlera "të rrumbullakëta", kështu që le të rrumbullakojmë vlerën e intervalit 1.9 në 2 dhe vlerën minimale të karakteristikës 12.3 në 12.0.

  3. Le të përcaktojmë kufijtë e intervaleve.

    Intervalet, si rregull, shkruhen në atë mënyrë që kufiri i sipërm i një intervali të jetë edhe kufiri i poshtëm i intervalit tjetër. Pra, për shembullin tonë marrim: 12.0-14.0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24.0-26.0.

    Një hyrje e tillë do të thotë që atributi është i vazhdueshëm. Nëse variantet e një karakteristike marrin vlera të përcaktuara rreptësisht, për shembull, vetëm numra të plotë, por numri i tyre është shumë i madh për të ndërtuar një seri diskrete, atëherë mund të krijoni një seri intervali, ku kufiri i poshtëm i intervalit nuk do të përkojë me atë të sipërm. kufiri i intervalit të ardhshëm (kjo do të thotë që karakteristika është diskrete). Për shembull, në shpërndarjen e punonjësve të ndërmarrjes sipas moshës, mund të krijoni grupet e mëposhtme të intervalit të viteve: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 dhe më shumë.

    Për më tepër, në shembullin tonë, ne mund të hapim intervalin e parë dhe të fundit, etj. shkruani: deri në 14.0; 24.0 e lart.

  4. Bazuar në të dhënat fillestare, do të ndërtojmë një seri të renditur. Për ta bërë këtë, ne shkruajmë në rend rritës vlerat që merr shenja. Rezultatet i paraqesim në tabelë: Tabela 3.13. Seritë e renditura të normave të interesit të bankave tregtare
    Norma bankare % (opsione)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Le të numërojmë frekuencat.

    Kur numëroni frekuencat, mund të lindë një situatë kur vlera e një karakteristike bie në kufirin e një intervali. Në këtë rast, mund të udhëhiqeni nga rregulli: një njësi e caktuar i caktohet intervalit për të cilin vlera e saj është kufiri i sipërm. Pra, vlera 16.0 në shembullin tonë do t'i referohet intervalit të dytë.

Rezultatet e grupimit të marra në shembullin tonë do të paraqiten në një tabelë.

Tabela 3.14. Shpërndarja e bankave tregtare sipas normës së kreditimit
Norma e shkurtër, % Numri i bankave, njësive (frekuencat) Frekuencat e grumbulluara
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Total 50 -

Kolona e fundit e tabelës paraqet frekuencat e grumbulluara, të cilat përftohen duke përmbledhur në mënyrë sekuenciale frekuencat duke filluar nga e para (për shembull, për intervalin e parë - 5, për intervalin e dytë 5 + 9 = 14, për intervalin e tretë 5 + 9 + 4 = 18, etj.). Frekuenca e akumuluar, për shembull, 33, tregon se 33 banka kanë një normë kredie që nuk kalon 20% (kufiri i sipërm i intervalit përkatës).

Në procesin e grupimit të të dhënave gjatë ndërtimit të serive të variacioneve, ndonjëherë përdoren intervale të pabarabarta. Kjo vlen për ato raste kur vlerat e një karakteristike i binden rregullit të progresionit aritmetik ose gjeometrik ose kur aplikimi i formulës Sturgess çon në shfaqjen e grupeve të intervalit "bosh" që nuk përmbajnë një njësi të vetme vëzhgimi. Më pas kufijtë e intervaleve vendosen në mënyrë arbitrare nga vetë studiuesi bazuar në sens të përbashkët dhe objektivat e anketës ose duke përdorur formula. Pra, për ndryshimin e të dhënave progresion aritmetik, madhësia e intervaleve llogaritet si më poshtë.

Kur ndërtohet një seri shpërndarjeje intervali, zgjidhen tre pyetje:

  • 1. Sa intervale duhet të bëj?
  • 2. Sa është gjatësia e intervaleve?
  • 3. Cila është procedura për përfshirjen e njësive të popullsisë brenda kufijve të intervaleve?
  • 1. Numri i intervaleve mund të përcaktohet nga Formula e Sturges:

2. Gjatësia e intervalit, ose hapi i intervalit, zakonisht përcaktohet nga formula

Ku R- diapazoni i variacionit.

3. Rendi i përfshirjes së njësive të popullsisë brenda kufijve të intervalit

mund të jenë të ndryshme, por kur ndërtohet një seri intervali, shpërndarja duhet të përcaktohet rreptësisht.

Për shembull, kjo: [), në të cilën njësitë e popullsisë përfshihen në kufijtë e poshtëm, por nuk përfshihen në kufijtë e sipërm, por transferohen në intervalin tjetër. Përjashtim nga ky rregull është intervali i fundit, kufiri i sipërm i të cilit përfshin numrin e fundit të serisë së renditur.

Kufijtë e intervalit janë:

  • i mbyllur - me dy vlera ekstreme të atributit;
  • hapur - me një vlerë ekstreme të atributit (përpara ky e ai numër ose gjatë ky e ai numër).

Për të asimiluar materialin teorik, ne prezantojmë informacion në sfond për zgjidhje detyrë nga fundi në fund.

Ekzistojnë të dhëna të kushtëzuara për numrin mesatar të menaxherëve të shitjeve, sasinë e mallrave të ngjashëm të shitur prej tyre, çmimin individual të tregut për këtë produkt, si dhe vëllimin e shitjeve të 30 kompanive në një nga rajonet e Federatës Ruse në fillim. tremujori i vitit raportues (Tabela 2.1).

Tabela 2.1

Informacioni fillestar për një detyrë ndërsektoriale

Numri

menaxherët,

Çmimi, mijëra rubla

Vëllimi i shitjeve, milion rubla.

Numri

menaxherët,

Sasia e mallit të shitur, copë.

Çmimi, mijëra rubla

Vëllimi i shitjeve, milion rubla.

Bazuar në informacionin fillestar, si dhe informacionin shtesë, ne do të vendosim detyra individuale. Më pas do të paraqesim metodologjinë për zgjidhjen e tyre dhe vetë zgjidhjet.

Detyrë ndërsektoriale. Detyra 2.1

Përdorimi i të dhënave fillestare nga tabela. 2.1 kërkohet ndërtoni një seri diskrete të shpërndarjes së firmave sipas sasisë së mallrave të shitura (Tabela 2.2).

Zgjidhja:

Tabela 2.2

Seri diskrete të shpërndarjes së firmave sipas sasisë së mallrave të shitura në një nga rajonet e Federatës Ruse në tremujorin e parë të vitit raportues

Detyrë ndërsektoriale. Detyra 2.2

kërkohet ndërtoni një seri të renditur prej 30 firmash sipas numrit mesatar të menaxherëve.

Zgjidhja:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Detyrë ndërsektoriale. Detyra 2.3

Përdorimi i të dhënave fillestare nga tabela. 2.1, kërkohet:

  • 1. Ndërtoni një seri intervali të shpërndarjes së firmave sipas numrit të menaxherëve.
  • 2. Llogaritni frekuencat e serive të shpërndarjes së firmave.
  • 3. Nxirrni përfundime.

Zgjidhja:

Le të llogarisim duke përdorur formulën Sturgess (2.5) numri i intervaleve:

Kështu, marrim 6 intervale (grupe).

Gjatësia e intervalit, ose hapi i intervalit, llogaritni duke përdorur formulën

Shënim. Rendi i përfshirjes së njësive të popullsisë në kufijtë e intervalit është si më poshtë: I), në të cilin njësitë e popullsisë përfshihen në kufijtë e poshtëm, por nuk përfshihen në kufijtë e sipërm, por kalohen në intervalin tjetër. Përjashtim nga ky rregull është intervali i fundit I ], kufiri i sipërm i të cilit përfshin numrin e fundit të serisë së renditur.

Ne ndërtojmë një seri intervali (Tabela 2.3).

Seritë intervale të shpërndarjes së firmave dhe numri mesatar i menaxherëve në një nga rajonet e Federatës Ruse në tremujorin e parë të vitit raportues

konkluzioni. Grupi më i madh i firmave është grupi me numri mesatar menaxherët 25-30 persona, ku përfshihen 8 kompani (27%); Grupi më i vogël me një numër mesatar të menaxherëve prej 40-45 personash përfshin vetëm një kompani (3%).

Përdorimi i të dhënave fillestare nga tabela. 2.1, si dhe një seri intervalesh të shpërndarjes së firmave sipas numrit të menaxherëve (Tabela 2.3), kërkohet ndërtoni një grupim analitik të marrëdhënies midis numrit të menaxherëve dhe vëllimit të shitjeve të firmave dhe, bazuar në të, nxirrni një përfundim për praninë (ose mungesën) e një marrëdhënieje midis këtyre karakteristikave.

Zgjidhja:

Grupimi analitik bazohet në karakteristikat e faktorëve. Në problemin tonë, karakteristika e faktorit (x) është numri i menaxherëve, dhe karakteristika rezultante (y) është vëllimi i shitjeve (Tabela 2.4).

Le të ndërtojmë tani grupimi analitik(Tabela 2.5).

konkluzioni. Bazuar në të dhënat e grupimit analitik të ndërtuar, mund të themi se me një rritje të numrit të menaxherëve të shitjeve, rritet edhe vëllimi mesatar i shitjeve të kompanisë në grup, gjë që tregon praninë e një lidhjeje të drejtpërdrejtë midis këtyre karakteristikave.

Tabela 2.4

Tabela ndihmëse për ndërtimin e një grupimi analitik

Numri i menaxherëve, njerëzve,

Numri i kompanisë

Vëllimi i shitjeve, milion rubla, y

" = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

= ’ =10,31 30

Tabela 2.5

Varësia e vëllimeve të shitjeve nga numri i menaxherëve të kompanisë në një nga rajonet e Federatës Ruse në tremujorin e parë të vitit raportues

PYETJE KONTROLLIN
  • 1. Cili është thelbi i vëzhgimit statistikor?
  • 2. Emërtoni fazat e vëzhgimit statistikor.
  • 3. Cilat janë format organizative të vëzhgimit statistikor?
  • 4. Emërtoni llojet e vëzhgimit statistikor.
  • 5. Çfarë është një përmbledhje statistikore?
  • 6. Emërtoni llojet e raporteve statistikore.
  • 7. Çfarë është grupimi statistikor?
  • 8. Emërtoni llojet e grupimeve statistikore.
  • 9. Çfarë është seria e shpërndarjes?
  • 10. Emërtoni elementet strukturore të rreshtit të shpërndarjes.
  • 11. Cila është procedura për ndërtimin e serisë së shpërndarjes?

Kur përpunoni sasi të mëdha informacioni, gjë që është veçanërisht e rëndësishme gjatë kryerjes moderne zhvillimet shkencore, studiuesi përballet me detyrën serioze të grupimit të saktë të të dhënave burimore. Nëse të dhënat janë të natyrës diskrete, atëherë, siç e kemi parë, nuk lindin probleme - thjesht duhet të llogaritni frekuencën e secilës veçori. Nëse karakteristika në studim ka të vazhdueshme natyra (e cila është më e zakonshme në praktikë), atëherë zgjedhja e numrit optimal të intervaleve të grupimit të veçorive nuk është aspak një detyrë e parëndësishme.

Për të grupuar variabla të rastësishme të vazhdueshme, i gjithë diapazoni i variacionit të karakteristikës ndahet në një numër të caktuar intervalesh te.

Interval i grupuar (të vazhdueshme) seri variacionesh quhen intervale të renditura nga vlera e atributit (), ku numrat e vëzhgimeve që bien në intervalin r"të, ose frekuencat relative (), tregohen së bashku me frekuencat përkatëse ():

Intervalet e vlerave karakteristike

frekuenca mi

grafik me shtylla Dhe grumbulloj (ogiva), të diskutuara tashmë në detaje nga ne, janë një mjet i shkëlqyer i vizualizimit të të dhënave, duke ju lejuar të merrni një ide primare të strukturës së të dhënave. Grafikët e tillë (Fig. 1.15) ndërtohen për të dhënat e vazhdueshme në të njëjtën mënyrë si për të dhënat diskrete, vetëm duke marrë parasysh faktin se të dhënat e vazhdueshme plotësojnë plotësisht rajonin e vlerave të tyre të mundshme, duke marrë çdo vlerë.

Oriz. 1.15.

Kjo është arsyeja pse kolonat në histogram dhe kumulat duhet të prekin njëra-tjetrën dhe të mos kenë zona ku vlerat e atributeve nuk bien brenda të gjitha të mundshmeve(d.m.th., histogrami dhe kumulatet nuk duhet të kenë "vrima" përgjatë boshtit të abshisave, të cilat nuk përmbajnë vlerat e ndryshores që studiohet, si në Fig. 1.16). Lartësia e shiritit korrespondon me frekuencën - numri i vëzhgimeve që bien brenda një intervali të caktuar, ose frekuenca relative - proporcioni i vëzhgimeve. Intervalet nuk duhet të kryqëzohen dhe zakonisht kanë të njëjtën gjerësi.

Oriz. 1.16.

Histogrami dhe poligoni janë përafrime të kurbës së densitetit të probabilitetit ( funksioni diferencial) f(x) shpërndarja teorike, e konsideruar në rrjedhën e teorisë së probabilitetit. Prandaj, ndërtimi i tyre është si më poshtë e rëndësishme gjatë përpunimit statistikor primar të të dhënave sasiore të vazhdueshme - nga pamja e tyre mund të gjykohet ligji hipotetik i shpërndarjes.

Kumulimi - një kurbë e frekuencave (frekuencave) të grumbulluara të një serie variacionesh intervali. Grafiku i funksionit të shpërndarjes kumulative krahasohet me kumulatin F(x), diskutuar edhe në lëndën e teorisë së probabilitetit.

Në thelb, konceptet e histogramit dhe të kumulimit shoqërohen në mënyrë specifike me të dhëna të vazhdueshme dhe seritë e tyre të variacionit të intervalit, pasi grafikët e tyre janë vlerësime empirike të funksionit të densitetit të probabilitetit dhe funksionit të shpërndarjes, përkatësisht.

Ndërtimi i një serie variacionesh intervali fillon me përcaktimin e numrit të intervaleve k. Dhe kjo detyrë është ndoshta më e vështira, më e rëndësishmja dhe më e diskutueshme në çështjen në studim.

Numri i intervaleve nuk duhet të jetë shumë i vogël, pasi kjo do ta bëjë histogramin shumë të qetë ( i zbutur tej mase), humbet të gjitha tiparet e ndryshueshmërisë së të dhënave origjinale - në Fig. 1.17 ju mund të shihni se si të njëjtat të dhëna mbi të cilat grafikët në Fig. 1.15, përdoret për të ndërtuar një histogram me një numër më të vogël intervalesh (grafiku majtas).

Në të njëjtën kohë, numri i intervaleve nuk duhet të jetë shumë i madh - përndryshe nuk do të jemi në gjendje të vlerësojmë densitetin e shpërndarjes së të dhënave të studiuara përgjatë boshtit numerik: histogrami do të jetë nën zbutjen (i zbutur), me intervale boshe, të pabarabarta (shih Fig. 1.17, grafiku djathtas).

Oriz. 1.17.

Si të përcaktohet numri më i preferuar i intervaleve?

Në vitin 1926, Herbert Sturges propozoi një formulë për llogaritjen e numrit të intervaleve në të cilat është e nevojshme të ndahet grupi origjinal i vlerave të karakteristikës që studiohet. Kjo formulë është bërë me të vërtetë jashtëzakonisht e popullarizuar - shumica e teksteve statistikore e ofrojnë atë dhe shumë paketa statistikore e përdorin atë si parazgjedhje. Sa e justifikuar është dhe në të gjitha rastet kjo është një pyetje shumë serioze.

Pra, mbi çfarë bazohet formula e Sturges?

Le të shqyrtojmë shpërndarja binomiale }

Publikime mbi temën