Regressioonivõrrandi koefitsient näitab korrelatsiooni ja regressioonianalüüsi. Lihtne lineaarne regressioon

Regressiooni mõiste. Muutujate vaheline seos x ja y saab kirjeldada erineval viisil. Eelkõige saab mis tahes tüüpi seost väljendada üldvõrrandiga , kus y käsitletakse sõltuva muutujana või funktsioonid teisest - sõltumatu muutuja x, mida nimetatakse argument. Argumendi ja funktsiooni vastavust saab anda tabeli, valemi, graafiku jne abil. Funktsiooni muutmine olenevalt ühe või mitme argumendi muutumisest kutsutakse välja regressioon. Kõik korrelatsioonide kirjeldamiseks kasutatavad vahendid on sisu regressioonianalüüs.

Regressiooni väljendamiseks kasutatakse korrelatsioonivõrrandid ehk regressioonivõrrandid, empiirilised ja teoreetiliselt arvutatud regressiooniread, nende graafikud, mida nimetatakse regressioonijoonteks, samuti lineaarsed ja mittelineaarsed regressioonikordajad.

Regressiooninäitajad väljendavad korrelatsiooni kahesuunaliselt, võttes arvesse atribuudi keskmiste väärtuste muutust Y väärtuste muutmisel x i märk X ja vastupidi, näidata funktsiooni keskmiste väärtuste muutust X muudetud väärtuste järgi y i märk Y. Erandiks on aegread ehk dünaamika jadad, mis näitavad märkide muutumist ajas. Selliste seeriate regressioon on ühepoolne.

Korrelatsioonidel on palju erinevaid vorme ja tüüpe. Ülesanne taandub igal konkreetsel juhul seose vormi tuvastamisele ja selle väljendamisele vastava korrelatsioonivõrrandiga, mis võimaldab ette näha võimalikke muutusi ühes märgis Y teadaolevate muudatuste põhjal X, mis on seotud esimese korrelatsiooniga.

12.1 Lineaarne regressioon

Regressioonivõrrand. Konkreetse bioloogilise objektiga tehtud vaatluste tulemused vastavalt korrelatsioonile seotud funktsioonid x ja y, saab esitada punktidega tasapinnal, konstrueerides ristkülikukujuliste koordinaatide süsteemi. Selle tulemusena saadakse teatud hajuvusdiagramm, mis võimaldab hinnata erinevate tunnuste vahelise seose vormi ja tihedust. Üsna sageli näeb see suhe välja nagu sirgjoon või seda saab ligikaudselt võrrelda sirgjoonega.

Lineaarne seos muutujate vahel x ja y kirjeldatakse üldvõrrandiga , kus a, b, c, d,… on võrrandi parameetrid, mis määravad argumentide vahelise seose x 1 , x 2 , x 3 , …, x m ja funktsioonid.

Praktikas ei võeta arvesse kõiki võimalikke argumente, vaid ainult mõnda argumenti, kõige lihtsamal juhul ainult ühte:

Lineaarse regressiooni võrrandis (1) a on vaba termin ja parameeter b määrab regressioonisirge kalde ristkülikukujuliste koordinaatide telgede suhtes. Analüütilises geomeetrias nimetatakse seda parameetrit kaldetegur ja biomeetrias - regressioonikoefitsient. Selle parameetri visuaalne esitus ja regressioonijoonte asukoht Y peal X ja X peal Y ristkülikukujuliste koordinaatide süsteemis annab Joon.1.

Riis. 1 Y X ja X Y regressioonisirge süsteemis

ristkülikukujulised koordinaadid

Regressioonijooned, nagu on näidatud joonisel 1, lõikuvad punktis O (,), mis vastavad üksteisega korrelatsioonis olevate märkide aritmeetilisele keskmisele väärtusele. Y ja X. Regressioonigraafikute joonistamisel kantakse sõltumatu muutuja X väärtused piki abstsissi ja sõltuva muutuja ehk funktsiooni Y väärtused piki ordinaati. Punkti O läbiv sirge AB (, ) vastab muutujatevahelisele täielikule (funktsionaalsele) seosele Y ja X kui korrelatsioonikordaja . Mida tugevam on seos Y ja X, mida lähemal on regressioonisirge AB-le ja vastupidi, mida nõrgem on nende väärtuste vaheline seos, seda kaugemal on regressioonisirge AB-st. Tunnuste vahelise seose puudumisel on regressioonijooned üksteise suhtes täisnurga all ja .

Kuna regressiooninäitajad väljendavad korrelatsiooni kahesuunaliselt, tuleks regressioonivõrrand (1) kirjutada järgmiselt:

Esimese valemi kohaselt määratakse keskmised väärtused märgi muutumisel X mõõtühiku kohta, teisel - keskmistatud väärtused, kui tunnust muudetakse mõõtühiku kohta Y.

Regressioonikoefitsient. Regressioonikordaja näitab, kuidas keskmiselt ühe tunnuse väärtus y muutub, kui teine ​​mõõtühik on korrelatsioonis Y märk X. See näitaja määratakse valemiga

Siin on väärtused s korrutada klassivahede suurusega λ kui need leiti variatsiooniridade või korrelatsioonitabelite abil.

Regressioonikordaja saab arvutada keskmiste arvutamisest mööda minnes standardhälbed s y ja s x valemi järgi

Kui korrelatsioonikordaja on teadmata, määratakse regressioonikordaja järgmiselt:

Regressiooni- ja korrelatsioonikordajate seos. Võrreldes valemeid (11.1) (teema 11) ja (12.5), näeme, et nende lugeja sisaldab sama väärtust , mis näitab seost nende näitajate vahel. Seda suhet väljendab võrdsus

Seega on korrelatsioonikordaja võrdne koefitsientide geomeetrilise keskmisega b yx ja b xy. Valem (6) võimaldab esiteks regressioonikoefitsientide teadaolevatest väärtustest b yx ja b xy määrata regressioonikordaja R xy ja teiseks kontrollida selle korrelatsiooninäitaja arvutamise õigsust R xy erinevate tunnuste vahel X ja Y.

Sarnaselt korrelatsioonikoefitsiendiga iseloomustab regressioonikordaja ainult lineaarset seost ja sellega kaasneb positiivse seose pluss ja negatiivse seose miinusmärk.

Lineaarse regressiooni parameetrite määramine. On teada, et variandi hälvete ruudu summa x i keskmisest on väikseim väärtus, st see teoreem on meetodi aluseks vähimruudud. Lineaarse regressiooni osas [vt valem (1)], on selle teoreemi nõue täidetud teatud võrrandisüsteemiga, mida nimetatakse normaalne:

Nende võrrandite ühislahendus parameetrite suhtes a ja b viib järgmiste tulemusteni:

;

;

, kust ma.

Arvestades muutujatevahelise seose kahepoolset iseloomu Y ja X, parameetri määramise valem a tuleks väljendada järgmiselt:

ja . (7)

Parameeter b, või regressioonikordaja, määratakse järgmiste valemitega:

Empiirilise regressioonirea konstrueerimine. juuresolekul suur hulk tähelepanekud regressioonianalüüs algab empiirilise regressioonirea konstrueerimisega. Empiiriline regressioonirea moodustatakse ühe muutuja atribuudi väärtuste arvutamisel X teise keskmised väärtused, mis on korrelatsioonis X märk Y. Teisisõnu, empiirilise regressioonirea konstrueerimine taandub sellele, et märkide Y ja X vastavate väärtuste põhjal leitakse rühm tähendab u.

Empiiriline regressioonirida on topeltarvude jada, mida saab esitada tasapinna punktidega ja seejärel, ühendades need punktid sirge lõikudega, saab empiirilise regressioonisirge. Empiirilised regressiooniread, eriti nende graafikud, nn regressioonijooned, annavad visuaalse esituse erinevate tunnuste vahelise korrelatsioonisõltuvuse vormist ja tihedusest.

Empiirilise regressioonirea võrdsustus. Empiiriliste regressiooniridade graafikud on reeglina pigem katkendlikud kui siledad jooned. Seda seletatakse asjaoluga, et lisaks peamistele põhjustele, mis määravad korrelatsioonitunnuste varieeruvuse üldise mustri, mõjutavad nende väärtust arvukad sekundaarsed põhjused, mis põhjustavad regressiooni sõlmpunktides juhuslikke kõikumisi. Korrelatsioonitunnuste konjugeeritud variatsiooni peamise trendi (trendi) tuvastamiseks peate katkendjooned asendama sujuvate sujuvalt jooksvate regressioonijoontega. Katkendsete joonte siledatega asendamise protsessi nimetatakse empiiriliste seeriate joondamine ja regressioonijooned.

Graafiline joondusmeetod. See on kõige lihtsam meetod, mis ei nõua arvutustööd. Selle olemus on järgmine. Empiiriline regressiooniseeria joonistatakse graafikuna ristkülikukujulises koordinaatsüsteemis. Seejärel visandatakse visuaalselt regressiooni keskpunktid, mida mööda tõmmatakse joonlaua või mustriga pidev joon. Selle meetodi puudus on ilmne: see ei välista uurija individuaalsete omaduste mõju empiiriliste regressioonisirgete joondamise tulemustele. Seetõttu kasutatakse juhtudel, kui katkiste regressioonijoonte asendamisel siledatega on vaja suuremat täpsust, empiiriliste seeriate joondamiseks muid meetodeid.

Liikuva keskmise meetod. Selle meetodi olemus on taandatud empiirilise jada kahe või kolme naaberliikme aritmeetilise keskmise järjestikuse arvutamiseni. See meetod on eriti mugav juhtudel, kui empiirilist seeriat esindab suur hulk termineid, nii et nende kahe - äärmuslike - kaotamine, mis on selle võrdsusmeetodi puhul vältimatu, ei mõjuta selle struktuuri märgatavalt.

Vähima ruudu meetod. Selle meetodi pakkus 19. sajandi alguses välja A.M. Legendre ja temast sõltumatult K. Gauss. See võimaldab teil empiirilisi seeriaid kõige täpsemalt joondada. See meetod, nagu ülal näidatud, põhineb eeldusel, et variandi hälvete ruudu summa x i nende keskmisest on minimaalne väärtus, s.t siit ka meetodi nimetus, mida kasutatakse mitte ainult ökoloogias, vaid ka tehnoloogias. Vähimruutude meetod on objektiivne ja universaalne, seda kasutatakse mitmesugustel juhtudel regressiooniridade empiiriliste võrrandite leidmisel ja nende parameetrite määramisel.

Vähimruutude meetodi nõue on, et regressioonisirge teoreetilised punktid tuleb saada nii, et empiiriliste vaatluste jaoks oleks nendest punktidest kõrvalekallete ruudu summa. y i oli minimaalne, s.t.

Arvutades selle avaldise miinimumi vastavalt matemaatilise analüüsi põhimõtetele ja teisendades seda teatud viisil, võib saada süsteemi nn. normaalvõrrandid, milles tundmatud väärtused on regressioonivõrrandi soovitud parameetrid ja teadaolevad koefitsiendid määratakse tunnuste empiiriliste väärtustega, tavaliselt nende väärtuste summade ja nende ristkorrutistega.

Mitu lineaarne regressioon. Mitme muutuja vahelist seost väljendatakse tavaliselt mitmekordse regressioonivõrrandiga, mis võib olla lineaarne ja mittelineaarne. Lihtsamal kujul väljendatakse mitmekordset regressiooni kahe sõltumatu muutujaga võrrandiga ( x, z):

kus a on võrrandi vaba liige; b ja c on võrrandi parameetrid. Võrrandi (10) parameetrite leidmiseks (vähimruutude meetodil) kasutatakse järgmist normaalvõrrandi süsteemi:

Dünaamika read. Ridade joondamine. Märkide muutumine ajas moodustab nn aegrida või dünaamika read. Sellistele seeriatele on iseloomulik, et ajategur toimib siin alati sõltumatu muutujana X ja muutuvaks märgiks on sõltuv muutuja Y. Sõltuvalt regressioonireast on muutujate X ja Y vaheline seos ühepoolne, kuna ajategur ei sõltu tunnuste muutlikkusest. Vaatamata nendele omadustele saab aegridu võrrelda regressiooniridadega ja töödelda samade meetoditega.

Sarnaselt regressiooniridadele ei mõjuta empiirilisi aegridu mitte ainult peamised, vaid ka arvukad sekundaarsed (juhuslikud) tegurid, mis varjavad tunnuste varieeruvuse peamist trendi, mida statistika keeles nimetatakse nn. trend.

Aegridade analüüs algab trendi kuju tuvastamisest. Selleks on aegrida kujutatud joongraafikuna ristkülikukujulises koordinaatsüsteemis. Samal ajal kantakse ajapunktid (aastad, kuud ja muud ajaühikud) piki abstsisstellge ning sõltuva muutuja Y väärtused joonistatakse piki ordinaattelge. on regressioonivõrrand kujul sõltuva muutuja Y jada liikmete kõrvalekalded sõltumatu muutuja X jada aritmeetilisest keskmisest:

Siin on lineaarse regressiooni parameeter.

Dünaamika jada numbrilised karakteristikud. Dünaamikaseeria peamised üldistavad numbrilised omadused hõlmavad järgmist geomeetriline keskmine ja sellele lähedane aritmeetiline keskmine. Need iseloomustavad keskmist kiirust, millega sõltuva muutuja väärtus teatud ajavahemike jooksul muutub:

Dünaamikaseeria tingimuste varieeruvuse hinnang on standardhälve. Aegridade kirjeldamiseks regressioonivõrrandite valimisel võetakse arvesse trendi kuju, mis võib olla lineaarne (või taandatud lineaarseks) ja mittelineaarne. Regressioonivõrrandi valiku õigsust hinnatakse tavaliselt sõltuva muutuja empiiriliselt vaadeldud ja arvutatud väärtuste sarnasuse järgi. Selle probleemi lahendamiseks on täpsem meetod dispersioonanalüüs regressioon (teema 12 lk.4).

Dünaamika ridade korrelatsioon. Sageli on vaja võrrelda paralleelsete aegridade dünaamikat, mis on omavahel seotud mingite üldiste tingimustega, näiteks selleks, et selgitada välja seos põllumajandusliku tootmise ja kariloomade juurdekasvu vahel teatud ajaperioodil. Sellistel juhtudel iseloomustab muutujate X ja Y vahelist seost korrelatsioonikordaja R xy (lineaarse trendi olemasolul).

On teada, et dünaamika jada trendi varjavad reeglina sõltuva muutuja Y jadade kõikumised. Seega tekib kahekordne probleem: võrrelda võrreldavate seeriate vahelise sõltuvuse mõõtmist, välistamata trendi ja sama seeria külgnevate liikmete vahelise sõltuvuse mõõtmist, välja arvatud trend. Esimesel juhul on võrreldavate dünaamikaseeriate vahelise seose tiheduse näitaja korrelatsioonikordaja(kui suhe on lineaarne), teises - autokorrelatsiooni koefitsient. Nendel näitajatel on erinevad väärtused, kuigi need arvutatakse samade valemite abil (vt teema 11).

On hästi näha, et autokorrelatsioonikordaja väärtust mõjutab sõltuva muutuja rea ​​liikmete varieeruvus: mida vähem rea liikmed trendist kõrvale kalduvad, seda suurem on autokorrelatsioonikordaja ja vastupidi.

Regressioonikoefitsiendid näidata tegurite mõju intensiivsust tulemusnäitajale. Kui teostatakse tegurinäitajate esialgne standardimine, siis b 0 on võrdne efektiivse näitaja keskmise väärtusega agregaadis. Koefitsiendid b 1 , b 2 , ..., b n näitavad, mitu ühikut erineb efektiivse näitaja tase selle keskmisest väärtusest, kui tegurinäitaja väärtused erinevad nulliga võrdsest keskmisest ühe võrra. standardhälve. Seega iseloomustavad regressioonikoefitsiendid üksikute tegurite olulisuse astet efektiivse näitaja taseme tõstmisel. Regressioonikoefitsientide spetsiifilised väärtused määratakse empiiriliste andmete põhjal vähimruutude meetodil (normaalvõrrandisüsteemide lahendamise tulemusena).

regressioonijoon- joon, mis kõige täpsemalt peegeldab katsepunktide jaotust hajuvusdiagrammil ja mille kalle iseloomustab kahe intervallmuutuja vahelist seost.

Regressioonijoont otsitakse kõige sagedamini lineaarse funktsioonina (lineaarne regressioon), mis kõige paremini lähendab soovitud kõverat. Seda tehakse vähimruutude meetodil, kui tegelikult vaadeldud hinnangute ruudu hälvete summa on minimeeritud (see tähendab hinnanguid, kasutades sirgjoont, mis väidetavalt esindab soovitud regressioonisõltuvust):

(M - valimi suurus). See lähenemisviis põhineb teadaolev fakt et ülaltoodud avaldises olev summa võtab minimaalse väärtuse just sel juhul, kui .
57. Korrelatsiooniteooria põhiülesanded.

Korrelatsiooniteooria on aparaat, mis hindab seoste lähedust nähtuste vahel, mis ei ole ainult põhjuse-tagajärje seoses. Korrelatsiooniteooria abil hinnatakse stohhastilisi, kuid mitte põhjuslikke seoseid. Autor püüdis koos Lukatskaja M. L.-ga saada hinnanguid põhjuslike seoste kohta. Siiski jääb lahtiseks küsimus nähtuste põhjus-tagajärg seostest, põhjuse ja tagajärje tuvastamisest ning tundub, et formaalne tase see on põhimõtteliselt lahendamatu.

Korrelatsiooniteooria ja selle rakendamine tootmise analüüsimisel.

Korrelatsiooniteooria, mis on üks matemaatilise statistika osadest, võimaldab teha mõistlikke oletusi võimalikud piirid, milles uuritav parameeter asub teadaoleva usaldusväärsusega, kui teised sellega statistiliselt seotud parameetrid saavad teatud väärtused.

Korrelatsiooniteoorias on tavaks eraldi välja tuua kaks peamist ülesannet.

Esimene ülesanne korrelatsiooniteooria - korrelatsiooni vormi kehtestamiseks, s.o. regressioonifunktsiooni tüüp (lineaarne, ruutkeskmine jne).

Teine ülesanne korrelatsiooniteooria – korrelatsiooni tiheduse (tugevuse) hindamiseks.

Korrelatsiooni (sõltuvuse) Y tihedust X-ga hinnatakse Y väärtuste dispersiooni järgi tingimusliku keskmise ümber. Suur dispersioon näitab Y nõrka sõltuvust X-st, väike dispersioon näitab tugevat sõltuvust.
58. Korrelatsioonitabel ja selle numbrilised karakteristikud.

Praktikas ei käsitleta suuruste X ja Y sõltumatute vaatluste tulemusena reeglina kogu nende suuruste kõigi võimalike väärtuspaaride kogumit, vaid ainult piiratud valimit. elanikkonnast ja helitugevus n proovivõtu raam on määratletud kui paaride arv valimis.

Olgu X väärtuseks valimis väärtused x 1 , x 2 ,....x m , kus selle väärtuse väärtuste arv, mis erinevad üksteisest, ja üldine juhtum igaüks neist võib korrata proovis. Olgu Y väärtuseks valimis väärtused y 1 , y 2 ,....y k , kus k on selle väärtuse väärtuste arv, mis erinevad üksteisest ja üldjuhul igaüks neist neist võib ka proovis korrata. Sel juhul sisestatakse andmed tabelisse esinemissagedusi arvestades. Sellist rühmitatud andmetega tabelit nimetatakse korrelatsioonitabeliks.

Tulemuste statistilise töötlemise esimene etapp on korrelatsioonitabeli koostamine.

Y\X x 1 x2 ... x m n a
y 1 n 12 n 21 n m1 n y1
y2 n 22 n m2 n y2
...
y k n 1k n 2k nmk n yk
n x nx1 nx2 nxm n

Tabeli põhiosa esimesel real on kasvavas järjekorras kõik proovist leitud X väärtuse väärtused. Esimeses veerus on ka kõik proovis leitud Y väärtuse väärtused kasvavas järjekorras. Vastavate ridade ja veergude ristumiskohas on sagedused n ij (i=1,2 ,...,m; j=1,2,...,k) võrdsed paari (x i ;y i) esinemiste arvuga ) valimis. Näiteks sagedus n 12 on paari (x 1 ;y 1) valimi esinemiste arv.

Samuti n xi n ij , 1≤i≤m, on i-nda veeru elementide summa, n yj n ij , 1≤j≤k on j-nda rea ​​elementide summa ja n xi = n yj =n

Korrelatsioonitabeli andmetest saadud valemite analoogid on kujul:


59. Empiirilised ja teoreetilised regressioonisirged.

Teoreetiline regressioonisirge saab sel juhul arvutada üksikute vaatluste tulemuste põhjal. Normaalvõrrandisüsteemi lahendamiseks vajame samu andmeid: x, y, xy ja xr. Meil on andmed tsemendi tootmismahu ja põhivara mahu kohta aastal 1958. Ülesandeks on uurida tsemendi tootmismahu (füüsilises mõttes) ja põhivara mahu vahelist seost. [ 1 ]

Mida vähem teoreetiline (võrrandiga arvutatud) regressioonisirge tegelikust (empiirilisest) kõrvale kaldub, seda väiksem on keskmine lähendusviga.

Teoreetilise regressioonijoone leidmise protsess on empiirilise regressioonisirge joondamine vähimruutude meetodil.

Teoreetilise regressioonisirge leidmise protsessi nimetatakse empiirilise regressioonisirge joondamiseks ja see seisneb tüübi valikus ja põhjendamises; kõver ja selle võrrandi parameetrite arvutamine.

Empiiriline regressioon põhineb analüütiliste või kombineeritud rühmituste andmetel ja esindab tulemuse atribuudi rühma keskmiste väärtuste sõltuvust faktoriteguri rühma keskmistest väärtustest. Empiirilise regressiooni graafiline esitus on katkendlik joon, mis koosneb punktidest, mille abstsissid on atribuudi teguri rühma keskmised väärtused ja ordinaadid on atribuudi tulemuse rühma keskmised väärtused. Punktide arv võrdub rühmade arvuga rühmas.

Empiiriline regressioonisirge peegeldab vaadeldava seose peamist trendi. Kui empiiriline regressioonijoon oma kujul läheneb sirgele, siis võime eeldada sirgjoonelise korrelatsiooni olemasolu märkide vahel. Ja kui sideliin läheneb kõverale, võib see olla tingitud kõverjoonelise korrelatsiooni olemasolust.
60. Selektiivsed korrelatsiooni- ja regressioonikordajad.

Kui graafiku märkide vaheline sõltuvus näitab lineaarset korrelatsiooni, arvuta korrelatsioonikordaja r, mis võimaldab hinnata muutujate seoste lähedust, samuti välja selgitada, kui suur osa tunnuse muutustest on tingitud põhitunnuse mõjust, mis on tingitud muude tegurite mõjust. Koefitsient varieerub vahemikus -1 kuni +1. Kui a r=0, siis tunnuste vahel seost ei ole. Võrdsus r=0 räägib ainult lineaarse korrelatsioonisõltuvuse puudumisest, kuid mitte üldiselt korrelatsiooni ja veelgi enam statistilise sõltuvuse puudumisest. Kui a r= ±1, siis tähendab see täieliku (funktsionaalse) ühenduse olemasolu. Sel juhul asuvad kõik vaadeldud väärtused regressioonijoonel, mis on sirgjoon.
Korrelatsioonikordaja praktilise tähtsuse määrab selle ruudu väärtus, mida nimetatakse determinatsioonikoefitsiendiks.
Regressioon, mis on ligikaudne (ligikaudne kirjeldatud) lineaarfunktsiooniga y = kX + b. Y regressiooniks X-l on regressioonivõrrand: `y x = ryx X + b; (üks). Y otsese regressiooni kalle ryx-i X-l nimetatakse Y regressioonikordajaks X-l.

Kui näidisandmetest leitakse võrrand (1), siis seda nimetatakse regressioonivõrrandi näidis. Vastavalt sellele on ryx Y valimi regressioonikordaja X-l ja b on võrrandi valimi lõikepunkt. Regressioonikordaja mõõdab Y varieerumist X variatsiooniühiku kohta. Regressioonivõrrandi parameetrid (koefitsiendid ryx ja b) leitakse vähimruutude meetodil.
61. Korrelatsioonikordaja olulisuse ja korrelatsiooni läheduse hindamine üldkogumis

Korrelatsioonikordajate olulisus kontrollime õpilase kriteeriumi järgi:

kus - korrelatsioonikordaja keskmine ruutviga, mis määratakse järgmise valemiga:

Kui arvutatud väärtus (kõrgem kui tabeli väärtus), siis võime järeldada, et korrelatsioonikordaja väärtus on oluline. t leitakse Studenti kriteeriumite väärtuste tabeli järgi. See võtab arvesse vabadusastmete arvu (V = n - 1) ja usalduse tase (majandusarvutustes tavaliselt 0,05 või 0,01). Meie näites on vabadusastmete arv: P - 1 = 40 - 1 = 39. Usaldustasemel R = 0,05; t= 2,02. Kuna (tegelik on kõigil juhtudel kõrgem kui t-tabel, on efektiiv- ja faktorinäitajate vaheline seos usaldusväärne ning korrelatsioonikoefitsientide väärtus oluline.

Korrelatsioonikordaja hindamine, mis on arvutatud piiratud valimi põhjal, erineb peaaegu alati nullist. Kuid sellest ei järeldu, et korrelatsioonikordaja elanikkonnast erineb ka nullist. On vaja hinnata koefitsiendi valimi väärtuse olulisust või vastavalt statistiliste hüpoteeside kontrollimise ülesannete sõnastusele testida hüpoteesi, et korrelatsioonikordaja on võrdne nulliga. Kui hüpotees H 0 korrelatsioonikordaja võrdsuse kohta nulliga lükatakse tagasi, siis on valimi koefitsient oluline ja vastavad väärtused on seotud lineaarse seosega. Kui hüpotees H 0 aktsepteeritakse, siis ei ole koefitsiendi hinnang oluline ja väärtused ei ole üksteisega lineaarselt seotud (kui füüsilistel põhjustel saab tegureid seostada, siis on parem öelda, et see seos pole kehtestatud vastavalt olemasolevale ED-le). Korrelatsioonikordaja hinnangu olulisuse hüpoteesi kontrollimiseks on vaja teadmisi selle juhusliku suuruse jaotusest.  levik ik uuriti ainult juhuks, kui juhuslikud muutujad Uj ja U k jaotatakse tavaseaduse järgi.

Nullhüpoteesi testimise kriteeriumina H 0 kohaldada juhuslik muutuja . Kui korrelatsioonikordaja moodul on suhteliselt kaugel ühtsusest, siis väärtus t kui nullhüpotees on tõene, jaotatakse see Studenti seaduse järgi koos n– 2 vabadusastet. Konkureeriv hüpotees H 1 vastab väitele, et  väärtus ik ei ole võrdne nulliga (suurem kui või vähem kui null). Seetõttu on kriitiline piirkond kahepoolne.
62. Valimi korrelatsioonikordaja arvutamine ja sirge regressioonijoone valimvõrrandi koostamine.

Valimi korrelatsioonikordaja leitakse valemi järgi

kus on näidisvahendid standardhälbed väärtused ja .

Valimi korrelatsioonikordaja näitab lineaarse seose tihedust ja vahel: mida lähemal ühtsusele, seda tugevam on lineaarne seos ja vahel.

Lihtne lineaarne regressioon leiab lineaarse seose ühe sisendi ja ühe väljundmuutuja vahel. Selleks määratakse regressioonivõrrand - see on mudel, mis peegeldab Y väärtuste sõltuvust, Y sõltuvat väärtust x väärtustest, sõltumatu muutuja x ja üldkogumit. võrrandi järgi:

kus A0- regressioonivõrrandi vaba liige;

A1- regressioonivõrrandi koefitsient

Seejärel konstrueeritakse vastav sirge, mida nimetatakse regressioonijooneks. Koefitsiendid A0 ja A1, mida nimetatakse ka mudeli parameetriteks, on valitud selliselt, et reaalsete andmete vaatlustele vastavate punktide ruutude hälvete summa regressioonijoonest oleks minimaalne. Koefitsiendid valitakse vähimruutude meetodil. Teisisõnu, lihtne lineaarne regressioon kirjeldab lineaarset mudelit, mis annab kõige paremini ligikaudse seose ühe sisendi ja ühe väljundmuutuja vahel.

Õpingute ajal puutuvad õpilased väga sageli kokku mitmesuguste võrranditega. Ühte neist - regressioonivõrrandit - käsitletakse käesolevas artiklis. Seda tüüpi võrrandit kasutatakse spetsiaalselt matemaatiliste parameetrite vahelise seose omaduste kirjeldamiseks. Seda tüüpi võrdsust kasutatakse statistikas ja ökonomeetrias.

Regressiooni definitsioon

Matemaatikas mõistetakse regressiooni kui teatud suurust, mis kirjeldab andmekogumi keskmise väärtuse sõltuvust mõne teise suuruse väärtustest. Regressioonivõrrand näitab konkreetse tunnuse funktsioonina teise tunnuse keskmist väärtust. Regressioonifunktsioonil on lihtne võrrand y \u003d x, milles y toimib sõltuva muutujana ja x on sõltumatu muutuja (tunnustegur). Tegelikult väljendatakse regressiooni järgmiselt: y = f (x).

Millised on muutujatevahelised seosed

Üldiselt eristatakse kahte vastandlikku seost: korrelatsioon ja regressioon.

Esimest iseloomustab tingimuslike muutujate võrdsus. Sel juhul pole kindlalt teada, milline muutuja teisest sõltub.

Kui muutujate vahel puudub võrdsus ja tingimused ütlevad, milline muutuja on seletav ja milline sõltuv, siis saame rääkida teist tüüpi seose olemasolust. Lineaarse regressioonivõrrandi koostamiseks on vaja välja selgitada, millist tüüpi seost täheldatakse.

Regressioonide tüübid

Praeguseks on regressiooni 7 erinevat tüüpi: hüperboolne, lineaarne, mitmekordne, mittelineaarne, paariline, pöördvõrdeline, logaritmiliselt lineaarne.

Hüperboolne, lineaarne ja logaritmiline

Lineaarse regressiooni võrrandit kasutatakse statistikas võrrandi parameetrite selgeks selgitamiseks. Tundub, et y = c + m * x + E. Hüperboolvõrrand on tavalise hüperbooli kujul y \u003d c + m / x + E. Logaritmiliselt lineaarvõrrand väljendab suhet logaritmiline funktsioon: In y \u003d In c + t * In x + In E.

Mitmekordne ja mittelineaarne

kaks veel keerulised tüübid regressioonid on mitmekordsed ja mittelineaarsed. Mitmekordse regressiooni võrrandit väljendab funktsioon y \u003d f (x 1, x 2 ... x c) + E. Selles olukorras on y sõltuv muutuja ja x selgitav muutuja. Muutuja E on stohhastiline ja sisaldab võrrandi teiste tegurite mõju. Mittelineaarne võrrand regressioon on veidi vastuoluline. Ühelt poolt ei ole see arvessevõetavate näitajate osas lineaarne, teiselt poolt aga näitajate hindamise rollis lineaarne.

Pöörd- ja paarisregressioonid

Pöördfunktsioon on teatud tüüpi funktsioon, mis tuleb teisendada lineaarseks vormiks. Kõige traditsioonilisemates rakendusprogrammides on see funktsioonina y \u003d 1 / c + m * x + E. Paaritud regressioonivõrrand näitab andmete vahelist seost funktsioonina y = f(x) + E. Nii nagu teised võrrandid, sõltub y x-st ja E on stohhastiline parameeter.

Korrelatsiooni mõiste

See on näitaja, mis näitab seose olemasolu kahe nähtuse või protsessi vahel. Seose tugevust väljendatakse korrelatsioonikordajana. Selle väärtus kõigub vahemikus [-1;+1]. Negatiivne indikaator näitab tagasiside olemasolu, positiivne indikaator näitab otsest tagasisidet. Kui koefitsiendi väärtus on 0, siis seost ei ole. Mida lähemal on väärtus 1-le – seda tugevam on seos parameetrite vahel, mida lähemal 0-le – seda nõrgem.

meetodid

Parameetriliste korrelatsioonimeetoditega saab hinnata seose tihedust. Neid kasutatakse jaotushinnangute alusel normaaljaotuse seadusele alluvate parameetrite uurimiseks.

Lineaarse regressioonivõrrandi parameetrid on vajalikud sõltuvuse tüübi, regressioonivõrrandi funktsiooni tuvastamiseks ja valitud seose valemi näitajate hindamiseks. Korrelatsioonivälja kasutatakse seose tuvastamise meetodina. Selleks tuleb kõik olemasolevad andmed esitada graafiliselt. Ristkülikukujulises kahemõõtmelises koordinaatsüsteemis tuleb joonistada kõik teadaolevad andmed. Nii moodustub korrelatsiooniväli. Kirjeldava teguri väärtus on märgitud piki abstsissi, sõltuva teguri väärtused aga piki ordinaati. Kui parameetrite vahel on funktsionaalne seos, reastuvad need joone kujul.

Kui selliste andmete korrelatsioonikordaja on alla 30%, saame rääkida praktiliselt täielik puudumineühendused. Kui see on vahemikus 30% kuni 70%, näitab see keskmise tihedusega linkide olemasolu. 100% indikaator näitab funktsionaalset ühendust.

Mittelineaarset regressioonivõrrandit, nagu ka lineaarset, tuleb täiendada korrelatsiooniindeksiga (R).

Korrelatsioon mitme regressiooni korral

Determinatsioonikoefitsient on mitmikkorrelatsiooni ruudu näitaja. Ta räägib esitatud näitajate kogumi seose tihedusest uuritava tunnusega. See võib rääkida ka parameetrite mõju olemusest tulemusele. Mitmekordse regressiooni võrrandit hinnatakse selle indikaatori abil.

Mitmekordse korrelatsiooniindeksi arvutamiseks on vaja arvutada selle indeks.

Vähima ruudu meetod

See meetod on regressioonitegurite hindamise viis. Selle olemus seisneb teguri sõltuvusest funktsioonist saadud hälvete ruudu summa minimeerimises.

Sellist meetodit kasutades saab hinnata paaris lineaarse regressiooni võrrandit. Seda tüüpi võrrandeid kasutatakse paaris lineaarse seose näitajate tuvastamisel.

Võrrandi valikud

Lineaarse regressioonifunktsiooni igal parameetril on konkreetne tähendus. Paaris lineaarse regressiooni võrrand sisaldab kahte parameetrit: c ja m. Parameeter t näitab funktsiooni y lõppnäitaja keskmist muutust, tingimusel et muutuja x väheneb (suureneb) ühe võrra. tavapärane üksus. Kui muutuja x on null, on funktsioon võrdne parameetriga c. Kui muutuja x ei ole null, siis ei ole teguril c majanduslikult mõtet. Ainus mõju funktsioonile on märk teguri c ees. Kui on miinus, siis võime öelda tulemuse aeglase muutumise kohta võrreldes teguriga. Kui pluss on, näitab see tulemuse kiirendatud muutust.

Iga parameetrit, mis muudab regressioonivõrrandi väärtust, saab väljendada võrrandi kaudu. Näiteks tegur c on kujul c = y - mx.

Grupeeritud andmed

Probleemil on sellised tingimused, kus kogu teave on rühmitatud atribuudi x järgi, kuid samal ajal ka jaoks teatud grupp näidatakse sõltuva indikaatori vastavad keskmised väärtused. Sel juhul iseloomustavad keskmised väärtused, kuidas indikaator sõltub x-st. Seega aitab rühmitatud info leida regressioonivõrrandit. Seda kasutatakse suhteanalüüsina. Sellel meetodil on aga omad puudused. Kahjuks on keskmised sageli väliste kõikumiste all. Need kõikumised ei peegelda suhte mustreid, vaid maskeerivad selle "müra". Keskmised näitavad seoste mustreid palju halvemini kui lineaarse regressiooni võrrand. Neid saab aga võtta aluseks võrrandi leidmisel. Korrutades konkreetse populatsiooni suuruse vastava keskmisega, saate rühmasisese y summa. Järgmiseks peate kõik laekunud summad välja lööma ja leidma lõpliku indikaatori y. Natuke keerulisem on arvutusi teha summanäitaja xy abil. Kui intervallid on väikesed, võime tinglikult võtta indikaatori x kõigi ühikute jaoks (grupi sees) samaks. Korrutage see y summaga, et leida x ja y korrutiste summa. Edasi lüüakse kõik summad kokku ja saadakse kogusumma xy.

Mitme paari võrrandi regressioon: suhte tähtsuse hindamine

Nagu varem mainitud, on mitmekordse regressiooni funktsioon kujul y \u003d f (x 1, x 2, ..., x m) + E. Kõige sagedamini kasutatakse sellist võrrandit kaupade pakkumise ja nõudluse, tagasiostetud aktsiate intressitulu probleemi lahendamiseks, tootmiskulude funktsiooni põhjuste ja tüübi uurimisel. Seda kasutatakse aktiivselt ka mitmesugustes makromajanduslikes uuringutes ja arvutustes, kuid mikroökonoomika tasandil kasutatakse seda võrrandit veidi harvemini.

Mitmekordse regressiooni põhiülesanne on koostada tohutul hulgal teavet sisaldav andmemudel, et täpsemalt kindlaks teha, milline on iga teguri mõju eraldiseisvalt ja tervikuna modelleeritavale näitajale ja selle koefitsientidele. Regressioonivõrrand võib võtta mitmesuguseid väärtusi. Sel juhul kasutatakse seose hindamiseks tavaliselt kahte tüüpi funktsioone: lineaarset ja mittelineaarset.

Lineaarne funktsioon on kujutatud sellise seose kujul: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Sel juhul loetakse a2, a m "puhta" regressiooni koefitsientideks. Need on vajalikud parameetri y keskmise muutuse iseloomustamiseks iga vastava parameetri x muutusega (vähenemise või suurenemisega) ühe ühiku võrra, teiste näitajate stabiilse väärtuse tingimusel.

Mittelineaarsetel võrranditel on näiteks vorm toitefunktsioon y=ax 1 b1 x 2 b2 ...x m bm . Sel juhul nimetatakse näitajaid b 1, b 2 ..... b m - elastsuskoefitsientideks, need näitavad, kuidas tulemus muutub (kui palju%) vastava näitaja x suurenemisel (vähenemisel) 1% võrra. ja muude tegurite stabiilse näitajaga.

Milliseid tegureid tuleks mitmekordse regressiooni koostamisel arvesse võtta

Et korralikult ehitada mitmekordne regressioon, tuleb välja selgitada, millistele teguritele tuleks erilist tähelepanu pöörata.

Majandustegurite ja modelleeritava vahelise seose olemusest on vaja teatud arusaama. Kaasatavad tegurid peavad vastama järgmistele kriteeriumidele:

  • Peab olema mõõdetav. Objekti kvaliteeti kirjeldava teguri kasutamiseks tuleks sellele igal juhul anda kvantitatiivne vorm.
  • Ei tohiks olla tegurite vastastikust korrelatsiooni ega funktsionaalset seost. Need tegevused põhjustavad sageli pöördumatud tagajärjed- tavavõrrandisüsteem muutub tingimusteta ja see toob kaasa selle ebausaldusväärsuse ja hägused hinnangud.
  • Hiiglasliku korrelatsiooninäitaja puhul ei ole võimalik välja selgitada tegurite isoleeritud mõju näitaja lõpptulemusele, mistõttu muutuvad koefitsiendid tõlgendamatuks.

Ehitusmeetodid

Võrrandi tegurite valimise selgitamiseks on tohutult palju meetodeid ja viise. Kõik need meetodid põhinevad aga koefitsientide valikul korrelatsiooniindeksi abil. Nende hulgas on:

  • Välistamismeetod.
  • Lülitage meetod sisse.
  • Astmeline regressioonanalüüs.

Esimene meetod hõlmab kõigi koefitsientide väljasõelumist koondkomplektist. Teine meetod hõlmab paljude täiendavate tegurite kasutuselevõttu. Noh, kolmas on tegurite kõrvaldamine, mida võrrandile varem rakendati. Igal neist meetoditest on õigus eksisteerida. Neil on oma plussid ja miinused, kuid nad saavad omal moel lahendada mittevajalike näitajate väljasõelumise. Reeglina on iga üksiku meetodi abil saadud tulemused üsna lähedased.

Mitmemõõtmelise analüüsi meetodid

Sellised tegurite määramise meetodid põhinevad omavahel seotud tunnuste individuaalsete kombinatsioonide arvestamisel. Nende hulka kuuluvad diskriminantanalüüs, mustrituvastus, põhikomponentide analüüs ja klastrianalüüs. Lisaks on olemas ka faktoranalüüs, kuid see ilmnes komponentmeetodi väljatöötamise tulemusena. Kõiki neid rakendatakse teatud asjaoludel, teatud tingimustel ja teguritel.

Mis on regressioon?

Vaatleme kahte pidevat muutujat x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Asetame punktid 2D-hajumisgraafikule ja ütleme, et on lineaarne suhe kui andmed on ligikaudsed sirgjoonega.

Kui eeldame, et y sõltub x ja muudatused y põhjustatud muutustest x, saame määratleda regressioonijoone (regressioon y peal x), mis kirjeldab kõige paremini nende kahe muutuja sirgjoont.

Sõna "regressioon" statistiline kasutamine pärineb nähtusest, mida nimetatakse regressiooniks keskmiseks ja mille omistati Sir Francis Galtonile (1889).

Ta näitas, et kui pikkadel isadel on tavaliselt pikad pojad, siis poegade keskmine pikkus on nende pikkade isade omast väiksem. Keskmine pikkus pojad "taandusid" ja "kolisid tagasi" elanikkonna kõigi isade keskmise pikkuseni. Seega on pikkadel isadel keskmiselt lühemad (kuid siiski pikad) pojad, lühikestel isadel aga pikemad (aga siiski pigem lühikesed) pojad.

regressioonijoon

Matemaatiline võrrand, mis hindab lihtsat (paaripõhist) lineaarset regressioonijoont:

x nimetatakse sõltumatuks muutujaks või ennustajaks.

Y on sõltuv või vastuse muutuja. See on väärtus, mida me ootame y(keskmiselt), kui väärtust teame x, st. on ennustatud väärtus y»

  • a- hindamisliini vabaliige (ületamine); see väärtus Y, millal x=0(Joonis 1).
  • b - kalle või hinnangulise joone gradient; see on summa, mille võrra Y suureneb keskmiselt, kui me suurendame xühe ühiku kohta.
  • a ja b nimetatakse hinnangulise rea regressioonikoefitsientideks, kuigi seda terminit kasutatakse sageli ainult b.

Paaripõhist lineaarset regressiooni saab laiendada nii, et see hõlmaks rohkem kui ühte sõltumatut muutujat; sel juhul tuntakse seda kui mitmekordne regressioon.

Joonis 1. Lineaarne regressioonijoon, mis näitab a ja kalde b lõikepunkti (Y suurenemise suurus, kui x suureneb ühe ühiku võrra)

Vähima ruudu meetod

Regressioonanalüüsi teostame vaatluste valimi abil, kus a ja b- tõeliste (üldiste) parameetrite valimihinnangud α ja β , mis määravad populatsiooni (üldkogumi) lineaarse regressiooni joone.

Enamik lihtne meetod koefitsientide määramine a ja b on vähima ruudu meetod(MNK).

Sobivust hinnatakse jääkide järgi (iga punkti vertikaalne kaugus joonest, nt jääk = jälgitav y- ennustas y, Riis. 2).

Parima sobivuse rida valitakse nii, et jääkide ruutude summa oleks minimaalne.

Riis. 2. Lineaarne regressioonijoon koos kujutatud jääkide (vertikaalsete punktiirjoontega) iga punkti jaoks.

Lineaarse regressiooni eeldused

Seega on iga vaadeldava väärtuse jääk võrdne erinevuse ja vastava ennustatud väärtusega.Iga jääk võib olla positiivne või negatiivne.

Jääkide abil saate testida järgmisi lineaarse regressiooni eeldusi.

  • Jäägid on tavaliselt jaotatud null keskmisega;

Kui lineaarsuse, normaalsuse ja/või konstantse dispersiooni eeldused on küsitavad, saame teisendada või arvutada uue regressioonisirge, mille puhul need eeldused on täidetud (nt kasutada logaritmilist teisendust jne).

Ebanormaalsed väärtused (kõrvalväärtused) ja mõjupunktid

"Mõjuline" vaatlus, kui see välja jäetakse, muudab üht või mitut mudeli parameetri hinnangut (st kallet või lõikepunkti).

Kõrvalväärtus (vaatlus, mis on vastuolus enamiku andmekogu väärtustega) võib olla "mõjukas" vaatlus ja seda saab visuaalselt hästi tuvastada, kui vaadata 2D hajuvusdiagrammi või jääkide graafikut.

Nii kõrvalekallete kui ka "mõjukate" vaatluste (punktide) puhul kasutatakse mudeleid, nii nende kaasamisega kui ka ilma, pöörake tähelepanu hinnangu muutusele (regressioonikordajad).

Analüüsi tegemisel ärge jätke kõrvalekaldeid ega mõjupunkte automaatselt kõrvale, kuna lihtsalt nende ignoreerimine võib tulemusi mõjutada. Uurige alati nende kõrvalekallete põhjuseid ja analüüsige neid.

Lineaarse regressiooni hüpotees

Lineaarse regressiooni koostamisel kontrollitakse nullhüpoteesi, et regressioonisirge β üldine kalle on võrdne nulliga.

Kui sirge kalle on null, ei ole lineaarset seost ja vahel: muutus ei mõjuta

Nullhüpoteesi testimiseks, et tegelik kalle on null, võite kasutada järgmist algoritmi:

Arvutage katsestatistika, mis on võrdne suhtega , mis järgib vabadusastmetega jaotust, kus koefitsiendi standardviga


,

- jääkide dispersiooni hindamine.

Tavaliselt, kui saavutatud olulisuse tase on nullhüpotees, lükatakse tagasi.


kus on vabadusastmetega jaotuse protsendipunkt, mis annab kahepoolse testi tõenäosuse

See on intervall, mis sisaldab üldist kallet tõenäosusega 95%.

Oletame, et suurte valimite puhul saame ligikaudse väärtusega 1,96 (see tähendab, et testistatistika kipub olema normaalselt jaotunud)

Lineaarse regressiooni kvaliteedi hindamine: määramistegur R 2

Lineaarse seose tõttu ja eeldame, et see muutub muutustega ja me nimetame seda variatsiooniks, mis on regressioonist tingitud või sellega seletatav. Jääkvariatsioon peaks olema võimalikult väike.

Kui jah, siis suurem osa variatsioonist on seletatav regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi.

Nimetatakse regressiooniga seletatavat osa dispersioonist määramiskoefitsient, väljendatakse tavaliselt protsentides ja tähistatakse R2(paaris lineaarses regressioonis on see väärtus r2, korrelatsioonikordaja ruut), võimaldab subjektiivselt hinnata regressioonivõrrandi kvaliteeti.

Erinevus on dispersiooniprotsent, mida ei saa regressiooniga seletada.

Kuna pole ametlikku testi, mida hinnata, oleme sunnitud regressioonijoone sobivuse kvaliteedi määramiseks tuginema subjektiivsele hinnangule.

Regressioonijoone rakendamine prognoosile

Saate kasutada regressioonijoont, et ennustada väärtust vaadeldavas vahemikus olevast väärtusest (ärge kunagi ekstrapoleerige neid piire kaugemale).

Me ennustame teatud väärtusega vaadeldavate objektide keskmist, asendades selle väärtuse regressioonijoone võrrandiga.

Seega, kui ennustame nii, kasutame seda ennustatud väärtust ja selle standardviga tõese usaldusvahemiku hindamiseks keskmise suurusega elanikkonnas.

Selle protseduuri kordamine erinevate väärtuste jaoks võimaldab teil luua selle rea usalduspiirangud. See on riba või ala, mis sisaldab tõelist joont, näiteks 95% usaldusnivooga.

Lihtsad regressiooniplaanid

Lihtsad regressioonikujundused sisaldavad ühte pidevat ennustajat. Kui ennustaja väärtustega P on kolm juhtumit, näiteks 7, 4 ja 9, ja kujundus sisaldab esimest järku efekti P , siis on kujundusmaatriks X

a regressioonivõrrand P kasutamine X1 jaoks näeb välja selline

Y = b0 + b1 P

Kui lihtne regressiooniplaan sisaldab efekti kõrgem järjekord P puhul, nagu ruutefekt, tõstetakse kujundusmaatriksi veerus X1 olevad väärtused teise astmeni:

ja võrrand saab kuju

Y = b0 + b1 P2

Sigma-piiratud ja üleparameetrilised kodeerimismeetodid ei kehti lihtsate regressioonikavandite ja muude ainult pidevaid ennustajaid sisaldavate kujunduste puhul (kuna kategoorilisi ennustajaid lihtsalt pole). Olenemata valitud kodeerimismeetodist suurendatakse pidevate muutujate väärtusi sobiva võimsusega ja neid kasutatakse X muutujate väärtustena. Sel juhul konversiooni ei teostata. Lisaks võite regressiooniplaanide kirjeldamisel jätta plaani maatriksi X arvesse võtmata ja töötada ainult regressioonivõrrandiga.

Näide: Lihtne regressioonianalüüs

See näide kasutab tabelis esitatud andmeid:

Riis. 3. Algandmete tabel.

Andmed põhinevad 1960. ja 1970. aasta rahvaloenduse võrdlusel 30 juhuslikult valitud maakonnas. Maakonnanimed on esindatud vaatlusnimedena. Teave iga muutuja kohta on esitatud allpool:

Riis. 4. Muutujate spetsifikatsioonitabel.

Uurimise eesmärk

Selle näite puhul analüüsitakse korrelatsiooni vaesuse määra ja võimsuse vahel, mis ennustab vaesuspiirist allpool olevate perede protsenti. Seetõttu käsitleme muutujat 3 (Pt_Poor ) sõltuva muutujana.

Võib püstitada hüpoteesi: rahvaarvu muutus ja alla vaesuspiiri jäävate perede protsent on omavahel seotud. Tundub mõistlik eeldada, et vaesus toob kaasa rahvastiku väljavoolu, mistõttu oleks alla vaesuspiiri jäävate inimeste osakaalu ja rahvastiku muutuse vahel negatiivne korrelatsioon. Seetõttu käsitleme muutujat 1 (Pop_Chng) ennustava muutujana.

Vaata tulemusi

Regressioonikoefitsiendid

Riis. 5. Regressioonikoefitsiendid Pt_Poor kohta Pop_Chng.

Pop_Chng rea ja Param ristumiskohas. mittestandardiseeritud koefitsient Pt_Poor regressiooni jaoks Pop_Chng puhul on -0,40374 . See tähendab, et iga ühikulise rahvaarvu vähenemise korral suureneb vaesuse määr 0,40374 võrra. Selle mittestandardiseeritud koefitsiendi ülemine ja alumine (vaikimisi) 95% usalduspiir ei sisalda nulli, seega on regressioonikoefitsient p-tasemel oluline<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Muutujate jaotus

Korrelatsioonikordajad võivad muutuda oluliselt üle- või alahinnatuks, kui andmetes on suuri kõrvalekaldeid. Uurime sõltuva muutuja Pt_Poor jaotust maakondade kaupa. Selleks koostame muutuja Pt_Poor histogrammi.

Riis. 6. Muutuja Pt_Poor histogramm.

Nagu näete, erineb selle muutuja jaotus normaaljaotusest märgatavalt. Kuigi isegi kahes maakonnas (parempoolsed kaks veergu) on vaesuspiirist allapoole jäävate perede protsent normaaljaotuses oodatust suurem, näivad nad olevat "vahemikus sees".

Riis. 7. Muutuja Pt_Poor histogramm.

See otsus on mõnevõrra subjektiivne. Rusikareegel on, et kõrvalekaldeid tuleks arvesse võtta, kui vaatlus (või vaatlused) ei jää intervalli (keskmine ± 3 korda standardhälve) sisse. Sel juhul tasub analüüsi korrata nii kõrvalekalletega kui ka ilma, veendumaks, et need ei avalda tõsist mõju üldkogumi liikmete vahelisele korrelatsioonile.

Hajuvusdiagramm

Kui üks hüpoteesidest on a priori antud muutujate vahelise seose kohta, siis on kasulik seda kontrollida vastava hajuvusdiagrammi graafikul.

Riis. 8. Hajuvusdiagramm.

Hajuvusdiagramm näitab selget negatiivset korrelatsiooni (-.65) kahe muutuja vahel. See näitab ka regressioonijoone 95% usaldusvahemikku, st 95% tõenäosusega läheb regressioonijoon kahe katkendliku kõvera vahelt.

Olulisuse kriteeriumid

Riis. 9. Olulisuse kriteeriume sisaldav tabel.

Pop_Chng regressioonikordaja test kinnitab, et Pop_Chng on tugevalt seotud Pt_Poor , p<.001 .

Tulemus

See näide näitas, kuidas analüüsida lihtsat regressiooniplaani. Esitati ka mittestandardiseeritud ja standardiseeritud regressioonikordaja tõlgendus. Arutletakse sõltuva muutuja vastusejaotuse uurimise tähtsusest ning demonstreeritakse ennustaja ja sõltuva muutuja vahelise seose suuna ja tugevuse määramise tehnikat.

Eelmistes märkustes on sageli keskendutud ühele numbrilisele muutujale, nagu investeerimisfondide tootlus, veebilehe laadimisaeg või karastusjookide tarbimine. Selles ja järgmistes märkustes käsitleme arvulise muutuja väärtuste ennustamise meetodeid sõltuvalt ühe või mitme muu arvmuutuja väärtustest.

Materjali illustreeritakse läbiva näitega. Müügimahu prognoosimine riidepoes. Soodusrõivaste kaupluste kett Sunflowers on 25 aastat pidevalt laienenud. Samas ei ole ettevõttel praegu süsteemset lähenemist uute müügikohtade valikule. Asukoht, kus ettevõte kavatseb uue kaupluse avada, määratakse subjektiivsete kaalutluste põhjal. Valikukriteeriumiks on soodsad renditingimused või juhataja ettekujutus kaupluse ideaalsest asukohast. Kujutage ette, et olete eriprojektide ja planeerimise osakonna juhataja. Olete saanud ülesandeks välja töötada strateegiline plaan uute kaupluste avamiseks. See plaan peaks sisaldama äsja avatud kaupluste aastamüügi prognoosi. Usute, et pinna müük on otseselt seotud tuluga, ja soovite seda asjaolu oma otsustusprotsessis arvesse võtta. Kuidas arendada statistilist mudelit, mis prognoosib iga-aastast müüki uue kaupluse suuruse põhjal?

Tavaliselt kasutatakse muutuja väärtuste ennustamiseks regressioonanalüüsi. Selle eesmärk on välja töötada statistiline mudel, mis ennustab sõltuva muutuja ehk vastuse väärtusi vähemalt ühe sõltumatu või selgitava muutuja väärtuste põhjal. Selles märkuses käsitleme lihtsat lineaarset regressiooni - statistilist meetodit, mis võimaldab ennustada sõltuva muutuja väärtusi Y sõltumatu muutuja väärtuste järgi X. Järgmised märkused kirjeldavad mitmekordset regressioonimudelit, mis on loodud sõltumatu muutuja väärtuste ennustamiseks Y mitme sõltuva muutuja väärtuste järgi ( X 1, X 2, …, X k).

Laadige alla märge vormingus või vormingus, näited vormingus

Regressioonimudelite tüübid

kus ρ 1 on autokorrelatsioonikordaja; kui ρ 1 = 0 (autokorrelatsioon puudub), D≈ 2; kui ρ 1 ≈ 1 (positiivne autokorrelatsioon), D≈ 0; kui ρ 1 = -1 (negatiivne autokorrelatsioon), D ≈ 4.

Praktikas põhineb Durbin-Watsoni kriteeriumi rakendamine väärtuse võrdlusel D kriitiliste teoreetiliste väärtustega dl ja d U etteantud arvu vaatluste jaoks n, mudeli sõltumatute muutujate arv k(lihtsa lineaarse regressiooni jaoks k= 1) ja olulisuse tase α. Kui a D< d L , lükatakse tagasi hüpotees juhuslike kõrvalekallete sõltumatuse kohta (seega on positiivne autokorrelatsioon); kui D > d U, hüpoteesi ei lükata tagasi (st puudub autokorrelatsioon); kui dl< D < d U otsuse tegemiseks pole piisavalt põhjust. Kui arvutatud väärtus Dületab 2, siis dl ja d U ei võrrelda koefitsienti ennast D ja avaldis (4 – D).

Durbin-Watsoni statistika arvutamiseks Excelis pöördume joonisel fig. neliteist Saldo väljavõtmine. Lugeja avaldises (10) arvutatakse funktsiooni = SUMMQDIFF(massiiv1, massiiv2) ja nimetaja = SUMMQ(massiivi) abil (joonis 16).

Riis. 16. Durbin-Watsoni statistika arvutamise valemid

Meie näites D= 0,883. Peamine küsimus on: millist Durbin-Watsoni statistika väärtust tuleks pidada piisavalt väikeseks, et järeldada positiivse autokorrelatsiooni olemasolu? On vaja korreleerida D väärtus kriitiliste väärtustega ( dl ja d U) olenevalt vaatluste arvust n ja olulisuse tase α (joonis 17).

Riis. 17. Durbin-Watsoni statistika kriitilised väärtused (tabeli fragment)

Seega on teie koju kaupu tarniva kaupluse müügimahu probleemis üks sõltumatu muutuja ( k= 1), 15 vaatlust ( n= 15) ja olulisuse tase α = 0,05. Järelikult dl= 1,08 ja dU= 1,36. Kuna D = 0,883 < dl= 1,08, jääkide vahel on positiivne autokorrelatsioon, vähimruutude meetodit ei saa rakendada.

Hüpoteeside testimine kalde ja korrelatsioonikordaja kohta

Ülaltoodud regressiooni kasutati ainult prognoosimiseks. Regressioonikordajate määramiseks ja muutuja väärtuse ennustamiseks Y antud muutuja väärtuse jaoks X kasutati vähimruutude meetodit. Lisaks võtsime arvesse hinnangu standardviga ja segakorrelatsioonikordaja. Kui jääkanalüüs kinnitab, et vähimruutude meetodi rakendatavuse tingimusi ei rikuta ja lihtne lineaarse regressiooni mudel on adekvaatne, võib valimiandmete põhjal väita, et üldkogumi muutujate vahel on lineaarne sõltuvus.

Rakendust -kalde kriteeriumid. Kontrollides, kas populatsiooni kalle β 1 on võrdne nulliga, saab kindlaks teha, kas muutujate vahel on statistiliselt oluline seos X ja Y. Kui see hüpotees tagasi lükata, võib väita, et muutujate vahel X ja Y on lineaarne seos. Null- ja alternatiivhüpotees on sõnastatud järgmiselt: H 0: β 1 = 0 (lineaarne seos puudub), H1: β 1 ≠ 0 (on lineaarne seos). Definitsiooni järgi t-statistika võrdub valimi kalde ja hüpoteetilise populatsiooni kalde erinevusega, mis on jagatud kalde hinnangu standardveaga:

(11) t = (b 1 β 1 ) / Sb 1

kus b 1 on valimiandmetel põhineva otsese regressiooni kalle, β1 on otsese üldkogumi hüpoteetiline tõus, ja teststatistikat t Sellel on t- levitamine koos n-2 vabadusastmed.

Kontrollime, kas poe suuruse ja aastamüügi vahel on statistiliselt oluline seos α = 0,05 juures. t-kriteeriumid kuvatakse kasutamisel koos teiste parameetritega Analüüsi pakett(valik Regressioon). Analüüsipaketi täielikud tulemused on näidatud joonisel fig. 4, t-statistikaga seotud fragment - joonisel fig. kaheksateist.

Riis. 18. Taotluste tulemused t

Kuna kaupluste arv n= 14 (vt joonis 3), kriitiline väärtus t-statistikat olulisuse tasemel α = 0,05 saab leida valemiga: t L=ÕPILAS.INV(0,025;12) = -2,1788 kus 0,025 on pool olulisuse tasemest ja 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Kuna t-statistika = 10,64 > t U= 2,1788 (joonis 19), nullhüpotees H 0 lükatakse tagasi. Teiselt poolt, R- väärtus X\u003d 10,6411, arvutatuna valemiga \u003d 1-ÕPILAS.KAUG (D3, 12, TÕENE), on ligikaudu võrdne nulliga, seega on hüpotees H 0 lükatakse uuesti tagasi. Asjaolu, et R-väärtus on peaaegu null, mis tähendab, et kui poe suuruse ja aastamüügi vahel poleks reaalset lineaarset seost, oleks seda lineaarse regressiooni abil peaaegu võimatu leida. Seetõttu on keskmise aastase kaupluse müügi ja kaupluse suuruse vahel statistiliselt oluline lineaarne seos.

Riis. 19. Hüpoteesi testimine üldpopulatsiooni kalde kohta olulisuse tasemel 0,05 ja 12 vabadusastet

RakendusF -kalde kriteeriumid. Lihtsa lineaarse regressiooni tõusu hüpoteeside kontrollimise alternatiivne lähenemisviis on kasutada F- kriteeriumid. Tuletage seda meelde F-kriteeriumit kasutatakse kahe dispersiooni vahelise seose testimiseks (vt üksikasju). Kaldehüpoteesi testimisel on juhuslike vigade mõõduks vea dispersioon (vigade ruudu summa jagatud vabadusastmete arvuga), nii et F-test kasutab regressiooniga seletatud dispersiooni suhet (st väärtusi SSR jagatud sõltumatute muutujate arvuga k), vea dispersioonini ( MSE = S YX 2 ).

Definitsiooni järgi F-statistika võrdub regressioonist tingitud keskmiste ruutude hälvete (MSR) jagamisel vea dispersiooniga (MSE): F = MSR/ MSE, kus MSR=SSR / k, MSE =SSE/(n– k – 1), k on sõltumatute muutujate arv regressioonimudelis. Testi statistika F Sellel on F- levitamine koos k ja n– k – 1 vabadusastmed.

Antud olulisuse taseme α puhul formuleeritakse otsustusreegel järgmiselt: kui F > FU, nullhüpotees lükatakse tagasi; vastasel juhul seda tagasi ei lükata. Tulemused, mis on esitatud dispersioonanalüüsi koondtabeli kujul, on näidatud joonisel fig. kakskümmend.

Riis. 20. ANOVA tabel hüpoteesi kontrollimiseks umbes statistiline olulisus regressioonikoefitsient

Samamoodi t- kriteerium F-kriteeriumid kuvatakse kasutamisel tabelis Analüüsi pakett(valik Regressioon). Töö täielikud tulemused Analüüsi pakett näidatud joonisel fig. 4, fragment seotud F-statistika - joonisel fig. 21.

Riis. 21. Taotluste tulemused F- Exceli analüüsi tööriistapaketi abil saadud kriteeriumid

F-statistika on 113,23 ja R- nullilähedane väärtus (lahter TähtsusF). Kui olulisuse tase α on 0,05, määrake kriitiline väärtus F-valemist saab ühe ja 12 vabadusastmega jaotusi F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (joonis 22). Kuna F = 113,23 > F U= 4,7472 ja R- väärtus on lähedane 0-le< 0,05, нулевая гипотеза H 0 kaldub kõrvale, st. Poe suurus on tihedalt seotud selle aastase müügimahuga.

Riis. 22. Hüpoteesi testimine üldpopulatsiooni kalde kohta olulisuse tasemel 0,05, ühe ja 12 vabadusastmega

Usaldusvahemik, mis sisaldab kallet β 1 . Muutujatevahelise lineaarse seose olemasolu hüpoteesi testimiseks saate luua usaldusvahemiku, mis sisaldab tõusu β 1, ja veenduda, et hüpoteetiline väärtus β 1 = 0 kuulub sellesse intervalli. Kallet β 1 sisaldava usaldusvahemiku keskpunkt on valimi kalle b 1 , ja selle piirid on kogused b 1 ±t n –2 Sb 1

Nagu on näidatud joonisel fig. kaheksateist, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Järelikult b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 või + 1,328 ≤ β 1 ≤ +2,012. Seega on populatsiooni kalle tõenäosusega 0,95 vahemikus +1,328 kuni +2,012 (st 1 328 000 kuni 2 012 000 dollarit). Kuna need väärtused on suuremad kui null, on aastase müügi ja kaupluse pindala vahel statistiliselt oluline lineaarne seos. Kui usaldusvahemik sisaldaks nulli, poleks muutujate vahel seost. Lisaks tähendab usaldusvahemik, et iga 1000 ruutmeetri kohta. jalad põhjustavad keskmise müügi kasvu 1 328 000 dollari võrra 2 012 000 dollarini.

Kasutaminet -korrelatsioonikordaja kriteeriumid. võeti kasutusele korrelatsioonikordaja r, mis on kahe arvmuutuja vahelise seose mõõt. Selle abil saab määrata, kas kahe muutuja vahel on statistiliselt oluline seos. Korrelatsioonikordaja mõlema muutuja populatsioonide vahel tähistame sümboliga ρ. Null- ja alternatiivsed hüpoteesid on sõnastatud järgmiselt: H 0: ρ = 0 (korrelatsioon puudub), H 1: ρ ≠ 0 (seal on korrelatsioon). Korrelatsiooni olemasolu kontrollimine:

kus r = + , kui b 1 > 0, r = – , kui b 1 < 0. Тестовая статистика t Sellel on t- levitamine koos n-2 vabadusastmed.

Päevalillede kaupluseketi probleemis r2= 0,904 ja b 1- +1,670 (vt joonis 4). Kuna b 1> 0, on aastase müügi ja kaupluse suuruse korrelatsioonikoefitsient r= +√0,904 = +0,951. Testime nullhüpoteesi, et nende muutujate vahel puudub korrelatsioon t- statistika:

Olulisuse tasemel α = 0,05 tuleks nullhüpotees tagasi lükata, kuna t= 10,64 > 2,1788. Seega võib väita, et aastamüügi ja kaupluse suuruse vahel on statistiliselt oluline seos.

Arutades rahvastiku kalde mõju, usaldusvahemikud ja hüpoteeside kontrollimise kriteeriumid on vahetatavad tööriistad. Korrelatsioonikordaja sisaldava usaldusvahemiku arvutamine osutub aga keerulisemaks, kuna statistika valimijaotuse vorm r sõltub tegelikust korrelatsioonikordajast.

Matemaatilise ootuse hindamine ja individuaalsete väärtuste prognoosimine

Selles jaotises käsitletakse eeldatava vastuse hindamise meetodeid Y ja individuaalsete väärtuste prognoosid Y muutuja antud väärtuste jaoks X.

Usaldusvahemiku konstrueerimine. Näites 2 (vt ülaltoodud jaotist Vähima ruudu meetod) regressioonivõrrand võimaldas ennustada muutuja väärtust Y X. Jaemüügikoha asukoha valimise probleemis on 4000 ruutmeetri suuruse kaupluse keskmine aastane müük. jalg oli võrdne 7,644 miljoni dollariga. See üldrahvastiku matemaatiliste ootuste hinnang on aga punkt. üldkogumi matemaatilise ootuse hindamiseks pakuti välja usaldusvahemiku kontseptsioon. Samamoodi võib kontseptsiooni tutvustada vastuse matemaatilise ootuse usaldusvahemik juures seatud väärtus muutuv X:

kus , = b 0 + b 1 X i– prognoositava väärtuse muutuja Y juures X = X i, S YX on keskmine ruutviga, n on valimi suurus, Xi- muutuja antud väärtus X, µ Y|X = Xioodatud väärtus muutuv Y juures X = Х i,SSX=

Valemi (13) analüüs näitab, et usaldusvahemiku laius sõltub mitmest tegurist. Antud olulisuse tasemel viib kõikumiste amplituudi suurenemine regressioonijoone ümber, mõõdetuna keskmise ruutvea abil, intervalli laiuse suurenemiseni. Teisest küljest, nagu oodatud, kaasneb valimi suuruse suurenemisega intervalli ahenemine. Lisaks muutub intervalli laius sõltuvalt väärtustest Xi. Kui muutuja väärtus Y prognoositud koguste jaoks X, keskmise väärtuse lähedal , osutub usaldusvahemik kitsamaks kui keskmisest kaugel olevate väärtuste vastuse ennustamisel.

Oletame, et poe asukohta valides soovime kõigis 4000 ruutmeetrise pindalaga kauplustes ehitada 95% usaldusvahemikku aasta keskmisele müügile. jalad:

Seetõttu on kõigis kauplustes, mille pindala on 4000 ruutmeetrit, keskmine aastane müügimaht. jalga, 95% tõenäosusega jääb vahemikku 6,971–8,317 miljonit dollarit.

Arvutage prognoositud väärtuse usaldusvahemik. Lisaks sellele muutuja antud väärtuse vastuse matemaatilise ootuse usaldusvahemikule X, on sageli vaja teada ennustatud väärtuse usaldusvahemikku. Kuigi sellise usaldusvahemiku arvutamise valem on väga sarnane valemiga (13), sisaldab see intervall prognoositavat väärtust, mitte parameetri hinnangut. Prognoositava vastuse intervall YX = Xi muutuja konkreetse väärtuse jaoks Xi määratakse järgmise valemiga:

Oletame, et jaemüügikoha asukohta valides soovime 4000 ruutmeetri suuruse kaupluse prognoositavale aastasele müügimahule ehitada 95% usaldusvahemikku. jalad:

Seetõttu prognoositakse 4000 ruutmeetri müügimahtu. jalga, jääb 95% tõenäosusega vahemikku 5,433 kuni 9,854 miljonit dollarit Nagu näete, on prognoositud vastuse väärtuse usaldusvahemik palju laiem kui selle matemaatilise ootuse usaldusvahemik. Selle põhjuseks on asjaolu, et individuaalsete väärtuste prognoosimise varieeruvus on palju suurem kui eeldatava väärtuse hindamisel.

Regressiooni kasutamisega seotud lõksud ja eetilised probleemid

Regressioonanalüüsiga seotud raskused:

  • Vähimruutude meetodi rakendamistingimuste eiramine.
  • Vähimruutude meetodi rakendatavuse tingimuste ekslik hinnang.
  • Alternatiivsete meetodite vale valik, rikkudes vähimruutude meetodi kohaldamistingimusi.
  • Regressioonanalüüsi rakendamine ilma õppeaine süvendatud tundmiseta.
  • Regressiooni ekstrapoleerimine väljaspool selgitava muutuja vahemikku.
  • Segadus statistiliste ja põhjuslike seoste vahel.

Arvutustabelite levik ja tarkvara statistiliste arvutuste jaoks kõrvaldas arvutusprobleemid, mis takistasid regressioonanalüüsi kasutamist. See aga viis selleni, et regressioonanalüüsi hakkasid kasutama kasutajad, kellel ei ole piisavat kvalifikatsiooni ja teadmisi. Kuidas saavad kasutajad teada alternatiivmeetoditest, kui paljudel neist pole vähimruutude meetodi rakendamistingimustest üldse aimu ega tea, kuidas nende rakendamist kontrollida?

Uurijat ei tohiks ära viia numbrite lihvimine – nihke, kalde ja segakorrelatsioonikordaja arvutamine. Ta vajab rohkem sügavaid teadmisi. Illustreerime seda õpikutest võetud klassikalise näitega. Anscombe näitas, et kõik neli joonisel fig. 23 on samad regressiooniparameetrid (joonis 24).

Riis. 23. Neli tehisandmekogumit

Riis. 24. Nelja tehisandmestiku regressioonanalüüs; tehtud Analüüsi pakett(pildi suurendamiseks klõpsake pildil)

Seega on regressioonanalüüsi seisukohast kõik need andmekogumid täiesti identsed. Kui selle analüüs oleks lõppenud, oleksime palju kaotanud kasulik informatsioon. Seda tõendavad nende andmekogumite jaoks koostatud hajuvusdiagrammid (joonis 25) ja jääkgraafikud (joonis 26).

Riis. 25. Nelja andmekogumi hajuvusdiagrammid

Hajudiagrammid ja jääkdiagrammid näitavad, et need andmed erinevad üksteisest. Ainus hulk, mis on jaotatud piki sirgjoont, on komplekt A. Hulgi A arvutatud jääkide graafikul puudub muster. Sama ei saa öelda hulkade B, C ja D kohta. Hulga B jaoks koostatud hajuvusgraafik näitab selgelt väljendunud ruutmustrit. Seda järeldust kinnitab paraboolse kujuga jääkide graafik. Hajumisdiagramm ja jääkdiagramm näitavad, et andmestik B sisaldab kõrvalekaldeid. Sellises olukorras on vaja välistada andmestik ja analüüsi korrata. Vaatlustest kõrvalekallete tuvastamise ja kõrvaldamise tehnikat nimetatakse mõjuanalüüsiks. Pärast kõrvalekalde kõrvaldamist võib mudeli ümberhindamise tulemus olla täiesti erinev. Andmehulgast D joonistatud hajuvusdiagramm illustreerib ebatavalist olukorda, kus empiiriline mudel sõltub suuresti ühest vastusest ( X 8 = 19, Y 8 = 12,5). Selliseid regressioonimudeleid tuleb eriti hoolikalt arvutada. Niisiis, hajuvus- ja jääkkrundid on äärmiselt hädavajalik tööriist regressioonanalüüs ja see peaks olema selle lahutamatu osa. Ilma nendeta pole regressioonanalüüs usaldusväärne.

Riis. 26. Jääkide graafikud nelja andmekogumi jaoks

Kuidas regressioonanalüüsis lõkse vältida:

  • Muutujatevahelise võimaliku seose analüüs X ja Y alusta alati hajuvusdiagrammiga.
  • Enne regressioonanalüüsi tulemuste tõlgendamist kontrollige selle rakendatavuse tingimusi.
  • Joonistage jäägid ja sõltumatu muutuja. See võimaldab kindlaks teha, kuidas empiiriline mudel vastab vaatlustulemustele, ja tuvastada dispersiooni püsivuse rikkumisi.
  • Vigade normaaljaotuse eelduse testimiseks kasutage histogramme, varre- ja lehediagramme, kastdiagramme ja normaaljaotuse graafikuid.
  • Kui vähimruutude meetodi rakendustingimused ei ole täidetud, kasutage alternatiivsed meetodid(näiteks ruut- või mitmekordse regressiooni mudelid).
  • Kui vähimruutude meetodi rakendatavuse tingimused on täidetud, on vaja kontrollida hüpoteesi regressioonikordajate statistilise olulisuse kohta ning konstrueerida matemaatilist ootust ja prognoositavat vastuse väärtust sisaldavad usaldusvahemikud.
  • Vältige sõltuva muutuja väärtuste ennustamist väljaspool sõltumatu muutuja vahemikku.
  • Pidage meeles, et statistilised sõltuvused ei ole alati põhjuslikud. Pidage meeles, et muutujate vaheline korrelatsioon ei tähenda, et nende vahel on põhjuslik seos.

Kokkuvõte. Nagu näidatud plokkskeemil (joonis 27), kirjeldab märkus lihtsat lineaarse regressioonimudelit, selle rakendatavuse tingimusi ja viise nende tingimuste testimiseks. Arvestatud t-regressiooni kalde statistilise olulisuse testimise kriteerium. Sõltuva muutuja väärtuste ennustamiseks kasutati regressioonimudelit. Näitena käsitletakse jaemüügikoha koha valikuga seonduvat, milles uuritakse aastase müügimahu sõltuvust kaupluse pinnast. Saadud teave võimaldab teil täpsemalt valida kaupluse asukohta ja prognoosida selle aastakäivet. Järgmistes märkustes jätkub arutelu regressioonanalüüsi ja ka mitme regressioonimudeli üle.

Riis. 27. Sedeli plokkskeem

Kasutatud on materjale raamatust Levin jt Statistics for managers. - M.: Williams, 2004. - lk. 792–872

Kui sõltuv muutuja on kategooriline, tuleks rakendada logistilist regressiooni.

Seotud väljaanded

  • Milline on bronhiidi pilt Milline on bronhiidi pilt

    on difuusne progresseeruv põletikuline protsess bronhides, mis viib bronhide seina morfoloogilise restruktureerimiseni ja ...

  • HIV-nakkuse lühikirjeldus HIV-nakkuse lühikirjeldus

    Inimese immuunpuudulikkuse sündroom - AIDS, Inimese immuunpuudulikkuse viirusinfektsioon - HIV-nakkus; omandatud immuunpuudulikkus...