Regressioyhtälön kerroin näyttää korrelaation ja regressioanalyysin. Yksinkertainen lineaarinen regressio

Regression käsite. Muuttujien välinen suhde x ja y voidaan kuvata eri tavoin. Erityisesti mikä tahansa yhteys voidaan ilmaista yleisellä yhtälöllä , jossa y käsitellään riippuvaisena muuttujana, tai toimintoja toisesta - riippumaton muuttuja x, nimeltään Perustelu. Argumentin ja funktion välinen vastaavuus voidaan antaa taulukolla, kaavalla, kaaviolla ja niin edelleen. Kutsutaan funktion muuttaminen yhden tai useamman argumentin muutoksen mukaan regressio. Kaikki korrelaatioiden kuvaamiseen käytetyt keinot ovat sisältö taantumisanalyysi.

Regressiota ilmaisevat korrelaatioyhtälöt tai regressioyhtälöt, empiiriset ja teoreettisesti lasketut regressiosarjat, niiden kuvaajat, joita kutsutaan regressioviivoiksi, sekä lineaariset ja epälineaariset regressiokertoimet.

Regressioindikaattorit ilmaisevat korrelaation kaksisuuntaisesti ottaen huomioon attribuutin keskiarvojen muutoksen Y arvoja vaihdettaessa x i merkki X ja päinvastoin, näytä ominaisuuden keskiarvojen muutos X muuttuneiden arvojen mukaan y i merkki Y. Poikkeuksen muodostavat aikasarjat tai dynamiikan sarjat, jotka osoittavat merkkien muutoksen ajan myötä. Tällaisten sarjojen regressio on yksipuolista.

Korrelaatioita on monia erilaisia ​​muotoja ja tyyppejä. Tehtävä rajoittuu yhteyden muodon tunnistamiseen kussakin yksittäisessä tapauksessa ja sen ilmaisemiseen vastaavalla korrelaatioyhtälöllä, jonka avulla voimme ennakoida mahdollisia muutoksia yhdessä merkissä Y tunnettujen muutosten perusteella X, joka liittyy ensimmäiseen korrelaatioon.

12.1 Lineaarinen regressio

Regressioyhtälö. Tietyn biologisen kohteen havaintojen tulokset korrelaation mukaan liittyviä ominaisuuksia x ja y, voidaan esittää pisteillä tasossa rakentamalla suorakaiteen muotoinen koordinaattijärjestelmä. Tuloksena saadaan tietty sirontadiagrammi, jonka avulla on mahdollista arvioida erilaisten piirteiden välisen suhteen muotoa ja tiiviyttä. Melko usein tämä suhde näyttää suoralta tai sitä voidaan arvioida suoralla viivalla.

Lineaarinen suhde muuttujien välillä x ja y kuvataan yleisellä yhtälöllä , jossa a, b, c, d,… ovat yhtälön parametrit, jotka määrittävät argumenttien välisen suhteen x 1 , x 2 , x 3 , …, x m ja toimintoja.

Käytännössä kaikkia mahdollisia argumentteja ei oteta huomioon, vaan vain joitain argumentteja, yksinkertaisimmassa tapauksessa vain yksi:

Lineaarisen regression yhtälössä (1) a on vapaa termi ja parametri b määrittää regressioviivan kaltevuuden suorakaiteen koordinaattiakseleiden suhteen. Analyyttisessä geometriassa tätä parametria kutsutaan kaltevuustekijä ja biometriassa - regressiokerroin. Tämän parametrin visuaalinen esitys ja regressioviivojen sijainti Y päällä X ja X päällä Y suorakaiteen muotoisessa koordinaattijärjestelmässä antaa kuva 1.

Riisi. 1 Y x X ja X x Y regressioviivat järjestelmässä

suorakulmaiset koordinaatit

Kuvan 1 mukaisesti regressioviivat leikkaavat pisteessä O (,), mikä vastaa toistensa kanssa korreloivien etumerkkien aritmeettisia keskiarvoja Y ja X. Kun piirretään regressiokaavioita, riippumattoman muuttujan X arvot piirretään abskissaa pitkin ja riippuvan muuttujan eli funktion Y arvot piirretään ordinaatille. Suora AB kulkee pisteen O (, ) vastaa muuttujien välistä täydellistä (toiminnallista) suhdetta Y ja X kun korrelaatiokerroin . Mitä vahvempi yhteys on Y ja X, mitä lähempänä regressioviivat ovat AB:tä, ja päinvastoin, mitä heikompi näiden arvojen välinen suhde, sitä kauempana regressioviivat ovat AB:stä. Jos piirteiden välillä ei ole yhteyttä, regressioviivat ovat suorassa kulmassa toisiinsa nähden ja .

Koska regressioindikaattorit ilmaisevat korrelaation kaksisuuntaisesti, regressioyhtälö (1) tulee kirjoittaa seuraavasti:

Ensimmäisen kaavan mukaan keskiarvot määritetään etumerkin muuttuessa X mittayksikköä kohti, toisella - keskiarvoilla, kun ominaisuutta muutetaan mittayksikköä kohden Y.

Regressiokerroin. Regressiokerroin näyttää kuinka yhden piirteen arvo keskimäärin y muuttuu, kun toinen mittayksikkö korreloi kanssa Y merkki X. Tämä indikaattori määräytyy kaavan mukaan

Tässä arvot s kerrotaan luokkavälien koolla λ jos ne löydettiin variaatiosarjoilla tai korrelaatiotaulukoilla.

Regressiokerroin voidaan laskea ohittaen keskiarvojen laskemisen standardipoikkeamat s y ja s x kaavan mukaan

Jos korrelaatiokerrointa ei tunneta, regressiokerroin määritetään seuraavasti:

Regressio- ja korrelaatiokertoimien välinen suhde. Vertaamalla kaavoja (11.1) (aihe 11) ja (12.5) huomaamme, että niiden osoittaja sisältää saman arvon , mikä osoittaa yhteyden näiden indikaattoreiden välillä. Tämä suhde ilmaistaan ​​tasa-arvolla

Siten korrelaatiokerroin on yhtä suuri kuin kertoimien geometrinen keskiarvo b yx ja b xy. Kaava (6) sallii ensinnäkin regressiokertoimien tunnetuista arvoista b yx ja b xy määrittää regressiokerroin R xy ja toiseksi tämän korrelaatioindikaattorin laskennan oikeellisuuden tarkistamiseksi R xy erilaisten ominaisuuksien välillä X ja Y.

Kuten korrelaatiokerroin, regressiokerroin luonnehtii vain lineaarista suhdetta ja siihen liittyy plusmerkki positiiviselle suhteelle ja miinusmerkki negatiiviselle suhteelle.

Lineaarisen regression parametrien määritys. Tiedetään, että muunnelman neliöityjen poikkeamien summa x i keskiarvosta on pienin arvo, eli tämä lause muodostaa menetelmän perustan pienimmän neliösumman. Mitä tulee lineaariseen regressioon [katso kaava (1)], tämän lauseen vaatimus täyttyy tietyllä yhtälöjärjestelmällä nimeltä normaali:

Näiden yhtälöiden yhteinen ratkaisu parametrien suhteen a ja b johtaa seuraaviin tuloksiin:

;

;

, mistä minä.

Kun otetaan huomioon muuttujien välisen suhteen kaksisuuntainen luonne Y ja X, kaava parametrin määrittämiseksi a pitäisi ilmaista näin:

ja . (7)

Parametri b, tai regressiokerroin, määritetään seuraavilla kaavoilla:

Empiirisen regressiosarjan rakentaminen. Läsnäollessa suuri numero havainnot taantumisanalyysi alkaa empiirisen regressiosarjan rakentamisella. Empiirinen regressiosarja muodostuu laskemalla yhden muuttujan attribuutin arvot X toisen keskiarvot, jotka korreloivat X merkki Y. Toisin sanoen empiirisen regressiosarjan rakentaminen tiivistyy siihen, että ryhmä tarkoittaa u merkkien Y ja X vastaavista arvoista.

Empiirinen regressiosarja on kaksinkertainen lukusarja, joka voidaan esittää tason pisteillä, ja sitten yhdistämällä nämä pisteet suorilla janoilla saadaan empiirinen regressioviiva. Empiiriset regressiosarjat, erityisesti niiden kaaviot, ns regressioviivat, antavat visuaalisen esityksen erilaisten piirteiden välisen korrelaatioriippuvuuden muodosta ja tiukkuudesta.

Empiirisen regressiosarjan tasaus. Empiiristen regressiosarjojen graafit ovat yleensä katkoviivoja eikä tasaisia. Tämä selittyy sillä, että korreloitujen piirteiden yleisen vaihtelumallin määräävien pääsyiden lisäksi niiden arvoon vaikuttaa lukuisten toissijaisten syiden vaikutus, jotka aiheuttavat satunnaisia ​​vaihteluita regression solmupisteissä. Korreloivien ominaisuuksien konjugaattimuunnelman päätrendin (trendin) tunnistamiseksi sinun on korvattava katkoviivat tasaisilla, sujuvasti juoksevilla regressioviivoilla. Prosessia, jossa katkoviivat korvataan sileillä viivoilla, kutsutaan empiiristen sarjojen kohdistaminen ja regressioviivat.

Graafinen kohdistusmenetelmä. Tämä on yksinkertaisin menetelmä, joka ei vaadi laskennallista työtä. Sen olemus on seuraava. Empiirinen regressiosarja piirretään kaaviona suorakaiteen muotoiseen koordinaattijärjestelmään. Sitten regression keskipisteet hahmotellaan visuaalisesti, joita pitkin piirretään kiinteä viiva viivaimen tai kuvion avulla. Tämän menetelmän haittapuoli on ilmeinen: se ei sulje pois tutkijan yksilöllisten ominaisuuksien vaikutusta empiiristen regressioviivojen kohdistamisen tuloksiin. Siksi tapauksissa, joissa tarvitaan suurempaa tarkkuutta korvattaessa katkonaisia ​​regressioviivoja tasaisilla, käytetään muita menetelmiä empiirisen sarjan kohdistamiseen.

Liukuvan keskiarvon menetelmä. Tämän menetelmän ydin rajoittuu empiirisen sarjan kahden tai kolmen vierekkäisen jäsenen aritmeettisen keskiarvon peräkkäiseen laskemiseen. Tämä menetelmä on erityisen kätevä tapauksissa, joissa empiiristä sarjaa edustaa suuri määrä termejä, joten kahden niistä - äärimmäisten - menetys, joka on väistämätöntä tällä tasausmenetelmällä, ei vaikuta merkittävästi sen rakenteeseen.

Pienimmän neliön menetelmä. Tätä menetelmää ehdotti 1800-luvun alussa A.M. Legendre ja hänestä riippumatta K. Gauss. Sen avulla voit kohdistaa empiiriset sarjat tarkimmin. Tämä menetelmä, kuten yllä on esitetty, perustuu olettamukseen, että muunnelman neliöityjen poikkeamien summa x i niiden keskiarvosta on vähimmäisarvo, eli tästä menetelmän nimi, jota ei käytetä vain ekologiassa, vaan myös tekniikassa. Pienimmän neliösumman menetelmä on objektiivinen ja universaali, sitä käytetään monissa tapauksissa etsittäessä regressiosarjojen empiirisiä yhtälöitä ja määritettäessä niiden parametreja.

Pienimmän neliösumman menetelmän vaatimus on, että regressioviivan teoreettiset pisteet on hankittava siten, että empiirisiä havaintoja varten on neliöityjen poikkeamien summa näistä pisteistä. y i oli minimaalinen, ts.

Laskemalla tämän lausekkeen minimin matemaattisen analyysin periaatteiden mukaisesti ja muuntamalla se tietyllä tavalla, saadaan järjestelmä ns. normaalit yhtälöt, jossa tuntemattomat arvot ovat haluttuja regressioyhtälön parametreja ja tunnetut kertoimet määräytyvät ominaisuuksien empiiristen arvojen, yleensä niiden arvojen ja ristitulojen summalla.

Useita lineaarinen regressio. Useiden muuttujien välinen suhde ilmaistaan ​​yleensä moninkertaisella regressioyhtälöllä, joka voi olla lineaarinen ja epälineaarinen. Yksinkertaisimmassa muodossaan moninkertainen regressio ilmaistaan ​​yhtälöllä, jossa on kaksi riippumatonta muuttujaa ( x, z):

missä a on yhtälön vapaa termi; b ja c ovat yhtälön parametrit. Yhtälön (10) parametrien löytämiseksi (pienimmän neliösumman menetelmällä) käytetään seuraavaa normaaliyhtälöjärjestelmää:

Dynaamiset rivit. Rivien tasaus. Merkkien muutos ajan myötä muodostaa ns Aikasarja tai dynamiikan rivejä. Tällaisille sarjoille on ominaista se, että aikatekijä toimii tässä aina itsenäisenä muuttujana X ja muuttuva etumerkki on riippuvainen muuttuja Y. Regressiosarjasta riippuen muuttujien X ja Y välinen suhde on yksipuolinen, koska aikatekijä ei riipu ominaisuuksien vaihtelevuudesta. Näistä piirteistä huolimatta aikasarjoja voidaan verrata regressiosarjoihin ja käsitellä samoilla menetelmillä.

Kuten regressiosarjoja, myös empiirisiin aikasarjoihin vaikuttavat paitsi pääasialliset, myös lukuisat toissijaiset (satunnaiset) tekijät, jotka hämärtävät ominaisuuksien vaihtelevuuden pääsuuntausta, jota tilaston kielellä kutsutaan ns. trendi.

Aikasarjojen analyysi alkaa trendin muodon tunnistamisesta. Tätä varten aikasarja esitetään viivakaaviona suorakaiteen muotoisessa koordinaattijärjestelmässä. Samanaikaisesti aikapisteet (vuodet, kuukaudet ja muut aikayksiköt) piirretään abskissa-akselia pitkin ja riippuvan muuttujan Y arvot piirretään pitkin ordinaatta-akselia. on regressioyhtälö muodossa riippuvan muuttujan Y sarjan termien poikkeamat riippumattoman muuttujan X sarjan aritmeettisesta keskiarvosta:

Tässä on lineaarisen regression parametri.

Dynamiikkasarjan numeeriset ominaisuudet. Dynaamisten sarjan tärkeimpiä yleistäviä numeerisia ominaisuuksia ovat mm geometrinen keskiarvo ja sitä lähellä oleva aritmeettinen keskiarvo. Ne kuvaavat keskimääräistä nopeutta, jolla riippuvan muuttujan arvo muuttuu tiettyjen ajanjaksojen aikana:

Arvio dynamiikkasarjan ehtojen vaihtelusta on keskihajonta. Valittaessa regressioyhtälöitä kuvaamaan aikasarjaa, otetaan huomioon trendin muoto, joka voi olla lineaarinen (tai lineaariseksi pelkistetty) ja epälineaarinen. Regressioyhtälön valinnan oikeellisuus arvioidaan yleensä riippuvaisen muuttujan empiirisesti havaittujen ja laskettujen arvojen samankaltaisuuden perusteella. Tarkempi tämän ongelman ratkaiseminen on menetelmä varianssianalyysi regressio (aihe 12 s.4).

Dynaamisten sarjojen korrelaatio. Usein on tarpeen verrata rinnakkaisten aikasarjojen dynamiikkaa, jotka liittyvät toisiinsa joidenkin yleisten ehtojen perusteella, esimerkiksi selvittääkseen maataloustuotannon ja karjan kasvun välistä suhdetta tietyn ajanjakson aikana. Tällaisissa tapauksissa muuttujien X ja Y väliselle suhteelle on tunnusomaista korrelaatiokerroin R xy (lineaarisen trendin läsnä ollessa).

Tiedetään, että dynamiikan sarjan trendi on pääsääntöisesti hämärtynyt riippuvaisen muuttujan Y sarjan ehtojen vaihtelujen takia. Tästä syystä syntyy kaksinkertainen ongelma: mitataan vertailtavien sarjojen välinen riippuvuus sulkematta pois trendi ja saman sarjan vierekkäisten jäsenten välisen riippuvuuden mittaaminen trendiä lukuun ottamatta. Ensimmäisessä tapauksessa vertailtujen dynamiikkasarjojen välisen yhteyden läheisyyden indikaattori on korrelaatiokerroin(jos suhde on lineaarinen), toisessa - autokorrelaatiokerroin. Näillä indikaattoreilla on eri arvot, vaikka ne on laskettu samoilla kaavoilla (katso aihe 11).

On helppo nähdä, että autokorrelaatiokertoimen arvoon vaikuttaa riippuvan muuttujan sarjan jäsenten vaihtelu: mitä vähemmän sarjan jäsenet poikkeavat trendistä, sitä korkeampi autokorrelaatiokerroin ja päinvastoin.

Regressiokertoimet osoittavat tekijöiden vaikutuksen voimakkuutta suoritusindikaattoriin. Jos tekijäindikaattoreiden alustava standardointi suoritetaan, b 0 on yhtä suuri kuin tehollisen indikaattorin keskiarvo aggregaatissa. Kertoimet b 1 , b 2 , ..., b n osoittavat, kuinka monta yksikköä tehollisen indikaattorin taso poikkeaa sen keskiarvosta, jos tekijäindikaattorin arvot poikkeavat keskiarvosta nolla yhdellä keskihajonta. Siten regressiokertoimet kuvaavat yksittäisten tekijöiden merkityksellisyyttä tehokkaan indikaattorin tason nostamiseksi. Regressiokertoimien erityisarvot määritetään empiirisistä tiedoista pienimmän neliösumman menetelmällä (normaaliyhtälöjärjestelmien ratkaisun tuloksena).

regressioviiva- suora, joka heijastaa tarkimmin koepisteiden jakautumista sirontakaaviossa ja jonka kaltevuus kuvaa kahden intervallimuuttujan välistä suhdetta.

Regressioviivaa etsitään useimmiten lineaarisena funktiona (lineaarinen regressio), joka parhaiten approksimoi haluttua käyrää. Tämä tehdään pienimmän neliösumman menetelmällä, kun todellisuudessa havaittujen arvioiden neliöityjen poikkeamien summa minimoidaan (eli estimaatteja käyttäen suoraa, joka väittää edustavansa haluttua regressioriippuvuutta):

(M - näytekoko). Tämä lähestymistapa perustuu tunnettu tosiasia että yllä olevassa lausekkeessa esiintyvä summa ottaa minimiarvon juuri siinä tapauksessa, kun .
57. Korrelaatioteorian päätehtävät.

Korrelaatioteoria on laitteisto, joka arvioi sellaisten ilmiöiden välisten suhteiden läheisyyttä, jotka eivät ole pelkästään syy-seuraussuhteessa. Korrelaatioteorian avulla arvioidaan stokastisia, mutta ei kausaalisia suhteita. Kirjoittaja yhdessä Lukatskaya M. L.:n kanssa yritti saada arvioita syy-suhteista. Kysymys ilmiöiden syy-seuraussuhteista, syyn ja seurauksen tunnistamisesta jää kuitenkin avoimeksi, ja näyttää siltä, ​​että muodollinen taso se on pohjimmiltaan ratkaisematon.

Korrelaatioteoria ja sen soveltaminen tuotannon analysointiin.

Korrelaatioteoria, joka on yksi matemaattisten tilastojen osista, antaa sinun tehdä järkeviä oletuksia mahdolliset rajat, jossa tutkittava parametri sijoitetaan tunnetulla luotettavuudella, jos muut siihen tilastollisesti liittyvät parametrit saavat tietyt arvot.

Korrelaatioteoriassa on tapana erottaa kaksi päätehtävää.

Ensimmäinen tehtävä korrelaatioteoria - määrittää korrelaation muoto, ts. regressiofunktion tyyppi (lineaarinen, neliöllinen jne.).

Toinen tehtävä korrelaatioteoria - korrelaation tiukkuuden (vahvuuden) arvioimiseksi.

Korrelaation (riippuvuuden) Y tiukkuus X:n suhteen arvioidaan Y-arvojen dispersion määrällä ehdollisen keskiarvon ympärillä. Suuri dispersio osoittaa Y:n heikkoa riippuvuutta X:stä, pieni dispersio osoittaa vahvan riippuvuuden olemassaolon.
58. Korrelaatiotaulukko ja sen numeeriset ominaisuudet.

Käytännössä suureiden X ja Y riippumattomien havaintojen tuloksena ei yleensä käsitellä näiden suureiden kaikkien mahdollisten arvoparien koko joukkoa, vaan vain rajoitettua otosta väestö, ja tilavuus n näytteenottokehys määritellään näytteen parien lukumääräksi.

Olkoon X:n arvo näytteessä arvot x 1 , x 2 ,....x m , jossa tämän arvon toisistaan ​​poikkeavien arvojen lukumäärä ja yleinen tapaus jokainen niistä voidaan toistaa näytteessä. Olkoon Y:n arvo otoksessa arvot y 1 , y 2 ,....y k , missä k on tämän arvon toisistaan ​​poikkeavien arvojen lukumäärä, ja yleisessä tapauksessa jokainen niistä voidaan myös toistaa näytteessä. Tällöin tiedot syötetään taulukkoon esiintymistiheydet huomioiden. Tällaista taulukkoa, jossa on ryhmitelty data, kutsutaan korrelaatiotaulukoksi.

Tulosten tilastollisen käsittelyn ensimmäinen vaihe on korrelaatiotaulukon laatiminen.

Y\X x 1 x2 ... x m n v
v 1 n 12 n 21 n m1 n y1
y2 n 22 n m2 n y2
...
y k n 1k n 2k nmk n yk
n x nx1 nx2 nxm n

Taulukon pääosan ensimmäisellä rivillä on nousevassa järjestyksessä kaikki näytteestä löytyneet X-arvon arvot. Ensimmäisessä sarakkeessa on myös listattu nousevassa järjestyksessä kaikki näytteestä löytyneet Y-arvon arvot. Vastaavien rivien ja sarakkeiden leikkauskohdassa taajuudet n ij (i=1,2 ,...,m; j=1,2,...,k) ovat yhtä suuria kuin parin (x i ;y i) esiintymisten lukumäärä ) näytteessä. Esimerkiksi taajuus n 12 on esiintymistiheys parin näytteessä (x 1 ;y 1).

Myös n xi n ij , 1≤i≤m, on i:nnen sarakkeen alkioiden summa, n yj n ij , 1≤j≤k, on j:nnen rivin alkioiden summa ja n xi = n yj =n

Korrelaatiotaulukon tiedoista saatujen kaavojen analogit ovat muotoa:


59. Empiiriset ja teoreettiset regressiosuorat.

Teoreettinen regressioviiva voidaan tässä tapauksessa laskea yksittäisten havaintojen tuloksista. Normaaliyhtälöjärjestelmän ratkaisemiseksi tarvitsemme samat tiedot: x, y, xy ja xr. Meillä on tietoja sementin tuotannon määrästä ja käyttöomaisuuden määrästä vuonna 1958. Tehtävänä on tutkia sementin tuotannon määrän (fyysisesti) ja käyttöomaisuuden määrän suhdetta. [ 1 ]

Mitä vähemmän teoreettinen regressioviiva (yhtälön avulla laskettu) poikkeaa todellisesta (empiirisesta), sitä pienempi on keskimääräinen approksimaatiovirhe.

Teoreettisen regressiosuoran löytämisprosessi on empiirisen regressiosuoran kohdistaminen pienimmän neliösumman menetelmään.

Teoreettisen regressiosuoran löytämisprosessia kutsutaan empiirisen regressiosuoran kohdistamiseksi ja se koostuu tyypin valinnasta ja perustelusta; käyrä ja sen yhtälön parametrien laskeminen.

Empiirinen regressio perustuu analyyttisten tai yhdistelmäryhmien tietoihin ja edustaa tulosattribuutin ryhmän keskiarvojen riippuvuutta tekijätekijän ryhmän keskiarvoista. Empiirisen regression graafinen esitys on katkoviiva, joka koostuu pisteistä, joiden abskissat ovat attribuuttitekijän ryhmän keskiarvoja ja ordinaatit ovat attribuutin tuloksen ryhmän keskiarvoja. Pisteiden määrä on yhtä suuri kuin ryhmien lukumäärä ryhmässä.

Empiirinen regressioviiva heijastaa tarkasteltavan suhteen pääsuuntausta. Jos empiirinen regressioviiva lähestyy muodossaan suoraa, voimme olettaa, että merkkien välillä on suoraviivainen korrelaatio. Ja jos viestintälinja lähestyy käyrää, tämä voi johtua kaarevan korrelaation olemassaolosta.
60. Selektiiviset korrelaatio- ja regressiokertoimet.

Jos kaavion merkkien välinen riippuvuus osoittaa lineaarista korrelaatiota, laske korrelaatiokerroin r, jonka avulla voit arvioida muuttujien suhteen läheisyyttä sekä selvittää, mikä osuus ominaisuuden muutoksista johtuu pääominaisuuden vaikutuksesta, joka johtuu muiden tekijöiden vaikutuksesta. Kerroin vaihtelee -1:stä +1:een. Jos r=0, silloin ominaisuuksien välillä ei ole suhdetta. Tasa-arvo r=0 puhuu vain lineaarisen korrelaatioriippuvuuden puuttumisesta, mutta ei yleisesti korrelaation puuttumisesta, ja vielä enemmän tilastollisesta riippuvuudesta. Jos r= ±1, tämä tarkoittaa täydellisen (toiminnallisen) yhteyden olemassaoloa. Tässä tapauksessa kaikki havaitut arvot sijaitsevat regressioviivalla, joka on suora viiva.
Korrelaatiokertoimen käytännön merkitys määräytyy sen neliöidyllä arvolla, jota kutsutaan determinaatiokertoimeksi.
Lineaarifunktiolla y = kX + b approksimoitu (suunnilleen kuvattu) regressio. Y:n regressiolle X:llä regressioyhtälö on: `y x = ryx X + b; (yksi). Y:n suoran regression kulmakerrointa X:llä kutsutaan Y:n regressiokertoimeksi X:llä.

Jos yhtälö (1) löydetään näytetiedoista, sitä kutsutaan näyteregressioyhtälö. Vastaavasti ryx on Y:n näyteregressiokerroin X:llä ja b on yhtälön näyteleikkauspiste. Regressiokerroin mittaa Y:n vaihtelua X:n variaatioyksikköä kohti. Regressioyhtälön parametrit (kertoimet ryx ja b) löydetään pienimmän neliösumman menetelmällä.
61. Arvio korrelaatiokertoimen merkityksestä ja korrelaation läheisyydestä väestössä

Korrelaatiokertoimien merkitys tarkistamme opiskelijan kriteerin mukaan:

missä - korrelaatiokertoimen keskineliövirhe, joka määritetään kaavalla:

Jos laskettu arvo (suurempi kuin taulukkoarvo), voidaan päätellä, että korrelaatiokertoimen arvo on merkittävä. t löytyvät Studentin kriteeriarvojen taulukon mukaan. Tämä ottaa huomioon vapausasteiden määrän (V = n - 1) ja luottamustaso (yleensä 0,05 tai 0,01 taloudellisissa laskelmissa). Esimerkissämme vapausasteiden lukumäärä on: P - 1 = 40 - 1 = 39. Luottamustasolla R = 0,05; t= 2,02. Koska (todellinen kaikissa tapauksissa suurempi kuin t-taulukko, tehollisen ja tekijäindikaattorin välinen suhde on luotettava ja korrelaatiokertoimien arvo on merkittävä.

Korrelaatiokertoimen estimointi, joka on laskettu rajoitetusta otoksesta, on melkein aina erilainen kuin nolla. Mutta tästä ei seuraa, että korrelaatiokerroin väestö eroaa myös nollasta. Kertoimen otosarvon merkitsevyys on arvioitava tai tilastollisten hypoteesien testaamisen tehtävien muotoilun mukaisesti testattava hypoteesi, että korrelaatiokerroin on nolla. Jos hypoteesi H 0 korrelaatiokertoimen yhtäläisyydestä nollaan hylätään, silloin näytekerroin on merkitsevä ja vastaavat arvot liittyvät lineaariseen suhteeseen. Jos hypoteesi H 0 hyväksytään, kertoimen estimaatti ei ole merkitsevä, eivätkä arvot ole lineaarisesti suhteessa toisiinsa (jos tekijät voivat fyysisistä syistä olla yhteydessä toisiinsa, niin on parempi sanoa, että tämä suhde ei ole vahvistettu saatavilla olevan ED:n mukaan). Korrelaatiokertoimen estimaatin merkitystä koskevan hypoteesin testaaminen edellyttää tämän satunnaismuuttujan jakauman tuntemista. :n jakautuminen ik tutkittiin vain erityistapauksessa, kun satunnaismuuttujat Uj ja U k jaetaan normaalin lain mukaan.

Kriteerinä nollahypoteesin testaamiseen H 0 sovelletaan Satunnaismuuttuja . Jos korrelaatiokertoimen moduuli on suhteellisen kaukana yksiköstä, niin arvo t jos nollahypoteesi on totta, se jaetaan Studentin lain mukaan kanssa n– 2 vapausastetta. Kilpaileva hypoteesi H 1 vastaa väitettä, että :n arvo ik ei ole yhtä suuri kuin nolla (suurempi kuin tai alle nolla). Siksi kriittinen alue on kaksipuolinen.
62. Otoskorrelaatiokertoimen laskenta ja suoran regressioviivan näyteyhtälön muodostaminen.

Otoskorrelaatiokerroin löytyy kaavan mukaan

missä ovat näytekeinot standardipoikkeamat arvot ja .

Otoskorrelaatiokerroin osoittaa ja välillä olevan lineaarisen suhteen tiukkuuden: mitä lähempänä yksikköä, sitä vahvempi lineaarinen suhde ja välillä on.

Yksinkertainen lineaarinen regressio löytää lineaarisen suhteen yhden tulon ja yhden lähtömuuttujan välillä. Tätä varten määritetään regressioyhtälö - tämä on malli, joka heijastaa Y:n arvojen riippuvuutta, Y:n riippuvainen arvo x:n arvoista, riippumaton muuttuja x ja yleinen populaatio. yhtälön mukaan:

missä A0- regressioyhtälön vapaa termi;

A1- regressioyhtälön kerroin

Sitten muodostetaan vastaava suora, jota kutsutaan regressioviivaksi. Kertoimet A0 ja A1, joita kutsutaan myös malliparametreiksi, valitaan siten, että regressioviivan todellisia datahavaintoja vastaavien pisteiden neliöpoikkeamien summa olisi minimaalinen. Kertoimet valitaan pienimmän neliösumman menetelmällä. Toisin sanoen yksinkertainen lineaarinen regressio kuvaa lineaarista mallia, joka parhaiten approksimoi yhden tulon ja yhden lähtömuuttujan välisen suhteen.

Opintojensa aikana opiskelijat kohtaavat hyvin usein erilaisia ​​yhtälöitä. Yhtä niistä - regressioyhtälöä - tarkastellaan tässä artikkelissa. Tämän tyyppistä yhtälöä käytetään erityisesti kuvaamaan matemaattisten parametrien välisen suhteen ominaisuuksia. Tämän tyyppistä tasa-arvoa käytetään tilastoissa ja ekonometriassa.

Regression määritelmä

Matematiikassa regressio ymmärretään tietyksi suureksi, joka kuvaa tietojoukon keskiarvon riippuvuutta toisen suuren arvoista. Regressioyhtälö näyttää tietyn piirteen funktiona toisen piirteen keskiarvon. Regressiofunktiolla on yksinkertainen yhtälö y \u003d x, jossa y toimii riippuvaisena muuttujana ja x on riippumaton muuttuja (ominaisuustekijä). Itse asiassa regressio ilmaistaan ​​muodossa y = f (x).

Mitkä ovat muuttujien väliset suhteet

Yleensä erotetaan kaksi vastakkaista suhdetyyppiä: korrelaatio ja regressio.

Ensimmäiselle on ominaista ehdollisten muuttujien yhtäläisyys. Tässä tapauksessa ei tiedetä varmasti, mikä muuttuja riippuu toisesta.

Jos muuttujien välillä ei ole tasa-arvoa ja ehdot sanovat, mikä muuttuja on selittävä ja mikä riippuvainen, voidaan puhua toisen tyyppisen yhteyden olemassaolosta. Lineaarisen regressioyhtälön rakentamiseksi on tarpeen selvittää, minkä tyyppinen suhde havaitaan.

Regression tyypit

Tähän mennessä on olemassa 7 erilaista regressiotyyppiä: hyperbolinen, lineaarinen, moninkertainen, epälineaarinen, parillinen, käänteinen, logaritmisesti lineaarinen.

Hyperbolinen, lineaarinen ja logaritminen

Lineaarista regressioyhtälöä käytetään tilastoissa selittämään selkeästi yhtälön parametrit. Näyttää siltä, ​​että y = c + m * x + E. Hyperbolinen yhtälö on muodoltaan säännöllinen hyperbola y \u003d c + m / x + E. Logaritmisesti lineaarinen yhtälö ilmaisee suhdetta logaritminen funktio: In y \u003d In c + t * In x + In E.

Monipuolinen ja epälineaarinen

vielä kaksi monimutkaiset tyypit regressiot ovat moninkertaisia ​​ja epälineaarisia. Moninkertainen regressioyhtälö ilmaistaan ​​funktiolla y \u003d f (x 1, x 2 ... x c) + E. Tässä tilanteessa y on riippuva muuttuja ja x on selittävä muuttuja. Muuttuja E on stokastinen ja sisältää muiden tekijöiden vaikutuksen yhtälöön. Epälineaarinen yhtälö regressio on hieman epäjohdonmukainen. Toisaalta huomioon otettujen indikaattoreiden osalta se ei ole lineaarinen, ja toisaalta indikaattoreiden arvioinnin roolissa se on lineaarinen.

Käänteinen ja parillinen regressio

Käänteisfunktio on eräänlainen funktio, joka on muutettava lineaariseen muotoon. Perinteisissä sovellusohjelmissa se on muodoltaan funktio y \u003d 1 / c + m * x + E. Parillinen regressioyhtälö näyttää tietojen välisen suhteen y = f(x) + E:n funktiona. Kuten muutkin yhtälöt, y riippuu x:stä ja E on stokastinen parametri.

Korrelaation käsite

Tämä on indikaattori, joka osoittaa kahden ilmiön tai prosessin välisen suhteen olemassaolon. Suhteen vahvuus ilmaistaan ​​korrelaatiokertoimena. Sen arvo vaihtelee [-1;+1] välillä. Negatiivinen indikaattori osoittaa palautteen olemassaolon, positiivinen indikaattori osoittaa suoraa. Jos kerroin saa arvon, joka on yhtä suuri kuin 0, suhdetta ei ole. Mitä lähempänä arvoa 1 - mitä vahvempi on parametrien välinen suhde, sitä lähempänä 0 - sitä heikompi.

menetelmät

Korrelaatioparametrisilla menetelmillä voidaan arvioida suhteen tiukkuutta. Niitä käytetään jakautumaestimaattien perusteella normaalijakauman lain mukaisten parametrien tutkimiseen.

Lineaarisen regressioyhtälön parametrit ovat tarpeen riippuvuuden tyypin, regressioyhtälön funktion tunnistamiseksi ja valitun suhdekaavan indikaattoreiden arvioimiseksi. Korrelaatiokenttää käytetään menetelmänä suhteen tunnistamiseen. Tätä varten kaikki olemassa olevat tiedot on esitettävä graafisesti. Suorakaiteen muotoisessa kaksiulotteisessa koordinaattijärjestelmässä kaikki tunnetut tiedot on piirrettävä. Näin muodostuu korrelaatiokenttä. Kuvaavan kertoimen arvo on merkitty abskissaa pitkin, kun taas riippuvaisen tekijän arvot on merkitty ordinaatta pitkin. Jos parametrien välillä on toiminnallinen suhde, ne asettuvat riviin.

Jos tällaisten tietojen korrelaatiokerroin on alle 30%, voidaan puhua käytännössä täydellinen poissaolo yhteyksiä. Jos se on 30 % ja 70 % välillä, tämä osoittaa keskisuurien linkkien olemassaolon. 100 %:n ilmaisin osoittaa toimivan yhteyden.

Epälineaarista regressioyhtälöä, kuten lineaarista, on täydennettävä korrelaatioindeksillä (R).

Korrelaatio moninkertaiselle regressiolle

Determinaatiokerroin on moninkertaisen korrelaation neliön indikaattori. Hän puhuu esitetyn indikaattorijoukon suhteen tiukkuudesta tutkittavaan piirteeseen. Se voi myös puhua parametrien vaikutuksen luonteesta tulokseen. Moniregressioyhtälö arvioidaan tällä indikaattorilla.

Monikorrelaatioindeksin laskemiseksi on tarpeen laskea sen indeksi.

Pienimmän neliön menetelmä

Tämä menetelmä on tapa arvioida regressiotekijöitä. Sen ydin on minimoida neliöityjen poikkeamien summa, joka saadaan kertoimen riippuvuudesta funktiosta.

Parillinen lineaarinen regressioyhtälö voidaan estimoida tällä menetelmällä. Tämän tyyppisiä yhtälöitä käytetään, kun havaitaan parillisen lineaarisen suhteen indikaattoreiden välillä.

Yhtälövaihtoehdot

Jokaisella lineaarisen regressiofunktion parametrilla on erityinen merkitys. Parillinen lineaarinen regressioyhtälö sisältää kaksi parametria: c ja m. Parametri t näyttää funktion y lopullisen indikaattorin keskimääräisen muutoksen, jos muuttuja x pienenee (lisää) yhdellä tavanomainen yksikkö. Jos muuttuja x on nolla, funktio on yhtä suuri kuin parametri c. Jos muuttuja x ei ole nolla, tekijällä c ei ole taloudellista järkeä. Ainoa vaikutus funktioon on tekijän c edessä oleva etumerkki. Jos on miinus, voimme sanoa tuloksen hitaasta muutoksesta tekijään verrattuna. Jos on plus, tämä tarkoittaa nopeutettua muutosta tuloksessa.

Jokainen parametri, joka muuttaa regressioyhtälön arvoa, voidaan ilmaista yhtälönä. Esimerkiksi tekijä c on muotoa c = y - mx.

Ryhmitetty data

On olemassa sellaisia ​​ongelman ehtoja, joissa kaikki tiedot ryhmitellään attribuutin x mukaan, mutta samalla for tietty ryhmä riippuvan indikaattorin vastaavat keskiarvot näytetään. Tässä tapauksessa keskiarvot kuvaavat sitä, kuinka indikaattori riippuu x:stä. Siten ryhmitelty tieto auttaa löytämään regressioyhtälön. Sitä käytetään suhdeanalyysinä. Tällä menetelmällä on kuitenkin haittapuolensa. Valitettavasti keskiarvot ovat usein alttiina ulkoisille vaihteluille. Nämä vaihtelut eivät heijasta suhteen kaavoja, ne vain peittävät sen "melun". Keskiarvot osoittavat suhdekuvioita paljon huonommin kuin lineaarinen regressioyhtälö. Niitä voidaan kuitenkin käyttää perustana yhtälön löytämiseen. Kertomalla tietyn populaation koko vastaavalla keskiarvolla saat y:n summan ryhmän sisällä. Seuraavaksi sinun on tyrmättävä kaikki vastaanotetut määrät ja löydettävä lopullinen indikaattori y. Laskelmien tekeminen summaindikaattorilla xy on hieman vaikeampaa. Siinä tapauksessa, että välit ovat pienet, voimme ehdollisesti ottaa indikaattorin x kaikille yksiköille (ryhmän sisällä) samana. Kerro se y:n summalla saadaksesi x:n ja y:n tulojen summan. Lisäksi kaikki summat lyödään yhteen ja saadaan kokonaissumma xy.

Usean parin yhtälön regressio: Suhteen tärkeyden arviointi

Kuten aiemmin mainittiin, moninkertaisen regression funktio on muotoa y \u003d f (x 1, x 2, ..., x m) + E. Useimmiten tällaista yhtälöä käytetään tavaroiden kysynnän ja tarjonnan, takaisinostettujen osakkeiden korkotulojen ongelman ratkaisemiseen, tuotantokustannusfunktion syiden ja tyypin tutkimiseen. Sitä käytetään myös aktiivisesti monenlaisissa makrotaloudellisissa tutkimuksissa ja laskelmissa, mutta mikrotalouden tasolla tätä yhtälöä käytetään hieman harvemmin.

Moninkertaisen regression päätehtävänä on rakentaa valtavan määrän tietoa sisältävä tietomalli, jotta voidaan edelleen määrittää, mikä vaikutus kullakin tekijällä yksittäin ja kokonaisuutena on mallinnettavaan indikaattoriin ja sen kertoimiin. Regressioyhtälö voi saada useita arvoja. Tässä tapauksessa käytetään yleensä kahdenlaisia ​​funktioita arvioimaan suhdetta: lineaarista ja epälineaarista.

Lineaarinen funktio on kuvattu tällaisen suhteen muodossa: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Tässä tapauksessa a2, a m katsotaan "puhtaan" regression kertoimille. Ne ovat välttämättömiä parametrin y keskimääräisen muutoksen karakterisoimiseksi kunkin vastaavan parametrin x muutoksella (laskulla tai kasvulla) yhdellä yksiköllä, muiden indikaattoreiden stabiilin arvon ehdolla.

Epälineaarisilla yhtälöillä on esimerkiksi muoto tehotoiminto y=ax 1 b1 x 2 b2 ...x m bm . Tässä tapauksessa indikaattoreita b 1, b 2 ..... b m - kutsutaan joustokertoimiksi, ne osoittavat, kuinka tulos muuttuu (kuinka paljon%) vastaavan indikaattorin x kasvaessa (vähentyessä) 1 %. ja muiden tekijöiden vakaa indikaattori.

Mitä tekijöitä tulee ottaa huomioon moninkertaista regressiota rakennettaessa

Jotta rakentaa kunnolla moninkertainen regressio, on tarpeen selvittää, mihin tekijöihin tulisi kiinnittää erityistä huomiota.

On tarpeen ymmärtää jonkin verran taloudellisten tekijöiden ja mallinnetun välisen suhteen luonnetta. Mukaan otettavien tekijöiden on täytettävä seuraavat kriteerit:

  • Täytyy olla mitattavissa. Jotta esineen laatua kuvaavaa tekijää voidaan käyttää, sille tulisi joka tapauksessa antaa kvantitatiivinen muoto.
  • Tekijöiden keskinäistä korrelaatiota tai toiminnallista suhdetta ei pitäisi olla. Nämä toimet johtavat usein peruuttamattomia seurauksia- tavallinen yhtälöjärjestelmä muuttuu ehdoimattomaksi, mikä johtaa sen epäluotettavuuteen ja sumeisiin arvioihin.
  • Valtavan korrelaatioindikaattorin tapauksessa tekijöiden yksittäistä vaikutusta indikaattorin lopputulokseen ei voida selvittää, joten kertoimet muuttuvat tulkitsemattomiksi.

Rakennusmenetelmät

On olemassa valtava määrä menetelmiä ja tapoja selittää, kuinka voit valita yhtälön tekijät. Kaikki nämä menetelmät perustuvat kuitenkin kertoimien valintaan käyttämällä korrelaatioindeksiä. Niiden joukossa ovat:

  • Poissulkemismenetelmä.
  • Ota menetelmä käyttöön.
  • Vaiheittainen regressioanalyysi.

Ensimmäinen menetelmä sisältää kaikkien kertoimien seulomisen aggregaattijoukosta. Toinen menetelmä sisältää monia lisätekijöitä. No, kolmas on sellaisten tekijöiden poistaminen, joita aiemmin sovellettiin yhtälöön. Jokaisella näistä menetelmistä on oikeus olla olemassa. Niillä on hyvät ja huonot puolensa, mutta ne voivat ratkaista tarpeettomien indikaattoreiden seulonnan omalla tavallaan. Pääsääntöisesti kullakin yksittäisellä menetelmällä saadut tulokset ovat melko läheisiä.

Monimuuttuja-analyysin menetelmät

Tällaiset menetelmät tekijöiden määrittämiseksi perustuvat toisiinsa liittyvien ominaisuuksien yksittäisten yhdistelmien huomioimiseen. Näitä ovat erotteluanalyysi, hahmontunnistus, pääkomponenttianalyysi ja klusterianalyysi. Lisäksi on olemassa myös tekijäanalyysiä, joka kuitenkin ilmestyi komponenttimenetelmän kehityksen seurauksena. Kaikkia niitä sovelletaan tietyissä olosuhteissa, tietyissä olosuhteissa ja tekijöissä.

Mitä regressio on?

Tarkastellaan kahta jatkuvaa muuttujaa x=(x1, x2, .., xn), y=(y1, y2, ..., yn).

Laitetaan pisteet 2D-sironnadiagrammille ja sanotaan, että meillä on lineaarinen suhde jos data on likimääräinen suoralla viivalla.

Jos oletamme niin y riippuu x, ja muutokset y muutosten aiheuttama x, voimme määritellä regressioviivan (regressio y päällä x), joka kuvaa parhaiten näiden kahden muuttujan välistä suoraviivaista suhdetta.

Sanan "regressio" tilastollinen käyttö tulee ilmiöstä, joka tunnetaan nimellä regressio keskiarvoon ja jonka syynä on Sir Francis Galton (1889).

Hän osoitti, että vaikka pitkillä isillä on yleensä pitkiä poikia, poikien keskipituus on pienempi kuin pitkien isien. Keskipituus pojat "taantuivat" ja "muuttuivat takaisin" väestön kaikkien isien keskimääräiseen pituuteen. Näin ollen pitkillä isillä on keskimäärin lyhyempiä (mutta silti pitkiä) poikia ja lyhyillä isillä on pitkiä (mutta silti melko lyhyitä) poikia.

regressioviiva

Matemaattinen yhtälö, joka arvioi yksinkertaisen (parittaisen) lineaarisen regressioviivan:

x kutsutaan riippumattomaksi muuttujaksi tai ennustajaksi.

Y on riippuvainen tai vastemuuttuja. Tämä on arvo, jota odotamme y(keskimäärin), jos tiedämme arvon x, eli on ennustettu arvo y»

  • a- arviointilinjan vapaa jäsen (ylitys); tämä arvo Y, kun x=0(Kuva 1).
  • b - kaltevuus tai arvioidun linjan gradientti; se on määrä, jolla Y kasvaa keskimäärin, jos lisäämme x yhdelle yksikölle.
  • a ja b kutsutaan estimoidun suoran regressiokertoimiksi, vaikka tätä termiä käytetään usein vain b.

Pariittainen lineaarinen regressio voidaan laajentaa sisältämään useamman kuin yhden riippumattoman muuttujan; tässä tapauksessa se tunnetaan nimellä moninkertainen regressio.

Kuva 1. Lineaarinen regressioviiva, joka näyttää a:n ja kulman b leikkauspisteen (Y:n kasvun määrä, kun x kasvaa yhdellä yksiköllä)

Pienimmän neliön menetelmä

Suoritamme regressioanalyysin käyttämällä havaintojen otosta, jossa a ja b- otosestimaatit todellisista (yleisistä) parametreista α ja β , jotka määrittävät lineaarisen regression linjan populaatiossa (yleinen populaatio).

Suurin osa yksinkertainen menetelmä kertoimien määrittäminen a ja b On pienimmän neliösumman menetelmä(MNK).

Sopivuus arvioidaan ottamalla huomioon residuaalit (kunkin pisteen pystysuora etäisyys viivasta, esim. jäännös = havaittavissa y-ennustettu y, Riisi. 2).

Sopivin viiva valitaan siten, että jäännösten neliöiden summa on minimaalinen.

Riisi. 2. Lineaarinen regressioviiva, jossa on kuvattu jäännös (pystysuorat katkoviivat) jokaiselle pisteelle.

Lineaariset regressiooletukset

Jokaisen havaitun arvon residuaali on siis yhtä suuri kuin erotus ja vastaava ennustettu arvo.Jokainen jäännös voi olla positiivinen tai negatiivinen.

Voit käyttää residuaaleja testataksesi seuraavia lineaarisen regression taustalla olevia oletuksia:

  • Residuaalit jakautuvat normaalisti nollakeskiarvolla;

Jos oletukset lineaarisuudesta, normaalisuudesta ja/tai vakiovarianssista ovat kyseenalaisia, voidaan muuntaa tai laskea uusi regressiosuora, jolle nämä oletukset täyttyvät (esim. käyttää logaritmista muunnosa jne.).

Epänormaalit arvot (outliers) ja vaikutuspisteet

"Vaikuttava" havainto, jos se jätetään pois, muuttaa yhtä tai useampaa mallin parametriarviota (eli kaltevuutta tai leikkauskohtaa).

Poikkeusarvo (havainto, joka on ristiriidassa useimpien tietojoukon arvojen kanssa) voi olla "vaikuttava" havainto, ja se voidaan havaita hyvin visuaalisesti, kun tarkastellaan 2D-sirontakuvaa tai jäännösdiagrammia.

Sekä poikkeaville että "vaikuttaville" havainnoille (pisteille) käytetään malleja, sekä niiden mukana että ilman niitä, huomioi estimaatin muutos (regressiokertoimet).

Kun teet analyysiä, älä hylkää automaattisesti poikkeamia tai vaikutuspisteitä, koska niiden huomioimatta jättäminen voi vaikuttaa tuloksiin. Tutki aina näiden poikkeamien syitä ja analysoi ne.

Lineaarisen regression hypoteesi

Lineaarista regressiota muodostettaessa nollahypoteesi tarkistetaan, että regressioviivan β yleinen kaltevuus on nolla.

Jos suoran kaltevuus on nolla, ja välillä ei ole lineaarista suhdetta: muutos ei vaikuta

Voit testata nollahypoteesia, että todellinen kaltevuus on nolla, käyttämällä seuraavaa algoritmia:

Laske testitilasto, joka on yhtä suuri kuin suhde , joka noudattaa vapausasteiden jakaumaa, jossa kertoimen keskivirhe


,

- jäännösten varianssin estimointi.

Yleensä, jos saavutettu merkitsevyystaso on nollahypoteesi, hylätään.


missä on prosenttipiste vapausasteiden jakaumasta, joka antaa kaksisuuntaisen testin todennäköisyyden

Tämä on väli, joka sisältää yleisen kaltevuuden todennäköisyydellä 95%.

Oletetaan suurille näytteille, että voimme likimääräisesti arvioida arvolla 1,96 (eli testitilasto on yleensä jakautunut normaalisti)

Lineaarisen regression laadun arviointi: determinaatiokerroin R 2

Lineaarisen suhteen vuoksi ja odotamme sen muuttuvan muutoksina , ja kutsumme tätä vaihteluksi, joka johtuu regressiosta tai selittää sen. Jäännösvaihtelun tulee olla mahdollisimman pieni.

Jos näin on, suurin osa vaihtelusta selittyy regressiolla ja pisteet ovat lähellä regressioviivaa, ts. rivi sopii hyvin dataan.

Regression selittämää osuutta kokonaisvarianssista kutsutaan määrityskerroin, ilmaistaan ​​yleensä prosentteina ja merkitään R2(paritetussa lineaarisessa regressiossa tämä on arvo r2, korrelaatiokertoimen neliö), voit arvioida subjektiivisesti regressioyhtälön laatua.

Ero on se varianssiprosentti, jota ei voida selittää regressiolla.

Koska arvioitavaa ei ole muodollista testiä, meidän on pakko luottaa subjektiiviseen harkintaan määrittääksemme regressioviivan sovituksen laadun.

Regressiosuoran käyttäminen ennusteeseen

Voit käyttää regressioviivaa ennustaaksesi arvon havaitun alueen arvosta (älä koskaan ekstrapoloi näiden rajojen yli).

Ennustamme keskiarvon havainnoitaville kohteille, joilla on tietty arvo, korvaamalla tämä arvo regressioviivayhtälöön.

Joten jos ennustamme kuten Käytämme tätä ennustettua arvoa ja sen keskivirhettä arvioidaksemme tosiarvon luottamusvälin keskikokoinen väestössä.

Toistamalla tämän toimenpiteen eri arvoille voit rakentaa luottamusrajoja tälle riville. Tämä on vyöhyke tai alue, joka sisältää esimerkiksi todellisen viivan 95 %:n luottamustasolla.

Yksinkertaiset regressiosuunnitelmat

Yksinkertaiset regressiomallit sisältävät yhden jatkuvan ennustajan. Jos ennustearvoilla P on 3 tapausta, kuten 7, 4 ja 9, ja suunnittelu sisältää ensimmäisen kertaluvun efektin P, niin suunnittelumatriisi X on

a regressioyhtälö P:n käyttö X1:lle näyttää

Y = b0 + b1 P

Jos yksinkertainen regressiosuunnitelma sisältää vaikutuksen ylempi määräys P:lle, kuten neliövaikutukselle, suunnittelumatriisin sarakkeen X1 arvot nostetaan toiseen potenssiin:

ja yhtälö saa muodon

Y = b0 + b1 P2

Sigmarajoitettuja ja yliparametreja koodausmenetelmiä ei voida soveltaa yksinkertaisiin regressiosuunnitelmiin ja muihin malleihin, jotka sisältävät vain jatkuvia ennustajia (koska kategorisia ennustajia ei yksinkertaisesti ole). Valitusta koodausmenetelmästä riippumatta jatkuvien muuttujien arvoja kasvatetaan sopivalla teholla ja niitä käytetään X-muuttujien arvoina. Tässä tapauksessa muuntamista ei tehdä. Lisäksi regressiosuunnitelmia kuvattaessa voit jättää huomioimatta suunnitelmamatriisin X ja työskennellä vain regressioyhtälön kanssa.

Esimerkki: Yksinkertainen regressioanalyysi

Tässä esimerkissä käytetään taulukon tietoja:

Riisi. 3. Taulukko lähtötiedoista.

Tiedot perustuvat vuosien 1960 ja 1970 väestönlaskennan vertailuun 30 satunnaisesti valitussa läänissä. Maakuntien nimet esitetään havaintoniminä. Alla on tiedot kustakin muuttujasta:

Riisi. 4. Muuttujamäärittelytaulukko.

Tutkimuksen tavoite

Tässä esimerkissä analysoidaan korrelaatiota köyhyysasteen ja sen voiman välillä, joka ennustaa köyhyysrajan alapuolella olevien perheiden prosenttiosuuden. Siksi käsittelemme muuttujaa 3 (Pt_Poor ) riippuvaisena muuttujana.

Voidaan esittää hypoteesi: väestönmuutos ja köyhyysrajan alapuolella olevien perheiden prosenttiosuus liittyvät toisiinsa. Vaikuttaa kohtuulliselta olettaa, että köyhyys johtaa väestön ulosvirtaukseen, joten köyhyysrajan alapuolella olevien ihmisten prosenttiosuuden ja väestönmuutoksen välillä olisi negatiivinen korrelaatio. Siksi käsittelemme muuttujaa 1 (Pop_Chng ) ennustajamuuttujana.

Näytä tulokset

Regressiokertoimet

Riisi. 5. Regressiokertoimet Pt_Poor kohdassa Pop_Chng.

Pop_Chng-rivin ja Param risteyksessä. standardoimaton kerroin Pt_Poor:n regressiolle Pop_Chng:lla on -0,40374. Tämä tarkoittaa, että jokaista väestön yksikkövähennystä kohden köyhyysaste nousee 0,40374. Tämän standardoimattoman kertoimen ylempi ja alempi (oletus) 95 %:n luottamusraja eivät sisällä nollaa, joten regressiokerroin on merkittävä p-tasolla<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Muuttujien jakautuminen

Korrelaatiokertoimet voivat tulla merkittävästi yli- tai aliarvioituiksi, jos tiedoissa on suuria poikkeavuuksia. Tarkastellaan riippuvaisen muuttujan Pt_Poor jakautumista maakuntien mukaan. Tätä varten rakennamme Pt_Poor-muuttujan histogrammin.

Riisi. 6. Pt_Poor-muuttujan histogrammi.

Kuten näette, tämän muuttujan jakauma poikkeaa huomattavasti normaalijakaumasta. Vaikka jopa kahdessa läänissä (kaksi oikeaa saraketta) on suurempi osuus perheistä, jotka ovat köyhyysrajan alapuolella kuin normaalijakaumassa odotettiin, ne näyttävät olevan "alueen sisällä".

Riisi. 7. Pt_Poor-muuttujan histogrammi.

Tämä tuomio on hieman subjektiivinen. Nyrkkisääntönä on, että poikkeamat tulee ottaa huomioon, jos havainto (tai havainnot) ei osu väliin (keskiarvo ± 3 kertaa standardipoikkeama). Tässä tapauksessa analyysi kannattaa toistaa poikkeamien kanssa ja ilman, jotta voidaan varmistaa, että niillä ei ole vakavaa vaikutusta väestön jäsenten väliseen korrelaatioon.

Sirontakaavio

Jos jokin hypoteeseista on a priori koskien annettujen muuttujien välistä suhdetta, se on hyödyllistä tarkistaa vastaavan sirontakaavion käyrältä.

Riisi. 8. Sirontakaavio.

Sirontakaavio osoittaa selkeän negatiivisen korrelaation (-.65) näiden kahden muuttujan välillä. Se näyttää myös 95 %:n luottamusvälin regressioviivalle, eli 95 %:n todennäköisyydellä regressioviiva kulkee kahden katkoviivakäyrän välillä.

Merkityskriteerit

Riisi. 9. Taulukko, joka sisältää merkittävyyskriteerit.

Pop_Chng-regressiokertoimen testi vahvistaa, että Pop_Chng liittyy vahvasti Pt_Poor, p<.001 .

Tulokset

Tämä esimerkki osoitti, kuinka yksinkertainen regressiosuunnitelma analysoidaan. Esitettiin myös tulkinta standardoimattomista ja standardoiduista regressiokertoimista. Riippuvaisen muuttujan vastejakauman tutkimisen tärkeydestä keskustellaan ja tekniikkaa ennustajan ja riippuvan muuttujan välisen suhteen suunnan ja vahvuuden määrittämiseksi.

Aiemmissa huomautuksissa on usein keskitytty yhteen numeeriseen muuttujaan, kuten sijoitusrahastojen tuottoon, verkkosivujen latausaikaan tai virvoitusjuomien kulutukseen. Tässä ja seuraavissa huomautuksissa tarkastelemme menetelmiä numeerisen muuttujan arvojen ennustamiseksi yhden tai useamman muun numeerisen muuttujan arvoista riippuen.

Aineistoa havainnollistetaan läpikäytävällä esimerkillä. Myyntivolyymin ennustaminen vaatekaupassa. Sunflowersin halpavaatekauppojen ketju on laajentunut jatkuvasti 25 vuoden ajan. Yhtiöllä ei kuitenkaan tällä hetkellä ole systemaattista lähestymistapaa uusien toimipisteiden valintaan. Paikka, johon yritys aikoo avata uuden myymälän, määräytyy subjektiivisten näkökohtien perusteella. Valintakriteereinä ovat edulliset vuokraehdot tai johtajan käsitys myymälän ihanteellisesta sijainnista. Kuvittele, että olet erikoisprojekti- ja suunnitteluosaston johtaja. Sinulle on annettu tehtäväksi laatia strateginen suunnitelma uusien myymälöiden avaamiseksi. Tämän suunnitelman tulee sisältää ennuste vuosittaisesta myynnistä vasta avatuissa myymälöissä. Uskot, että tilan myynti liittyy suoraan tuloihin ja haluat ottaa sen huomioon päätöksentekoprosessissasi. Miten kehität tilastollisen mallin, joka ennustaa vuosimyynnin uuden myymäläkoon perusteella?

Tyypillisesti regressioanalyysiä käytetään muuttujan arvojen ennustamiseen. Sen tavoitteena on kehittää tilastollinen malli, joka ennustaa riippuvan muuttujan eli vasteen arvot vähintään yhden riippumattoman tai selittävän muuttujan arvoista. Tässä huomautuksessa tarkastelemme yksinkertaista lineaarista regressiota - tilastollista menetelmää, jonka avulla voit ennustaa riippuvan muuttujan arvot Y riippumattoman muuttujan arvojen mukaan X. Seuraavat huomautukset kuvaavat usean regressiomallin, joka on suunniteltu ennustamaan riippumattoman muuttujan arvot Y useiden riippuvien muuttujien arvoilla ( X 1 , X 2 , …, X k).

Lataa muistiinpano muodossa tai muodossa, esimerkkejä muodossa

Regressiomallien tyypit

missä ρ 1 on autokorrelaatiokerroin; jos ρ 1 = 0 (ei autokorrelaatiota), D≈ 2; jos ρ 1 ≈ 1 (positiivinen autokorrelaatio), D≈ 0; jos ρ 1 = -1 (negatiivinen autokorrelaatio), D ≈ 4.

Käytännössä Durbin-Watson-kriteerin soveltaminen perustuu arvon vertailuun D kriittisillä teoreettisilla arvoilla dl ja d U tietylle määrälle havaintoja n, mallin riippumattomien muuttujien lukumäärä k(yksinkertaista lineaarista regressiota varten k= 1) ja merkitsevyystaso α. Jos D< d L , hypoteesi satunnaisten poikkeamien riippumattomuudesta hylätään (siis on positiivinen autokorrelaatio); jos D > d U, hypoteesia ei hylätä (eli ei ole autokorrelaatiota); jos d L< D < d U ei ole tarpeeksi syytä päätöksentekoon. Kun laskettu arvo D ylittää sitten 2 dl ja d U itse kerrointa ei verrata D, ja lauseke (4 – D).

Durbin-Watson-tilastojen laskemiseksi Excelissä siirrymme kuvan 1 alataulukkoon. neljätoista Saldon nosto. Lausekkeen (10) osoittaja lasketaan käyttämällä funktiota = SUMMQDIFF(taulukko1, matriisi2) ja nimittäjä = SUMMQ(taulukko) (kuva 16).

Riisi. 16. Durbin-Watson-tilastojen laskentakaavat

Meidän esimerkissämme D= 0,883. Pääkysymys on: mitä Durbin-Watson-tilaston arvoa pitäisi pitää riittävän pienenä, jotta voidaan päätellä, että autokorrelaatio on positiivinen? On tarpeen korreloida D:n arvo kriittisiin arvoihin ( dl ja d U) havaintojen lukumäärästä riippuen n ja merkitsevyystaso α (kuva 17).

Riisi. 17. Durbin-Watsonin tilastojen kriittiset arvot (taulukon fragmentti)

Siten kotiisi tavaroita toimittavan liikkeen myynnin määrän ongelmassa on yksi riippumaton muuttuja ( k= 1), 15 havaintoa ( n= 15) ja merkitsevyystaso α = 0,05. Näin ollen dl= 1,08 ja dU= 1,36. Koska D = 0,883 < dl= 1,08, jäännösten välillä on positiivinen autokorrelaatio, pienimmän neliösumman menetelmää ei voida soveltaa.

Kaltevuuden ja korrelaatiokertoimen hypoteesien testaus

Yllä olevaa regressiota sovellettiin yksinomaan ennustamiseen. Regressiokertoimien määrittäminen ja muuttujan arvon ennustaminen Y tietylle muuttujan arvolle X pienimmän neliösumman menetelmää käytettiin. Lisäksi huomioimme estimaatin keskivirheen ja sekakorrelaatiokertoimen. Jos jäännösanalyysi vahvistaa, että pienimmän neliösumman menetelmän sovellettavuuden ehtoja ei rikota ja yksinkertainen lineaarinen regressiomalli on riittävä, voidaan otantatietojen perusteella väittää, että perusjoukon muuttujien välillä on lineaarinen riippuvuus.

Sovellust - kaltevuuden kriteerit. Tarkistamalla, onko populaation jyrkkyys β 1 yhtä suuri kuin nolla, voidaan määrittää, onko muuttujien välillä tilastollisesti merkitsevä yhteys. X ja Y. Jos tämä hypoteesi hylätään, voidaan väittää, että muuttujien välillä X ja Y on lineaarinen suhde. Nolla- ja vaihtoehtoiset hypoteesit muotoillaan seuraavasti: H 0: β 1 = 0 (ei lineaarista suhdetta), H1: β 1 ≠ 0 (on lineaarinen suhde). Määritelmän mukaan t-tilasto on yhtä suuri kuin otoksen kaltevuuden ja hypoteettisen populaation kaltevuuden välinen ero jaettuna kulmakertoimen estimaatin keskivirheellä:

(11) t = (b 1 β 1 ) / Sb 1

missä b 1 on otostietoihin perustuvan suoran regression kaltevuus, β1 on suoran yleisen populaation hypoteettinen kaltevuus, ja testitilastot t Sillä on t- jakelu kanssa n - 2 vapauden asteet.

Tarkastetaan, onko kaupan koon ja vuosimyynnin välillä tilastollisesti merkitsevä suhde, kun α = 0,05. t-kriteerit näytetään yhdessä muiden parametrien kanssa käytettäessä Analyysipaketti(vaihtoehto Regressio). Analyysipaketin täydelliset tulokset näkyvät kuvassa. 4, t-tilastoihin liittyvä fragmentti - kuvassa 4. kahdeksantoista.

Riisi. 18. Hakemuksen tulokset t

Koska kauppojen määrä n= 14 (katso kuva 3), kriittinen arvo t-tilastot merkitsevyystasolla α = 0,05 löytyvät kaavasta: t L=OPPILAS.KÄÄNT(0,025;12) = -2,1788 missä 0,025 on puolet merkitsevyystasosta ja 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Koska t-tilastot = 10,64 > t U= 2,1788 (kuva 19), nollahypoteesi H 0 hylätään. Toisaalta, R- arvo X\u003d 10,6411, laskettuna kaavalla \u003d 1-OPPILAS.JAKAUMA (D3, 12, TOSI), on suunnilleen nolla, joten hypoteesi H 0 hylätään jälleen. Se, että R-arvo on lähes nolla, eli jos myymälän koon ja vuosimyynnin välillä ei olisi todellista lineaarista suhdetta, sen löytäminen lineaarisen regression avulla olisi lähes mahdotonta. Siksi keskimääräisen vuosittaisen myymälämyynnin ja kaupan koon välillä on tilastollisesti merkitsevä lineaarinen suhde.

Riisi. 19. Yleisväestön kaltevuuden hypoteesin testaus merkitsevyystasolla 0,05 ja 12 vapausastetta

SovellusF - kaltevuuden kriteerit. Vaihtoehtoinen lähestymistapa yksinkertaisen lineaarisen regression kaltevuutta koskevien hypoteesien testaamiseen on käyttää F-kriteeri. Muista tuo F-kriteeriä käytetään kahden varianssin välisen suhteen testaamiseen (katso yksityiskohdat). Kaltevuushypoteesia testattaessa satunnaisvirheiden mittana on virhevarianssi (virheiden neliösumma jaettuna vapausasteiden lukumäärällä), joten F-testi käyttää regression selittämää varianssin suhdetta (eli arvoja SSR jaettuna riippumattomien muuttujien lukumäärällä k), virhevarianssiin ( MSE=SYX 2 ).

Määritelmän mukaan F-tilasto on yhtä kuin regressiosta johtuvat keskimääräiset neliöpoikkeamat (MSR) jaettuna virhevarianssilla (MSE): F = MSR/ MSE, missä MSR=SSR / k, MSE =SSE/(n– k – 1), k on riippumattomien muuttujien lukumäärä regressiomallissa. Testitilastot F Sillä on F- jakelu kanssa k ja n– k – 1 vapauden asteet.

Tietylle merkitsevyystasolle α päätössääntö muotoillaan seuraavasti: jos F > FU, nollahypoteesi hylätään; muuten sitä ei hylätä. Tulokset, jotka on esitetty varianssianalyysin yhteenvetotaulukon muodossa, on esitetty kuvassa. kaksikymmentä.

Riisi. 20. ANOVA-taulukko hypoteesin testaamiseksi tilastollinen merkitsevyys regressiokerroin

samoin t-kriteeri F-kriteerit näkyvät taulukossa käytettäessä Analyysipaketti(vaihtoehto Regressio). Työn täydet tulokset Analyysipaketti esitetty kuvassa. 4, fragmentti liittyy F-tilastot - kuvassa. 21.

Riisi. 21. Hakemuksen tulokset F- Excel Analysis ToolPackin avulla hankitut kriteerit

F-tilasto on 113,23 ja R-arvo lähellä nollaa (solu MerkitysF). Jos merkitsevyystaso α on 0,05, määritä kriittinen arvo F-kaavasta saadaan jakaumat 1 ja 12 vapausasteella F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (kuva 22). Koska F = 113,23 > F U= 4,7472 ja R-arvo lähellä 0< 0,05, нулевая гипотеза H 0 poikkeaa, ts. Liikkeen koko liittyy läheisesti sen vuotuiseen myyntimäärään.

Riisi. 22. Yleisväestön kaltevuuden hypoteesin testaaminen merkitsevyystasolla 0,05, vapausasteilla yksi ja 12

Luottamusväli, joka sisältää kulmakertoimen β 1 . Voit testata hypoteesin muuttujien välisen lineaarisen suhteen olemassaolosta rakentamalla luottamusvälin, joka sisältää kulmakertoimen β 1 ja varmistaaksesi, että hypoteettinen arvo β 1 = 0 kuuluu tähän väliin. Kulmakertoimen β 1 sisältävän luottamusvälin keskipiste on otosjyrkkyys b 1 , ja sen rajat ovat suuret b 1 ±t n –2 Sb 1

Kuten kuvassa näkyy. kahdeksantoista, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Näin ollen b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 tai + 1,328 ≤ β 1 ≤ +2,012. Näin ollen populaation kaltevuus todennäköisyydellä 0,95 on alueella +1,328 - +2,012 (eli 1 328 000 - 2 012 000 dollaria). Koska nämä arvot ovat suurempia kuin nolla, vuosimyynnin ja myymäläpinta-alan välillä on tilastollisesti merkitsevä lineaarinen suhde. Jos luottamusväli olisi nolla, muuttujien välillä ei olisi suhdetta. Lisäksi luottamusväli tarkoittaa, että joka 1000 neliömetriä jalat lisäävät keskimääräistä myyntiä 1 328 000 dollarista 2 012 000 dollariin.

Käyttöt -korrelaatiokertoimen kriteerit. korrelaatiokerroin otettiin käyttöön r, joka on kahden numeerisen muuttujan välisen suhteen mitta. Sitä voidaan käyttää määrittämään, onko kahden muuttujan välillä tilastollisesti merkitsevä suhde. Merkitään molempien muuttujien populaatioiden välinen korrelaatiokerroin symbolilla ρ. Nolla- ja vaihtoehtoiset hypoteesit muotoillaan seuraavasti: H 0: ρ = 0 (ei korrelaatiota), H 1: ρ ≠ 0 (korrelaatio on olemassa). Korrelaation olemassaolon tarkistaminen:

missä r = + , jos b 1 > 0, r = – , jos b 1 < 0. Тестовая статистика t Sillä on t- jakelu kanssa n - 2 vapauden asteet.

Sunflowers-kauppaketjun ongelmassa r2= 0,904 ja b 1- +1,670 (katso kuva 4). Koska b 1> 0, vuosimyynnin ja myymäläkoon välinen korrelaatiokerroin on r= +√0,904 = +0,951. Testataan nollahypoteesia, että näiden muuttujien välillä ei ole korrelaatiota käyttämällä t- Tilastot:

Merkitsevyystasolla α = 0,05 nollahypoteesi tulee hylätä, koska t= 10,64 > 2,1788. Voidaan siis väittää, että vuosimyynnin ja myymäläkoon välillä on tilastollisesti merkitsevä yhteys.

Kun keskusteltiin väestön kaltevuuden vaikutuksista, luottamusvälit ja hypoteesien testauskriteerit ovat keskenään vaihdettavia työkaluja. Korrelaatiokertoimen sisältävän luottamusvälin laskeminen osoittautuu kuitenkin vaikeammaksi, koska tilaston otantajakauman muoto r riippuu todellisesta korrelaatiokertoimesta.

Matemaattisten odotusten estimointi ja yksittäisten arvojen ennustaminen

Tässä osassa käsitellään menetelmiä odotetun vastauksen arvioimiseksi Y ja yksittäisten arvojen ennusteet Y muuttujan annetuille arvoille X.

Luottamusvälin rakentaminen. Esimerkissä 2 (katso yllä oleva kohta Pienimmän neliön menetelmä) regressioyhtälö mahdollisti muuttujan arvon ennustamisen Y X. Vähittäismyymälän sijainnin valintaongelmassa keskimääräinen vuosimyynti myymälässä, jonka pinta-ala on 4000 neliömetriä. jalka oli 7,644 miljoonaa dollaria, mutta tämä arvio väestön matemaattisista odotuksista on piste. Yleisen väestön matemaattisen odotuksen arvioimiseksi ehdotettiin luottamusvälin käsitettä. Samalla tavalla voidaan esitellä käsite vasteen matemaattisen odotuksen luottamusväli klo aseta arvo muuttuja X:

missä , = b 0 + b 1 X i– ennustettu arvomuuttuja Y klo X = X i, S YX on keskimääräinen neliövirhe, n on näytteen koko, Xi- muuttujan annettu arvo X, µ Y|X = Xiodotettu arvo muuttuja Y klo X = Х i,SSX=

Kaavan (13) analyysi osoittaa, että luottamusvälin leveys riippuu useista tekijöistä. Tietyllä merkitsevyystasolla regressioviivan ympärillä olevien vaihteluiden amplitudin kasvu, mitattuna keskineliövirheellä, johtaa intervallin leveyden kasvuun. Toisaalta, kuten odotettiin, otoskoon kasvuun liittyy intervallin kaventuminen. Lisäksi intervallin leveys muuttuu arvojen mukaan Xi. Jos muuttujan arvo Y ennustettu määrille X, lähellä keskiarvoa , luottamusväli osoittautuu kapeammaksi kuin ennustettaessa vastetta arvoille, jotka ovat kaukana keskiarvosta.

Oletetaan, että myymälän paikkaa valittaessa haluamme rakentaa 95 %:n luottamusvälin keskimääräiselle vuosimyynnille kaikissa 4000 neliömetrin myymälöissä. jalat:

Siksi keskimääräinen vuotuinen myyntivolyymi kaikissa myymälöissä, joiden pinta-ala on 4000 neliömetriä. jalat, 95 % todennäköisyydellä on välillä 6,971-8,317 miljoonaa dollaria.

Laske ennustetun arvon luottamusväli. Muuttujan tietyn arvon vasteen matemaattisen odotuksen luottamusvälin lisäksi X, on usein tarpeen tietää ennustetun arvon luottamusväli. Vaikka tällaisen luottamusvälin laskentakaava on hyvin samanlainen kuin kaava (13), tämä intervalli sisältää ennustetun arvon eikä parametrin arviota. Ennustetun vastauksen aikaväli YX = Xi muuttujan tietylle arvolle Xi määräytyy kaavalla:

Oletetaan, että myymälän paikkaa valittaessa haluamme rakentaa 95 %:n luottamusvälin ennustetulle vuosimyyntimäärälle 4000 neliömetrin myymälässä. jalat:

Siksi ennustettu vuotuinen myyntimäärä on 4 000 neliömetriä. jalkaa, 95 %:n todennäköisyydellä on välillä 5,433 - 9,854 miljoonaa dollaria. Kuten näette, ennustetun vastearvon luottamusväli on paljon leveämpi kuin sen matemaattisen odotuksen luottamusväli. Tämä johtuu siitä, että vaihtelu yksittäisten arvojen ennustamisessa on paljon suurempi kuin odotusarvon arvioinnissa.

Regression käyttöön liittyvät sudenkuopat ja eettiset ongelmat

Regressioanalyysiin liittyvät vaikeudet:

  • Pienimmän neliösumman menetelmän soveltuvuusehtojen huomioimatta jättäminen.
  • Virheellinen arvio pienimmän neliösumman menetelmän sovellettavuuden ehdoista.
  • Vaihtoehtoisten menetelmien väärä valinta rikkoen pienimmän neliösumman menetelmän sovellettavuuden ehtoja.
  • Regressioanalyysin soveltaminen ilman opiskeluaiheen syvällistä tuntemusta.
  • Regression ekstrapolointi selittävän muuttujan alueen ulkopuolelle.
  • Sekaannus tilastollisten ja syy-suhteiden välillä.

Taulukoiden leviäminen ja ohjelmisto tilastollisia laskelmia varten poistettiin laskentaongelmat, jotka estivät regressioanalyysin käytön. Tämä johti kuitenkin siihen, että regressioanalyysiä alkoivat käyttää käyttäjät, joilla ei ole riittävää pätevyyttä ja tietoa. Mistä käyttäjät tietävät vaihtoehtoisista menetelmistä, jos monilla ei ole lainkaan aavistustakaan pienimmän neliösumman menetelmän sovellettavuuden ehdoista eivätkä osaa tarkistaa niiden toteutusta?

Lukujen hiominen - siirtymän, kaltevuuden ja sekakorrelaatiokertoimen laskeminen - ei saa viedä tutkijaa pois. Hän tarvitsee enemmän syvä tietämys. Havainnollistetaan tätä klassisella esimerkillä, joka on otettu oppikirjoista. Anscombe osoitti, että kaikki neljä kuvassa 1 esitettyä tietojoukkoa. 23:lla on samat regressioparametrit (kuvio 24).

Riisi. 23. Neljä keinotekoista tietojoukkoa

Riisi. 24. Neljän keinotekoisen tietojoukon regressioanalyysi; tehty kanssa Analyysipaketti(klikkaa kuvaa suurentaaksesi kuvan)

Joten regressioanalyysin näkökulmasta kaikki nämä tietojoukot ovat täysin identtisiä. Jos analyysi olisi ohi, olisimme menettäneet paljon hyödyllistä tietoa. Tästä on osoituksena näille tietojoukoille muodostetut sirontakuvaajat (kuva 25) ja jäännöskäyrät (kuva 26).

Riisi. 25. Sirontakuvaajat neljälle tietojoukolle

Sirontakuvaajat ja jäännöskäyrät osoittavat, että nämä tiedot eroavat toisistaan. Ainoa suoraa pitkin jakautunut joukko on A. Joukosta A laskettujen jäännösten kuvaajalla ei ole kuviota. Samaa ei voida sanoa joukoista B, C ja D. Joukolle B piirretty hajontakäyrä näyttää selkeän neliöllisen kuvion. Tämän päätelmän vahvistaa jäännöskaavio, jolla on parabolinen muoto. Sirontadiagrammi ja jäännösdiagrammi osoittavat, että tietojoukko B sisältää poikkeavan arvon. Tässä tilanteessa on välttämätöntä jättää poikkeava arvo pois tietojoukosta ja toistaa analyysi. Tekniikkaa poikkeavien havaintojen havaitsemiseksi ja poistamiseksi kutsutaan vaikutusanalyysiksi. Poikkeaman eliminoinnin jälkeen mallin uudelleenarvioinnin tulos voi olla täysin erilainen. Tietojoukosta D piirretty sirontakaavio kuvaa epätavallista tilannetta, jossa empiirinen malli on erittäin riippuvainen yhdestä vastauksesta ( X 8 = 19, Y 8 = 12,5). Tällaiset regressiomallit on laskettava erityisen huolellisesti. Joten sironta- ja jäännöskuvaajat ovat äärimmäisiä välttämätön työkalu regressioanalyysi, ja sen tulisi olla olennainen osa sitä. Ilman niitä regressioanalyysi ei ole uskottava.

Riisi. 26. Jäännöskuvaajat neljälle tietojoukolle

Kuinka välttää sudenkuopat regressioanalyysissä:

  • Analyysi muuttujien välisestä mahdollisesta suhteesta X ja Y aloita aina sirontakaaviosta.
  • Ennen kuin tulkitset regressioanalyysin tuloksia, tarkista sen sovellettavuus.
  • Piirrä jäännökset riippumattoman muuttujan funktiona. Tämä mahdollistaa sen määrittämisen, kuinka empiirinen malli vastaa havainnoinnin tuloksia, ja havaita varianssin pysyvyyden rikkominen.
  • Käytä histogrammeja, varsi- ja lehtikuvaajia, laatikkokaavioita ja normaalijakaumakäyriä virheiden normaalijakauman oletuksen testaamiseen.
  • Jos pienimmän neliösumman menetelmän soveltuvuusehdot eivät täyty, käytä vaihtoehtoisia menetelmiä(esimerkiksi neliö- tai moniregressiomallit).
  • Jos pienimmän neliösumman menetelmän soveltuvuusehdot täyttyvät, on tarpeen testata hypoteesia regressiokertoimien tilastollisesta merkitsevyydestä ja muodostaa luottamusvälit, jotka sisältävät matemaattisen odotuksen ja ennustetun vastearvon.
  • Vältä riippuvan muuttujan arvojen ennustamista riippumattoman muuttujan alueen ulkopuolella.
  • Muista, että tilastolliset riippuvuudet eivät aina ole kausaalisia. Muista, että muuttujien välinen korrelaatio ei tarkoita, että niiden välillä olisi syy-suhde.

Yhteenveto. Kuten lohkokaaviossa (kuva 27) näkyy, huomautuksessa kuvataan yksinkertainen lineaarinen regressiomalli, sen sovellettavuuden ehdot ja tapoja testata näitä ehtoja. Harkitaan t-regression kulmakertoimen tilastollisen merkitsevyyden testauskriteeri. Riippuvan muuttujan arvojen ennustamiseen käytettiin regressiomallia. Esimerkkinä tarkastellaan myymälän paikan valintaa, jossa tutkitaan vuotuisen myyntivolyymin riippuvuutta myymälän pinta-alasta. Saatujen tietojen avulla voit valita myymälän sijainnin tarkemmin ja ennustaa sen vuosimyynnin. Seuraavissa muistiinpanoissa jatketaan keskustelua regressioanalyysistä sekä useista regressiomalleista.

Riisi. 27. Muistiinpanon lohkokaavio

Materiaalit ovat kirjasta Levin et al. Statistics for managers. - M.: Williams, 2004. - s. 792–872

Jos riippuva muuttuja on kategorinen, tulee käyttää logistista regressiota.

Aiheeseen liittyvät julkaisut