Jednostavna regresijska analiza. Regresijska analiza je statistička metoda za proučavanje ovisnosti slučajne varijable o varijablama. Analiza rezultata analize

Tijekom studija studenti se vrlo često susreću s raznim jednadžbama. Jedna od njih - regresijska jednadžba - razmatra se u ovom članku. Ova vrsta jednadžbe posebno se koristi za opisivanje karakteristika odnosa između matematičkih parametara. Ovaj tip jednakosti se koriste u statistici i ekonometriji.

Definicija regresije

U matematici se pod regresijom podrazumijeva određena veličina koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Regresijska jednadžba pokazuje, kao funkciju određene značajke, prosječnu vrijednost druge značajke. Regresijska funkcija ima oblik jednostavne jednadžbe y \u003d x, u kojoj y djeluje kao zavisna varijabla, a x je nezavisna varijabla (faktor značajke). Zapravo, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli

Općenito, razlikuju se dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakterizira jednakost uvjetnih varijabli. NA ovaj slučaj ne zna se pouzdano koja varijabla ovisi o drugoj.

Ako ne postoji jednakost između varijabli i uvjeti govore koja je varijabla objašnjavajuća, a koja zavisna, tada možemo govoriti o prisutnosti veze drugog tipa. Kako bi se izgradila jednadžba linearne regresije, bit će potrebno saznati koja se vrsta odnosa promatra.

Vrste regresija

Do danas postoji 7 različitih vrsta regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednadžba linearne regresije koristi se u statistici za jasno objašnjenje parametara jednadžbe. Izgleda kao y = c + m * x + E. Hiperbolička jednadžba ima oblik pravilne hiperbole y \u003d c + m / x + E. Logaritamski linearna jednadžba izražava odnos pomoću logaritamske funkcije: In y \u003d In c + m * In x + In E.

Višestruko i nelinearno

još dva složene vrste regresije su višestruke i nelinearne. Jednadžba višestruke regresije izražena je funkcijom y \u003d f (x 1, x 2 ... x c) + E. U ovoj situaciji, y je zavisna varijabla, a x je eksplanatorna varijabla. Varijabla E je stohastička i uključuje utjecaj drugih faktora u jednadžbi. Jednadžba nelinearne regresije je malo nedosljedna. S jedne strane, s obzirom na pokazatelje koji se uzimaju u obzir, on nije linearan, as druge strane, u ulozi ocjene pokazatelja, on je linearan.

Inverzna i parna regresija

Inverz je vrsta funkcije koju je potrebno pretvoriti u linearni oblik. U najtradicionalnijim aplikacijskim programima ima oblik funkcije y \u003d 1 / c + m * x + E. Jednadžba parne regresije prikazuje odnos između podataka kao funkcije y = f(x) + E. Kao i druge jednadžbe, y ovisi o x, a E je stohastički parametar.

Pojam korelacije

Ovo je pokazatelj koji pokazuje postojanje veze između dvije pojave ili procesa. Snaga veze izražava se koeficijentom korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator ukazuje na prisutnost Povratne informacije, pozitivno - o ravnoj crti. Ako koeficijent ima vrijednost jednaku 0, tada nema veze. Što je vrijednost bliža 1 - odnos između parametara je jači, što je bliži 0 - to je slabiji.

Metode

Korelacijske parametarske metode mogu procijeniti čvrstoću odnosa. Koriste se na temelju procjena distribucije za proučavanje parametara koji se pokoravaju normalnom zakonu distribucije.

Parametri linearne regresijske jednadžbe potrebni su za prepoznavanje vrste ovisnosti, funkcije regresijske jednadžbe i procjenu pokazatelja odabrane formule odnosa. Polje korelacije koristi se kao metoda za identificiranje odnosa. Da biste to učinili, svi postojeći podaci moraju biti predstavljeni grafički. U pravokutnom dvodimenzionalnom koordinatnom sustavu moraju se iscrtati svi poznati podaci. Tako nastaje korelacijsko polje. Na apscisi je označena vrijednost faktora koji opisuje, a na ordinati vrijednosti zavisnog faktora. Ako postoji funkcionalni odnos između parametara, oni se nižu u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunoj odsutnosti veze. Ako je između 30% i 70%, to ukazuje na prisutnost karika srednje čvrstoće. Indikator od 100% je dokaz funkcionalne veze.

Jednadžba nelinearne regresije, kao i linearna, mora biti dopunjena korelacijskim indeksom (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o tijesnosti odnosa prikazanog skupa indikatora sa svojstvom koje se proučava. Također se može govoriti o prirodi utjecaja parametara na rezultat. Pomoću ovog pokazatelja procjenjuje se jednadžba višestruke regresije.

Da bi se izračunao indeks višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način procjene faktora regresije. Njegova bit leži u minimiziranju zbroja kvadratnih odstupanja dobivenih ovisnošću faktora o funkciji.

Jednadžba uparene linearne regresije može se procijeniti pomoću takve metode. Ova vrsta jednadžbi koristi se u slučaju otkrivanja uparenog linearnog odnosa između pokazatelja.

Opcije jednadžbe

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena linearna regresijska jednadžba sadrži dva parametra: c i m. Parametar t pokazuje prosječnu promjenu konačnog pokazatelja funkcije y, ovisno o smanjenju (povećanju) varijable x za jedan konvencionalna jedinica. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, tada faktor c nema ekonomskog smisla. Jedini utjecaj na funkciju ima predznak ispred faktora c. Ako postoji minus, onda možemo govoriti o sporoj promjeni rezultata u odnosu na faktor. Ako postoji plus, to znači ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost regresijske jednadžbe može se izraziti u obliku jednadžbe. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje takvi uvjeti zadatka u kojima su sve informacije grupirane prema atributu x, ali su istodobno za određenu skupinu naznačene odgovarajuće prosječne vrijednosti ovisnog pokazatelja. U ovom slučaju, prosječne vrijednosti karakteriziraju kako indikator ovisi o x. Dakle, grupirane informacije pomažu pronaći regresijsku jednadžbu. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosjeci su često podložni vanjskim fluktuacijama. Te fluktuacije nisu odraz obrazaca odnosa, one samo prikrivaju njegovu "buku". Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem veličine određene populacije s odgovarajućim prosjekom, možete dobiti zbroj y unutar grupe. Zatim morate izbaciti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže raditi izračune s indikatorom zbroja xy. U slučaju da su intervali mali, pokazatelj x možemo uvjetno uzeti za sve jedinice (unutar grupe) isti. Pomnožite ga sa zbrojem y da biste pronašli zbroj umnožaka x i y. Nadalje, sve sume se zbrajaju i ispada ukupni iznos hu.

Regresija jednadžbe s više parova: Procjena važnosti odnosa

Kao što je ranije objašnjeno, višestruka regresija ima funkciju oblika y \u003d f (x 1, x 2, ..., x m) + E. Najčešće se ovakva jednadžba koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice, proučavanje uzroka i vrste funkcije troškova proizvodnje. Također se aktivno koristi u raznim makroekonomskim studijama i izračunima, ali na razini mikroekonomije ova se jednadžba koristi nešto rjeđe.

Glavni zadatak višestruke regresije je izgraditi podatkovni model koji sadrži ogromnu količinu informacija kako bi se dalje odredilo kakav učinak ima svaki od čimbenika pojedinačno iu svojoj ukupnosti na pokazatelj koji se modelira i njegove koeficijente. Regresijska jednadžba može poprimiti različite vrijednosti. U tom se slučaju obično koriste dvije vrste funkcija za procjenu odnosa: linearne i nelinearne.

Linearna funkcija prikazana je u obliku takvog odnosa: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. U ovom slučaju a2, a m se smatraju koeficijentima "čiste" regresije. Oni su potrebni za karakterizaciju prosječne promjene parametra y s promjenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilne vrijednosti ostalih pokazatelja.

Nelinearne jednadžbe imaju npr. oblik funkcija snage y=ax 1 b1 x 2 b2 ...x m bm . U ovom slučaju, pokazatelji b 1, b 2 ..... b m - nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg pokazatelja x za 1% a uz stabilan pokazatelj ostalih faktora.

Koje čimbenike treba uzeti u obzir pri izradi višestruke regresije

Kako bi se ispravno konstruirala višestruka regresija, potrebno je otkriti na koje čimbenike treba obratiti posebnu pozornost.

Potrebno je imati određeno razumijevanje prirode odnosa između ekonomskih čimbenika i modeliranog. Čimbenici koji se uključuju moraju ispunjavati sljedeće kriterije:

  • Mora biti mjerljivo. Da bi se koristio faktor koji opisuje kvalitetu predmeta, u svakom slučaju, treba mu dati kvantitativni oblik.
  • Ne bi trebalo postojati međukorelacija faktora ili funkcionalni odnos. Ovakvi postupci najčešće dovode do nepovratnih posljedica – sustava obične jednadžbe postaje neuvjetovan, a to povlači za sobom njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacijskog pokazatelja, ne postoji način da se otkrije izolirani utjecaj čimbenika na konačni rezultat pokazatelja, stoga koeficijenti postaju netumačivi.

Metode konstrukcije

Postoji ogroman broj metoda i načina da se objasni kako možete odabrati faktore za jednadžbu. Međutim, sve te metode temelje se na izboru koeficijenata pomoću indeksa korelacije. Među njima su:

  • Metoda isključenja.
  • Uključi metodu.
  • Postupna regresijska analiza.

Prva metoda uključuje izdvajanje svih koeficijenata iz agregatnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno primijenjeni na jednadžbu. Svaka od ovih metoda ima pravo postojati. Imaju svoje prednosti i nedostatke, ali problem uklanjanja nepotrebnih pokazatelja mogu riješiti na svoj način. U pravilu su rezultati dobiveni svakom pojedinačnom metodom prilično bliski.

Metode multivarijatne analize

Takve metode određivanja faktora temelje se na razmatranju pojedinačnih kombinacija međusobno povezanih obilježja. To uključuje diskriminantnu analizu, prepoznavanje uzoraka, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, no ona se pojavila kao rezultat razvoja metode komponenata. Svi se oni primjenjuju u određenim okolnostima, pod određenim uvjetima i čimbenicima.

Što je regresija?

Razmotrimo dvije kontinuirane varijable x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Postavimo točke na 2D dijagram raspršenosti i recimo da imamo linearni odnos ako su podaci aproksimirani ravnom linijom.

Ako to pretpostavimo g ovisi o x, i promjene u g uzrokovane promjenama u x, možemo definirati regresijsku liniju (regresija g na x), koji najbolje opisuje pravocrtni odnos između ove dvije varijable.

Statistička upotreba riječi "regresija" dolazi od fenomena poznatog kao regresija na srednju vrijednost, koji se pripisuje Sir Francisu Galtonu (1889).

Pokazao je da dok visoki očevi obično imaju visoke sinove, prosječna visina sinova niža je od visine njihovih visokih očeva. Prosječna visina sinova je “nazadovala” i “vratila se” na prosječnu visinu svih očeva u populaciji. Tako u prosjeku visoki očevi imaju niže (ali još uvijek visoke) sinove, a niski očevi imaju više (ali još uvijek prilično niske) sinove.

regresijska linija

Matematička jednadžba koja procjenjuje jednostavnu (uparenu) liniju linearne regresije:

x naziva nezavisna varijabla ili prediktor.

Y je zavisna varijabla ili varijabla odgovora. To je vrijednost koju očekujemo g(u prosjeku) ako znamo vrijednost x, tj. je predviđena vrijednost g»

  • a- slobodan član (prijelaz) ocjenjivačke linije; ovu vrijednost Y, kada x=0(Sl. 1).
  • b- nagib ili gradijent procijenjene linije; to je iznos kojim Y povećava se u prosjeku ako povećavamo x za jednu jedinicu.
  • a i b nazivaju se koeficijenti regresije procijenjene linije, iako se ovaj izraz često koristi samo za b.

Parna linearna regresija može se proširiti da uključi više od jedne neovisne varijable; u ovom slučaju to je poznato kao višestruka regresija.

Sl. 1. Linija linearne regresije koja prikazuje sjecište a i nagiba b (količina povećanja Y kada se x poveća za jednu jedinicu)

Metoda najmanjeg kvadrata

Provodimo regresijsku analizu koristeći uzorak opažanja gdje a i b- procjena uzorka stvarnih (općih) parametara, α i β, koji određuju liniju linearne regresije u populaciji (općoj populaciji).

Najviše jednostavna metoda određivanje koeficijenata a i b je metoda najmanjih kvadrata(MNK).

Prilagodba se procjenjuje uzimajući u obzir reziduale (vertikalna udaljenost svake točke od linije, npr. rezidualno = vidljivo g- predviđeno g, riža. 2).

Linija najboljeg pristajanja bira se tako da je zbroj kvadrata reziduala minimalan.

Riža. 2. Linija linearne regresije s prikazanim rezidualima (okomite isprekidane linije) za svaku točku.

Pretpostavke linearne regresije

Dakle, za svaku promatranu vrijednost rezidual je jednak razlici i odgovarajućem predviđenom.Svaki rezidual može biti pozitivan ili negativan.

Možete koristiti reziduale za testiranje sljedećih pretpostavki iza linearne regresije:

  • Ostaci su normalno raspoređeni s nultom sredinom;

Ako su pretpostavke o linearnosti, normalnosti i/ili konstantnoj varijanci upitne, možemo transformirati ili izračunati nova linija regresija za koju su te pretpostavke zadovoljene (na primjer, korištenje logaritamska transformacija ili drugi).

Abnormalne vrijednosti (outliers) i točke utjecaja

"Utjecajno" opažanje, ako je izostavljeno, mijenja jednu ili više procjena parametra modela (tj. nagib ili presjek).

Outlier (opažanje koje je u sukobu s većinom vrijednosti u skupu podataka) može biti "utjecajno" opažanje i može se dobro uočiti vizualno kada se gleda 2D dijagram raspršenosti ili dijagram reziduala.

I za outliere i za "utjecajna" opažanja (točke) koriste se modeli, s njihovim uključivanjem i bez njih, obratite pozornost na promjenu procjene (regresijski koeficijenti).

Kada radite analizu, nemojte automatski odbacivati ​​outliere ili utjecajne točke, jer njihovo jednostavno ignoriranje može utjecati na rezultate. Uvijek proučavajte uzroke ovih odstupanja i analizirajte ih.

Hipoteza linearne regresije

Prilikom konstruiranja linearne regresije provjerava se nulta hipoteza da je opći nagib regresijske linije β nula.

Ako je nagib linije jednak nuli, ne postoji linearni odnos između i: promjena ne utječe

Za testiranje nulte hipoteze da je pravi nagib nula, možete koristiti sljedeći algoritam:

Izračunajte testnu statistiku jednaku omjeru , koji se pokorava distribuciji sa stupnjevima slobode, gdje je standardna pogreška koeficijenta


,

- procjena varijance reziduala.

Obično, ako je dosegnuta razina značajnosti, nulta hipoteza se odbacuje.


gdje je postotna točka distribucije sa stupnjevima slobode koja daje vjerojatnost dvosmjernog testa

Ovo je interval koji sadrži opći nagib s vjerojatnošću od 95%.

Za velike uzorke, recimo da možemo aproksimirati s vrijednošću od 1,96 (to jest, statistika testa težit će normalnoj distribuciji)

Ocjena kvalitete linearne regresije: koeficijent determinacije R 2

Zbog linearnog odnosa i očekujemo da se to mijenja kako se mijenja , a to nazivamo varijacijom koja je posljedica ili objašnjena regresijom. Preostala varijacija treba biti što manja.

Ako je tako, tada će većina varijacija biti objašnjena regresijom, a točke će ležati blizu regresijske linije, tj. linija dobro odgovara podacima.

Udio ukupne varijance koji se objašnjava regresijom naziva se koeficijent determinacije, obično izražen kao postotak i označen R2(u uparenoj linearnoj regresiji, ovo je vrijednost r2, kvadrat koeficijenta korelacije), omogućuje subjektivnu procjenu kvalitete regresijske jednadžbe.

Razlika je postotak varijance koji se ne može objasniti regresijom.

Bez formalnog testa za procjenu, prisiljeni smo osloniti se na subjektivnu prosudbu kako bismo odredili kvalitetu prilagodbe regresijske linije.

Primjena regresijske linije na prognozu

Možete koristiti regresijsku liniju za predviđanje vrijednosti iz vrijednosti unutar promatranog raspona (nikada ne ekstrapolirajte izvan ovih granica).

Predviđamo srednju vrijednost za vidljive veličine koje imaju određenu vrijednost zamjenom te vrijednosti u jednadžbu regresijske linije.

Dakle, ako predviđamo kao što koristimo ovu predviđenu vrijednost i njezinu standardnu ​​pogrešku za procjenu intervala pouzdanosti za pravu srednju populaciju.

Ponavljanje ovog postupka za različite vrijednosti omogućuje vam da izgradite granice pouzdanosti za ovu liniju. Ovo je pojas ili područje koje sadrži pravu liniju, na primjer, s razinom pouzdanosti od 95%.

Jednostavni regresijski planovi

Jednostavni regresijski dizajni sadrže jedan kontinuirani prediktor. Ako postoje 3 slučaja s prediktorskim vrijednostima P, kao što su 7, 4 i 9, a dizajn uključuje učinak prvog reda P, tada će matrica dizajna X biti

a regresijska jednadžba korištenje P za X1 izgleda ovako

Y = b0 + b1 P

Ako jednostavan regresijski dizajn sadrži učinak višeg reda na P, kao što je kvadratni učinak, tada će vrijednosti u stupcu X1 u matrici dizajna biti podignute na drugu potenciju:

a jednadžba će dobiti oblik

Y = b0 + b1 P2

Sigma-ograničene i nadparametrizirane metode kodiranja ne primjenjuju se na jednostavne regresijske dizajne i druge dizajne koji sadrže samo kontinuirane prediktore (jer jednostavno nema kategoričkih prediktora). Bez obzira na odabranu metodu kodiranja, vrijednosti kontinuiranih varijabli se povećavaju odgovarajućom snagom i koriste se kao vrijednosti za X varijable. U tom se slučaju ne provodi konverzija. Osim toga, kada opisujete regresijske planove, možete izostaviti razmatranje matrice plana X i raditi samo s regresijskom jednadžbom.

Primjer: Jednostavna regresijska analiza

Ovaj primjer koristi podatke navedene u tablici:

Riža. 3. Tablica početnih podataka.

Podaci se temelje na usporedbi popisa stanovništva iz 1960. i 1970. u 30 nasumično odabranih županija. Nazivi okruga predstavljeni su kao nazivi promatranja. Informacije o svakoj varijabli prikazane su u nastavku:

Riža. 4. Tablica specifikacija varijabli.

Cilj istraživanja

Za ovaj primjer analizirat će se korelacija između stope siromaštva i snage koja predviđa postotak obitelji koje su ispod granice siromaštva. Stoga ćemo varijablu 3 (Pt_Poor) tretirati kao zavisnu varijablu.

Može se postaviti hipoteza: promjena broja stanovnika i postotak obitelji ispod granice siromaštva povezani su. Čini se razumnim očekivati ​​da siromaštvo dovodi do odljeva stanovništva, stoga bi postojala negativna korelacija između postotka ljudi ispod granice siromaštva i promjene stanovništva. Stoga ćemo varijablu 1 (Pop_Chng) tretirati kao prediktorsku varijablu.

Pogledaj rezultate

Regresijski koeficijenti

Riža. 5. Regresijski koeficijenti Pt_Poor na Pop_Chng.

Na sjecištu reda Pop_Chng i Param. nestandardizirani koeficijent za regresiju Pt_Poor na Pop_Chng je -0,40374. To znači da za svaku jedinicu smanjenja stanovništva dolazi do povećanja stope siromaštva od 0,40374. Gornje i donje (zadane) granice pouzdanosti od 95% za ovaj nestandardizirani koeficijent ne uključuju nulu, tako da je koeficijent regresije značajan na razini p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribucija varijabli

Koeficijenti korelacije mogu postati značajno precijenjeni ili podcijenjeni ako u podacima postoje velika odstupanja. Ispitajmo distribuciju zavisne varijable Pt_Poor po županiji. Da bismo to učinili, izgradit ćemo histogram varijable Pt_Poor.

Riža. 6. Histogram varijable Pt_Poor.

Kao što vidite, distribucija ove varijable znatno se razlikuje od normalne distribucije. Međutim, iako čak dvije županije (u desna dva stupca) imaju veći postotak obitelji koje su ispod granice siromaštva nego što se očekuje u normalnoj distribuciji, čini se da su "unutar raspona".

Riža. 7. Histogram varijable Pt_Poor.

Ova je prosudba donekle subjektivna. Osnovno pravilo je da se odstupanja trebaju uzeti u obzir ako opažanje (ili opažanja) ne spadaju unutar intervala (srednja vrijednost ± 3 puta standardna devijacija). U ovom slučaju vrijedi ponoviti analizu sa i bez outliera kako bismo bili sigurni da oni nemaju ozbiljan učinak na korelaciju između članova populacije.

Dijagram raspršenosti

Ako je jedna od hipoteza apriorna o odnosu između zadanih varijabli, tada ju je korisno provjeriti na dijagramu odgovarajućeg raspršenog dijagrama.

Riža. 8. Dijagram raspršenosti.

Dijagram raspršenosti pokazuje jasnu negativnu korelaciju (-,65) između dviju varijabli. Također pokazuje interval pouzdanosti od 95% za regresijsku liniju, tj. s 95% vjerojatnosti regresijska linija prolazi između dvije isprekidane krivulje.

Kriteriji značajnosti

Riža. 9. Tablica koja sadrži kriterije značajnosti.

Test za koeficijent regresije Pop_Chng potvrđuje da je Pop_Chng snažno povezan s Pt_Poor, p<.001 .

Ishod

Ovaj primjer pokazao je kako analizirati jednostavan regresijski plan. Prikazana je i interpretacija nestandardiziranih i standardiziranih regresijskih koeficijenata. Raspravlja se o važnosti proučavanja distribucije odgovora zavisne varijable te se demonstrira tehnika za određivanje smjera i jačine odnosa između prediktora i zavisne varijable.

U prisutnosti korelacije između čimbenika i rezultirajućih znakova, liječnici često moraju odrediti koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni mjernom jedinicom koju je općenito prihvatio ili ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčice ili dječaci) ako se njihova visina poveća za 1 cm.U te svrhe koristi se metoda regresijske analize.

Najčešće se metoda regresijske analize koristi za izradu normativnih ljestvica i standarda tjelesnog razvoja.

  1. Definicija regresije. Regresija je funkcija koja omogućuje, na temelju prosječne vrijednosti jednog atributa, određivanje prosječne vrijednosti drugog atributa koji je u korelaciji s prvim.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati prosječan broj prehlada na određenim vrijednostima prosječne mjesečne temperature zraka u jesensko-zimskom razdoblju.

  2. Definicija koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se vrijednost jednog atributa u prosjeku mijenja kada se drugi atribut povezan s njim promijeni prema utvrđenoj mjernoj jedinici.
  3. Formula koeficijenta regresije. R y / x \u003d r xy x (σ y / σ x)
    gdje je R y / x - koeficijent regresije;
    r xy - koeficijent korelacije između obilježja x i y;
    (σ y i σ x) - standardna odstupanja značajki x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature zraka u jesensko-zimskom razdoblju;
    σ y = 8,65 (standardna devijacija broja zaraznih prehlada).
    Dakle, R y/x je koeficijent regresije.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, tj. uz smanjenje prosječne mjesečne temperature zraka (x) za 1 stupanj, prosječan broj zaraznih prehlada (y) u jesensko-zimskom razdoblju promijenit će se za 1,8 slučajeva.

  4. Regresijska jednadžba. y \u003d M y + R y / x (x - M x)
    gdje je y prosječna vrijednost atributa, koju treba odrediti kada se promijeni prosječna vrijednost drugog atributa (x);
    x - poznata prosječna vrijednost drugog obilježja;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti značajki x i y.

    Na primjer, prosječan broj zaraznih prehlada (y) može se odrediti bez posebnih mjerenja pri bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako x = - 9 °, R y / x = 1,8 bolesti, M x = -7 °, M y = 20 bolesti, tada je y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova se jednadžba primjenjuje u slučaju pravocrtnog odnosa između dva obilježja (x i y).

  5. Svrha regresijske jednadžbe. Regresijska jednadžba koristi se za iscrtavanje regresijske linije. Potonji omogućuje, bez posebnih mjerenja, određivanje bilo koje prosječne vrijednosti (y) jednog atributa, ako se promijeni vrijednost (x) drugog atributa. Na temelju tih podataka gradi se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti srednje mjesečne temperature unutar raspona između izračunatih vrijednosti broja prehlada.
  6. Regresijska sigma (formula).
    gdje je σ Ru/x - sigma (standardna devijacija) regresije;
    σ y je standardna devijacija značajke y;
    r xy - koeficijent korelacije između obilježja x i y.

    Dakle, ako je σ y standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom razdoblju (x) je - 0,96, tada

  7. Svrha sigma regresije. Daje karakteristiku mjere raznolikosti rezultirajuće značajke (y).

    Na primjer, karakterizira raznolikost broja prehlada pri određenoj vrijednosti prosječne mjesečne temperature zraka u jesensko-zimskom razdoblju. Dakle, prosječni broj prehlada pri temperaturi zraka x 1 \u003d -6 ° može varirati od 15,78 bolesti do 20,62 bolesti.
    Pri x 2 = -9°, prosječan broj prehlada može varirati od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma koristi se u konstrukciji regresijske ljestvice, koja odražava odstupanje vrijednosti efektivnog atributa od njegove prosječne vrijednosti iscrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i iscrtavanje regresijske ljestvice
    • koeficijent regresije - Ry/x;
    • regresijska jednadžba - y \u003d M y + R y / x (x-M x);
    • regresijska sigma - σ Rx/y
  9. Redoslijed izračuna i grafički prikaz regresijske ljestvice.
    • odrediti regresijski koeficijent formulom (vidi stavak 3). Primjerice, treba odrediti koliko će se promijeniti prosječna tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • prema formuli regresijske jednadžbe (vidi stavak 4.) odredi kolika će biti prosječna npr. tjelesna težina (y, y 2, y 3 ...) * za određenu vrijednost rasta (x, x 2, x 3 ...) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrijednosti"X".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamijenivši njihove vrijednosti u formulu (vidi paragraf 6).
    • na temelju poznatih vrijednosti x 1, x 2, x 3 i njima odgovarajućih prosječnih vrijednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru / x) i najvećih (y + σ ru / x) vrijednosti \u200b\u200b(y) konstruiraju regresijsku ljestvicu.

      Za grafički prikaz regresijske skale, na grafikonu se prvo označavaju vrijednosti x, x 2 , x 3 (y-osa), tj. gradi se regresijska linija npr. ovisnost tjelesne težine (y) o visini (x).

      Zatim se u odgovarajućim točkama y 1 , y 2 , y 3 označavaju numeričke vrijednosti regresijske sigme, tj. na grafikonu pronađite najmanju i najveću vrijednost y 1 , y 2 , y 3 .

  10. Praktična uporaba regresijske ljestvice. Izrađuju se normativne ljestvice i standardi, posebice za tjelesni razvoj. Prema standardnoj ljestvici moguće je dati individualnu procjenu razvoja djece. Pritom se tjelesni razvoj ocjenjuje skladnim ako je npr. na određenoj visini djetetova tjelesna težina unutar jedne sigme regresije prema prosječnoj izračunatoj jedinici tjelesne težine - (y) za zadanu visinu (x) (y ± 1 σ Ry / x).

    Tjelesni razvoj smatra se disharmoničnim u pogledu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge regresijske sigme: (y ± 2 σ Ry/x)

    Tjelesni razvoj će biti izrazito disharmoničan i zbog prekomjerne i zbog nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja tjelesnog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije prikazane su u tablici.

Potreban:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednadžbe odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina s visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati regresijsku sigmu, izgraditi regresijsku ljestvicu, grafički prikazati rezultate njezina rješenja;
  • izvući odgovarajuće zaključke.

Stanje problema i rezultati njegovog rješenja prikazani su u zbirnoj tablici.

stol 1

Uvjeti problema Rezultati rješenja problema
regresijska jednadžba sigma regresija regresijska ljestvica (očekivana tjelesna težina (u kg))
M σ r xy R y/x x Na σRx/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
Visina (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tjelesna težina (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Riješenje.

Zaključak. Dakle, regresijska ljestvica unutar izračunatih vrijednosti tjelesne težine omogućuje vam da je odredite za bilo koju drugu vrijednost rasta ili da procijenite individualni razvoj djeteta. Da biste to učinili, vratite okomicu na regresijsku liniju.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za srednje škole. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medik V.A., Yuriev V.K. Tečaj predavanja iz javnog zdravlja i zdravstvene zaštite: 1. dio. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Vodič u 2 sveska). - St. Petersburg, 1998. -528 str.
  5. Kucherenko V.Z., Agarkov N.M. i dr. Socijalna higijena i organizacija zdravstvene zaštite (Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glantz. Medicinsko-biološka statistika. Po s engleskog. - M., Praksa, 1998. - 459 str.

Regresijskom analizom ispituje se ovisnost određene veličine o drugoj veličini ili više drugih veličina. Regresijska analiza uglavnom se koristi u srednjoročnom predviđanju, kao iu dugoročnom predviđanju. Srednjoročna i dugoročna razdoblja omogućuju utvrđivanje promjena u poslovnom okruženju i uzimanje u obzir utjecaja tih promjena na promatrani pokazatelj.

Za provođenje regresijske analize potrebno je:

    dostupnost godišnjih podataka o proučavanim pokazateljima,

    dostupnost jednokratnih prognoza, tj. predviđanja koja se ne poboljšavaju novim podacima.

Regresijska analiza obično se provodi za objekte koji imaju složenu, multifaktorijalnu prirodu, kao što su obujam ulaganja, dobit, obujam prodaje itd.

Na normativna metoda predviđanja utvrđuju se načini i rokovi postizanja mogućih stanja fenomena koji se uzima kao cilj. Riječ je o predviđanju postizanja željenih stanja fenomena na temelju unaprijed zadanih normi, ideala, poticaja i ciljeva. Takva prognoza odgovara na pitanje: na koji način se može postići željeno? Normativna metoda se češće koristi za programske ili ciljane prognoze. Koristi se i kvantitativni izraz standarda i određena ljestvica mogućnosti funkcije vrednovanja.

U slučaju korištenja kvantitativnog izraza, na primjer, fizioloških i racionalnih normi za potrošnju određenih prehrambenih i neprehrambenih proizvoda koje su razvili stručnjaci za različite skupine stanovništva, moguće je odrediti razinu potrošnje tih dobara za godine koje prethode postizanju navedene norme. Takvi izračuni nazivaju se interpolacija. Interpolacija je način izračunavanja pokazatelja koji nedostaju u vremenskoj seriji neke pojave, na temelju utvrđenog odnosa. Uzimajući stvarnu vrijednost indikatora i vrijednost njegovih standarda kao ekstremne članove dinamičke serije, moguće je odrediti veličinu vrijednosti unutar ove serije. Stoga se interpolacija smatra normativnom metodom. Prethodno navedena formula (4), korištena u ekstrapolaciji, može se koristiti u interpolaciji, gdje y n više neće karakterizirati stvarne podatke, već standard indikatora.

Ako se u normativnoj metodi koristi ljestvica (polje, spektar) mogućnosti funkcije evaluacije, odnosno funkcije distribucije preferencija, označava se približno sljedeća gradacija: nepoželjno - manje poželjno - više poželjno - najpoželjnije - optimalno ( standard).

Normativna metoda predviđanja pomaže u izradi preporuka za povećanje razine objektivnosti, a time i učinkovitosti odluka.

Modeliranje, možda najteža metoda predviđanja. Matematičko modeliranje znači opis ekonomske pojave pomoću matematičkih formula, jednadžbi i nejednakosti. Matematički aparat trebao bi točno odražavati prediktivnu pozadinu, iako je dosta teško u potpunosti odraziti svu dubinu i složenost predviđenog objekta. Pojam "model" potječe od latinske riječi modelus, što znači "mjera". Stoga bi bilo ispravnije modeliranje smatrati ne metodom predviđanja, već metodom za proučavanje slične pojave na modelu.

U širem smislu, modeli se nazivaju zamjene za predmet proučavanja, koji su u takvoj sličnosti s njim da vam omogućuju stjecanje novih znanja o objektu. Model treba promatrati kao matematički opis objekta. U ovom slučaju, model se definira kao fenomen (objekt, instalacija) koji je u nekoj korespondenciji s predmetom koji se proučava i može ga zamijeniti u procesu istraživanja, dajući informacije o objektu.

Uz uže razumijevanje modela, on se smatra objektom predviđanja, njegovo proučavanje omogućuje dobivanje informacija o mogućim stanjima objekta u budućnosti i načinima postizanja tih stanja. U ovom slučaju, svrha prediktivnog modela je dobiti informacije ne o objektu općenito, već samo o njegovim budućim stanjima. Zatim, prilikom izgradnje modela, može biti nemoguće izravno provjeriti njegovu korespondenciju s objektom, budući da model predstavlja samo njegovo buduće stanje, a sam objekt može trenutno biti odsutan ili imati drugačije postojanje.

Modeli mogu biti materijalni i idealni.

U ekonomiji se koriste idealni modeli. Najsavršeniji idealni model za kvantitativni opis društveno-ekonomske (ekonomske) pojave je matematički model koji koristi brojeve, formule, jednadžbe, algoritme ili grafički prikaz. Uz pomoć ekonomskih modela odrediti:

    odnos između različitih ekonomskih pokazatelja;

    razne vrste ograničenja nametnutih pokazateljima;

    kriterije za optimizaciju procesa.

Svrsishodan opis objekta može se predstaviti u obliku njegove formalizirane sheme, koja pokazuje koji parametri i početne informacije moraju biti prikupljeni da bi se izračunale potrebne vrijednosti. Matematički model, za razliku od formalizirane sheme, sadrži specifične numeričke podatke koji karakteriziraju objekt.Razvoj matematičkog modela uvelike ovisi o ideji prognostičara o suštini procesa koji se modelira. Na temelju svojih ideja postavlja radnu hipotezu uz pomoć koje se stvara analitički zapis modela u obliku formula, jednadžbi i nejednakosti. Kao rezultat rješavanja sustava jednadžbi dobivaju se specifični parametri funkcije koji opisuju promjenu željenih varijabli tijekom vremena.

Redoslijed i slijed rada kao elementa organizacije prognoziranja utvrđuje se ovisno o korištenoj prognoznoj metodi. Obično se ovaj rad provodi u nekoliko faza.

Faza 1 - prediktivna retrospekcija, tj. utvrđivanje predmeta prognoze i pozadine prognoze. Rad u prvoj fazi izvodi se u sljedećem redoslijedu:

    formiranje opisa objekta u prošlosti koji uključuje predprognoznu analizu objekta, ocjenu njegovih parametara, njihov značaj i međusobne odnose,

    utvrđivanje i vrednovanje izvora informacija, postupak i organizacija rada s njima, prikupljanje i plasiranje retrospektivnih informacija;

    postavljanje ciljeva istraživanja.

Obavljajući poslove prediktivne retrospekcije, prognostičari proučavaju povijest razvoja objekta i pozadinu prognoze kako bi dobili njihov sustavni opis.

Faza 2 - prediktivna dijagnoza, tijekom koje se proučava sustavni opis objekta predviđanja i pozadine prognoze kako bi se identificirali trendovi u njihovom razvoju i odabrali modeli i metode predviđanja. Rad se izvodi u sljedećem redoslijedu:

    razvoj modela objekta prognoze, uključujući formalizirani opis objekta, provjeru stupnja primjerenosti modela objektu;

    izbor metoda predviđanja (glavnih i pomoćnih), izrada algoritma i programa rada.

3. faza - pokroviteljstvo, tj. proces opsežnog razvoja prognoze, uključujući: 1) izračun predviđenih parametara za zadano vodeće razdoblje; 2) sinteza pojedinih sastavnica prognoze.

4. faza - procjena prognoze, uključujući njezinu provjeru, tj. utvrđivanje stupnja pouzdanosti, točnosti i valjanosti.

U tijeku prospekcije i evaluacije, zadaci prognoze i njezina evaluacija rješavaju se na temelju prethodnih faza.

Navedeno faziranje je okvirno i ovisi o glavnoj metodi predviđanja.

Rezultati predviđanja sastavljaju se u obliku potvrde, izvješća ili drugog materijala i prezentiraju kupcu.

U prognoziranju se može naznačiti odstupanje prognoze od stvarnog stanja objekta, što se naziva pogreška prognoze, koja se izračunava po formuli:

;
;
. (9.3)

Izvori pogrešaka u predviđanju

Glavni izvori mogu biti:

1. Jednostavan prijenos (ekstrapolacija) podataka iz prošlosti u budućnost (npr. tvrtka nema druge mogućnosti predviđanja, osim povećanja prodaje od 10%).

2. Nemogućnost točnog određivanja vjerojatnosti događaja i njegovog utjecaja na predmet koji se proučava.

3. Nepredviđene poteškoće (remetilački događaji) koji utječu na provedbu plana, na primjer, iznenadna smjena voditelja odjela prodaje.

Općenito, točnost predviđanja raste s akumulacijom iskustva u predviđanju i razvojem njegovih metoda.

Regresijska analiza je temelj izrade većine ekonometrijskih modela, među koje treba ubrojiti i modele procjene troškova. Za izradu modela vrednovanja, ova se metoda može koristiti ako broj analoga (usporedivih objekata) i broj faktora troškova (elemenata usporedbe) međusobno koreliraju na sljedeći način: P> (5 -g-10) x do, oni. trebalo bi biti 5-10 puta više analoga od faktora troškova. Isti zahtjev za omjerom količine podataka i broja faktora vrijedi i za druge zadatke: uspostavljanje odnosa između troškovnih i potrošačkih parametara objekta; obrazloženje postupka izračuna korektivnih indeksa; pojašnjenje kretanja cijena; uspostavljanje odnosa između trošenja i promjena utjecajnih čimbenika; dobivanje ovisnosti za izračun troškovnih standarda itd. Ispunjenje ovog zahtjeva potrebno je kako bi se smanjila vjerojatnost rada s uzorkom podataka koji ne zadovoljava zahtjev normalne distribucije slučajnih varijabli.

Regresijski odnos odražava samo prosječni trend rezultirajuće varijable, kao što je trošak, od promjena u jednoj ili više faktorskih varijabli, kao što su lokacija, broj soba, površina, kat itd. To je razlika između regresijskog odnosa i funkcionalnog, u kojem je vrijednost rezultirajuće varijable strogo definirana za zadanu vrijednost faktorskih varijabli.

Prisutnost regresijskog odnosa / između rezultirajućeg na i faktorske varijable x str ..., x k(faktori) ukazuje da je ovaj odnos određen ne samo utjecajem odabranih faktorskih varijabli, već i utjecajem varijabli od kojih su neke općenito nepoznate, a druge nije moguće procijeniti i uzeti u obzir:

Utjecaj neobračunatih varijabli označen je drugim članom ove jednadžbe ?, što se naziva pogreška aproksimacije.

Postoje sljedeće vrste regresijskih ovisnosti:

  • ? uparena regresija - odnos dviju varijabli (rezultantne i faktorijelne);
  • ? višestruka regresija - ovisnost jedne rezultirajuće varijable i dvije ili više faktorskih varijabli uključenih u studiju.

Glavni zadatak regresijske analize je kvantificirati bliskost odnosa između varijabli (u parnoj regresiji) i više varijabli (u višestrukoj regresiji). Čvrstoća odnosa kvantificirana je koeficijentom korelacije.

Korištenje regresijske analize omogućuje vam da utvrdite obrazac utjecaja glavnih čimbenika (hedonističkih karakteristika) na pokazatelj koji se proučava, kako u njihovoj ukupnosti, tako i svaki od njih pojedinačno. Uz pomoć regresijske analize, kao metode matematičke statistike, moguće je, prvo, pronaći i opisati oblik analitičke ovisnosti rezultirajuće (željene) varijable o faktorskim i, drugo, procijeniti blizinu ovu ovisnost.

Rješavanjem prvog problema dobiva se matematički regresijski model uz pomoć kojeg se zatim izračunava željeni pokazatelj za zadane vrijednosti faktora. Rješenjem drugog problema moguće je utvrditi pouzdanost izračunatog rezultata.

Stoga se regresijska analiza može definirati kao skup formalnih (matematičkih) postupaka dizajniranih za mjerenje čvrstoće, smjera i analitičkog izraza oblika odnosa između rezultirajućih i faktorskih varijabli, tj. izlaz takve analize trebao bi biti strukturno i kvantitativno definiran statistički model oblika:

gdje y - prosječna vrijednost rezultirajuće varijable (željeni pokazatelj, na primjer, trošak, najamnina, stopa kapitalizacije) preko P njezina zapažanja; x je vrijednost varijable faktora (/-ti faktor troška); do - broj faktorskih varijabli.

Funkcija f(x l ,...,x lc), koja opisuje ovisnost rezultirajuće varijable o faktorijelima naziva se regresijska jednadžba (funkcija). Pojam "regresija" (regresija (lat.) - povlačenje, povratak na nešto) povezan je sa specifičnostima jednog od specifičnih zadataka koji se rješavaju u fazi formiranja metode i trenutno ne odražava cjelokupnu bit metoda, ali se i dalje koristi.

Regresijska analiza općenito uključuje sljedeće korake:

  • ? formiranje uzorka homogenih objekata i prikupljanje početnih podataka o tim objektima;
  • ? odabir glavnih čimbenika koji utječu na rezultirajuću varijablu;
  • ? provjera uzorka za normalnost pomoću x 2 ili binomni kriterij;
  • ? prihvaćanje hipoteze o obliku komunikacije;
  • ? matematička obrada podataka;
  • ? dobivanje regresijskog modela;
  • ? procjena njegovih statističkih pokazatelja;
  • ? verifikacijski izračuni korištenjem regresijskog modela;
  • ? analiza rezultata.

Navedeni slijed operacija odvija se u proučavanju odnosa para između faktorske varijable i jedne rezultirajuće varijable, kao i višestrukog odnosa između rezultirajuće varijable i nekoliko faktorskih varijabli.

Korištenje regresijske analize postavlja određene zahtjeve na početne informacije:

  • ? statistički uzorak objekata treba biti homogen u funkcionalnom i konstruktivno-tehnološkom smislu;
  • ? prilično brojni;
  • ? pokazatelj troška koji se proučava - rezultirajuća varijabla (cijena, trošak, troškovi) - mora se svesti na iste uvjete za njegov izračun za sve objekte u uzorku;
  • ? faktorske varijable moraju se mjeriti dovoljno precizno;
  • ? faktorske varijable moraju biti neovisne ili minimalno ovisne.

Zahtjevi za homogenošću i cjelovitošću uzorka su u sukobu: što se strože provodi selekcija objekata prema njihovoj homogenosti, dobiva se manji uzorak, i obrnuto, da bi se uzorak povećao, potrebno je uključiti objekte. koji nisu baš slični jedni drugima.

Nakon prikupljanja podataka za skupinu homogenih objekata, oni se analiziraju kako bi se utvrdio oblik odnosa između rezultirajućih i faktorskih varijabli u obliku teorijske regresijske linije. Proces pronalaženja teorijske regresijske linije sastoji se u razumnom izboru aproksimativne krivulje i izračunavanju koeficijenata njezine jednadžbe. Regresijska linija je glatka krivulja (u određenom slučaju, ravna linija) koja opisuje, koristeći matematičku funkciju, opći trend ovisnosti koja se proučava i izglađuje nepravilne, nasumične odstupanja od utjecaja sporednih čimbenika.

Za prikaz uparenih regresijskih ovisnosti u zadacima procjene najčešće se koriste sljedeće funkcije: linearna - y - a 0 + ars + s snaga - y - aj&i + c demonstrativno - y - linearni eksponencijalni - y - a 0 + ar * + s. ovdje - e pogreška aproksimacije zbog djelovanja neuračunatih slučajnih faktora.

U ovim funkcijama, y ​​je rezultirajuća varijabla; x - faktorska varijabla (faktor); a 0 , a r a 2 - parametri regresijskog modela, regresijski koeficijenti.

Linearni eksponencijalni model pripada klasi tzv. hibridnih modela oblika:

gdje

gdje je x (i = 1, /) - vrijednosti faktora;

b t (i = 0, /) su koeficijenti regresijske jednadžbe.

U ovoj jednadžbi komponente A, B i Z odgovaraju trošku pojedinačnih komponenti imovine koja se procjenjuje, na primjer, trošku zemljišne čestice i trošku poboljšanja, a parametar Q je uobičajeno. Osmišljen je za prilagodbu vrijednosti svih komponenti imovine koja se procjenjuje za zajednički faktor utjecaja, kao što je lokacija.

Vrijednosti faktora koji su u stupnju odgovarajućih koeficijenata su binarne varijable (0 ili 1). Čimbenici koji su u osnovi stupnja su diskretne ili kontinuirane varijable.

Faktori povezani s koeficijentima predznaka množenja također su kontinuirani ili diskretni.

Specifikacija se u pravilu provodi empirijskim pristupom i uključuje dvije faze:

  • ? ucrtavanje točaka regresijskog polja na graf;
  • ? grafička (vizualna) analiza vrste moguće aproksimirajuće krivulje.

Tip regresijske krivulje ne može se uvijek odmah odabrati. Da bi se to odredilo, prvo se na graf ucrtaju točke regresijskog polja prema početnim podacima. Zatim se crta vizualno povlači duž položaja točaka, pokušavajući otkriti kvalitativni obrazac odnosa: ravnomjeran rast ili ravnomjerno smanjenje, rast (smanjenje) s povećanjem (smanjenjem) stope dinamike, glatki pristup određenu razinu.

Ovaj empirijski pristup nadopunjen je logičkom analizom, polazeći od već poznatih ideja o ekonomskoj i fizičkoj prirodi proučavanih čimbenika i njihovom međusobnom utjecaju.

Na primjer, poznato je da su ovisnosti rezultirajućih varijabli - ekonomskih pokazatelja (cijene, najam) o nizu faktorskih varijabli - čimbenika oblikovanja cijena (udaljenost od središta naselja, površina i sl.) nelinearne. , a mogu se opisati prilično strogo potencijom, eksponencijalnom ili kvadratnom funkcijom . Ali s malim rasponima faktora, prihvatljivi rezultati mogu se dobiti i korištenjem linearne funkcije.

Ako je još uvijek nemoguće odmah napraviti siguran izbor bilo koje funkcije, tada se odabiru dvije ili tri funkcije, izračunavaju se njihovi parametri, a zatim se pomoću odgovarajućih kriterija za nepropusnost veze konačno odabire funkcija.

U teoriji se regresijski proces pronalaženja oblika krivulje naziva specifikacija model i njegovi koeficijenti - kalibriranje modeli.

Ako se ustanovi da rezultirajuća varijabla y ovisi o nekoliko faktorskih varijabli (faktora) x ( , x 2 , ..., x k, tada pribjegavaju izgradnji višestrukog regresijskog modela. Obično se koriste tri oblika višestruke komunikacije: linearna - y - a 0 + a x x x + a^x 2 + ... + a k x k, demonstrativno - y - a 0 a*i a x t- a x b, snaga - y - a 0 x x ix 2 a 2. .x^ ili njihove kombinacije.

Eksponencijalne i eksponencijalne funkcije su univerzalnije jer aproksimiraju nelinearne odnose, a to je većina ovisnosti proučavanih u procjeni. Osim toga, mogu se koristiti u vrednovanju objekata iu metodi statističkog modeliranja za masovno vrednovanje, te u metodi izravne usporedbe u pojedinačnom vrednovanju pri utvrđivanju faktora korekcije.

U fazi kalibracije, parametri regresijskog modela izračunavaju se metodom najmanjih kvadrata, čija je bit da zbroj kvadratnih odstupanja izračunatih vrijednosti rezultirajuće varijable na., tj. izračunato prema odabranoj relacijskoj jednadžbi, od stvarnih vrijednosti treba biti minimalno:

Vrijednosti j) (. i g. poznato, dakle Q je funkcija samo koeficijenata jednadžbe. Da nađem minimum S uzeti parcijalne derivacije Q koeficijentima jednadžbe i izjednačiti ih s nulom:

Kao rezultat dobivamo sustav normalnih jednadžbi, čiji je broj jednak broju utvrđenih koeficijenata tražene regresijske jednadžbe.

Pretpostavimo da trebamo pronaći koeficijente linearne jednadžbe y - a 0 + ars. Zbroj kvadrata odstupanja je:

/=1

Razlikovati funkciju Q nepoznatim koeficijentima a 0 i izjednačite parcijalne derivacije s nulom:

Nakon transformacija dobivamo:

gdje P - broj izvornih stvarnih vrijednosti na njih (broj analoga).

Gornji postupak za izračunavanje koeficijenata regresijske jednadžbe također je primjenjiv za nelinearne ovisnosti, ako se te ovisnosti mogu linearizirati, tj. dovesti do linearnog oblika korištenjem promjene varijabli. Power i eksponencijalne funkcije nakon logaritmiranja i odgovarajuće promjene varijabli dobivaju linearni oblik. Na primjer, funkcija snage nakon logaritmiranja poprima oblik: In y \u003d 1n 0 +a x 1f. Nakon promjene varijabli Y- U y, L 0 - U i br. X- U x dobivamo linearnu funkciju

Y=A0 + cijX,čiji se koeficijenti nalaze kako je gore opisano.

Metoda najmanjih kvadrata također se koristi za izračun koeficijenata višestrukog regresijskog modela. Dakle, sustav normalnih jednadžbi za izračunavanje linearne funkcije s dvije varijable Xj i x 2 nakon niza transformacija, izgleda ovako:

Obično se ovaj sustav jednadžbi rješava pomoću metoda linearne algebre. Višestruka eksponencijalna funkcija dovodi se u linearni oblik logaritmiranjem i mijenjanjem varijabli na isti način kao uparena eksponencijalna funkcija.

Pri korištenju hibridnih modela višestruki regresijski koeficijenti se nalaze numeričkim postupcima metode uzastopnih aproksimacija.

Za konačan izbor između nekoliko regresijskih jednadžbi potrebno je svaku jednadžbu ispitati na čvrstoću odnosa, što se mjeri koeficijentom korelacije, varijance i koeficijenta varijacije. Za ocjenjivanje možete koristiti i kriterije Studenta i Fishera. Što veća nepropusnost veze otkriva krivulju, to je poželjnija, ako su sve ostale stvari jednake.

Ako se rješava problem takve klase, kada je potrebno utvrditi ovisnost troškovnog pokazatelja o troškovnim čimbenicima, tada je želja da se u obzir uzme što više utjecajnih čimbenika i na taj način izgradi točniji višestruki regresijski model. Razumljivo. Međutim, dva objektivna ograničenja koče proširenje broja čimbenika. Prvo, izrada višestrukog regresijskog modela zahtijeva mnogo veći uzorak objekata nego izgradnja uparenog modela. Općenito je prihvaćeno da broj objekata u uzorku treba biti veći od broja Pčimbenika, najmanje 5-10 puta. Slijedi da je za izgradnju modela s tri utjecajna faktora potrebno prikupiti uzorak od približno 20 objekata s različitim skupovima vrijednosti faktora. Drugo, čimbenici odabrani za model u svom utjecaju na pokazatelj vrijednosti trebaju biti dovoljno neovisni jedni o drugima. To nije lako osigurati, budući da uzorak obično kombinira objekte koji pripadaju istoj obitelji, u kojoj postoji pravilna promjena mnogih čimbenika od objekta do objekta.

Kvaliteta regresijski modeli, u pravilu, provjerite koristeći sljedeće statistike.

Standardna devijacija pogreške regresijske jednadžbe (pogreška procjene):

gdje P - veličina uzorka (broj analoga);

do - broj čimbenika (faktori troškova);

Pogreška neobjašnjena regresijskom jednadžbom (Sl. 3.2);

g. - stvarna vrijednost rezultirajuće varijable (na primjer, trošak); y t - izračunata vrijednost rezultirajuće varijable.

Ovaj se pokazatelj također naziva standardna pogreška procjene (RMS pogreška). Na slici, točkice označavaju određene vrijednosti uzorka, simbol označava liniju srednjih vrijednosti uzorka, nagnuta iscrtkana linija je regresijska linija.


Riža. 3.2.

Standardna devijacija pogreške procjene mjeri koliko stvarne vrijednosti y odstupaju od odgovarajućih izračunatih vrijednosti. na( , dobiven korištenjem regresijskog modela. Ako uzorak na kojem je model izgrađen podliježe zakonu normalne distribucije, tada se može tvrditi da 68% stvarnih vrijednosti na su u rasponu na ± &e od regresijske linije, a 95% - u rasponu na ± 2d e. Ovaj pokazatelj je prikladan jer jedinice mjere sg? uskladiti mjerne jedinice na,. U tom smislu, može se koristiti za označavanje točnosti rezultata dobivenog u procesu ocjenjivanja. Na primjer, u potvrdi o vrijednosti možete naznačiti da je vrijednost tržišna vrijednost dobivena korištenjem regresijskog modela V s vjerojatnošću od 95% je u rasponu od (V-2d,.) prije (na + 2ds).

Koeficijent varijacije rezultirajuće varijable:

gdje y - srednja vrijednost rezultirajuće varijable (slika 3.2).

U regresijskoj analizi, koeficijent varijacije var je standardna devijacija rezultata, izražena kao postotak srednje vrijednosti varijable rezultata. Koeficijent varijacije može poslužiti kao kriterij za prediktivne kvalitete rezultirajućeg regresijskog modela: što je manja vrijednost var, veće su prediktivne kvalitete modela. Upotreba koeficijenta varijacije poželjnija je od eksponenta &e, budući da je to relativni eksponent. U praktičnoj uporabi ovog pokazatelja može se preporučiti da se ne koristi model čiji koeficijent varijacije prelazi 33%, jer se u tom slučaju ne može reći da ti uzorci podliježu normalnom zakonu raspodjele.

Koeficijent determinacije (koeficijent višestruke korelacije na kvadrat):

Ovaj se pokazatelj koristi za analizu ukupne kvalitete rezultirajućeg regresijskog modela. Pokazuje koji je postotak varijacije u rezultirajućoj varijabli posljedica utjecaja svih faktorskih varijabli uključenih u model. Koeficijent determinacije uvijek je u rasponu od nula do jedan. Što je vrijednost koeficijenta determinacije bliža jedinici, to bolje model opisuje izvornu seriju podataka. Koeficijent determinacije može se prikazati na drugi način:

Ovdje je pogreška objašnjena regresijskim modelom,

a - pogreška neobjašnjena

regresijski model. S ekonomskog gledišta, ovaj kriterij omogućuje prosuđivanje koliki je postotak varijacije cijene objašnjen regresijskom jednadžbom.

Točna granica prihvatljivosti indikatora R2 nemoguće je odrediti za sve slučajeve. Moraju se uzeti u obzir i veličina uzorka i smisleno tumačenje jednadžbe. U pravilu, kada proučavate podatke o objektima iste vrste, dobivene približno u isto vrijeme, vrijednost R2 ne prelazi razinu od 0,6-0,7. Ako su sve pogreške predviđanja jednake nuli, tj. kada je odnos između rezultirajućih i faktorskih varijabli funkcionalan, tada R2 =1.

Prilagođeni koeficijent determinacije:

Potreba za uvođenjem prilagođenog koeficijenta determinacije objašnjava se činjenicom da s povećanjem broja faktora do uobičajeni koeficijent determinacije gotovo uvijek raste, ali se broj stupnjeva slobode smanjuje (n - k- jedan). Unesena prilagodba uvijek smanjuje vrijednost R2, jer (str - 1) > (p- do - jedan). Kao rezultat toga, vrijednost R 2 CKOf) može čak postati negativna. To znači da vrijednost R2 bio blizu nule prije prilagodbe, a udio varijance objašnjen je regresijskom jednadžbom varijable na jako malo.

Od dvije varijante regresijskih modela koje se razlikuju u vrijednosti prilagođenog koeficijenta determinacije, ali imaju podjednako dobre ostale kriterije kvalitete, poželjna je varijanta s velikom vrijednošću prilagođenog koeficijenta determinacije. Koeficijent determinacije se ne prilagođava ako (n - k): k> 20.

Fisherov omjer:

Ovim kriterijem procjenjuje se značajnost koeficijenta determinacije. Preostali zbroj kvadrata je mjera pogreške predviđanja korištenjem regresije poznatih vrijednosti troškova na.. Njegova usporedba s regresijskim zbrojem kvadrata pokazuje koliko puta regresijska ovisnost predviđa rezultat bolje od srednje vrijednosti na. Postoji tablica kritičnih vrijednosti F R Fisherov koeficijent ovisno o broju stupnjeva slobode brojnika - za, nazivnik v 2 = p - k- 1 i razina značajnosti a. Ako je izračunata vrijednost Fisherovog kriterija F R veća od tablične vrijednosti, tada hipoteza o beznačajnosti koeficijenta determinacije, tj. o diskrepanciji između odnosa ugrađenih u regresijsku jednadžbu i stvarno postojećih, s vjerojatnošću p = 1 - a se odbacuje.

Prosječna pogreška aproksimacije(prosječno postotno odstupanje) izračunava se kao prosječna relativna razlika, izražena u postocima, između stvarne i izračunate vrijednosti rezultirajuće varijable:

Kako manje vrijednosti dati pokazatelj, bolja je prediktivna kvaliteta modela. Kada vrijednost ovog pokazatelja nije veća od 7%, oni ukazuju na visoku točnost modela. Ako a 8 > 15%, ukazuju na nezadovoljavajuću točnost modela.

Standardna pogreška regresijskog koeficijenta:

gdje je (/I) -1 .- dijagonalni element matrice (X G X) ~ 1 do - broj faktora;

X- matrica vrijednosti faktorskih varijabli:

X7- transponirana matrica vrijednosti faktorskih varijabli;

(JL) _| je matrica inverzna matrici.

Što su ovi rezultati za svaki regresijski koeficijent manji, to je pouzdanija procjena odgovarajućeg regresijskog koeficijenta.

Studentov test (t-statistika):

Ovaj kriterij vam omogućuje da izmjerite stupanj pouzdanosti (značajnosti) odnosa zbog zadanog regresijskog koeficijenta. Ako je izračunata vrijednost t. veća od tablične vrijednosti

t av , gdje v - p - k - 1 broj stupnjeva slobode, tada se hipoteza da je ovaj koeficijent statistički beznačajan odbacuje s vjerojatnošću od (100 - a)%. Postoje posebne tablice /-distribucije koje omogućuju određivanje kritične vrijednosti kriterija zadanom razinom značajnosti a i brojem stupnjeva slobode v. Najčešće korištena vrijednost a je 5%.

Multikolinearnost, tj. učinak međusobnih odnosa između faktorskih varijabli dovodi do potrebe da se zadovoljimo ograničenim brojem njih. Ako se to ne uzme u obzir, možete dobiti nelogičan regresijski model. Kako bi se izbjegao negativan učinak multikolinearnosti, prije izgradnje modela višestruke regresije izračunavaju se koeficijenti parne korelacije rxjxj između odabranih varijabli X. i x

Ovdje XjX; - srednja vrijednost umnoška dviju faktorskih varijabli;

XjXj- umnožak prosječnih vrijednosti dviju faktorskih varijabli;

Procjena varijance faktorske varijable x..

Smatra se da su dvije varijable regresivno povezane (tj. kolinearne) ako je njihov parni koeficijent korelacije strogo veći od 0,8 u apsolutnoj vrijednosti. U ovom slučaju, bilo koju od ovih varijabli treba isključiti iz razmatranja.

Kako bi se proširile mogućnosti ekonomske analize dobivenih regresijskih modela, koriste se prosjeci koeficijenti elastičnosti, određuje se formulom:

gdje Xj- srednja vrijednost odgovarajuće faktorske varijable;

y - srednja vrijednost rezultirajuće varijable; a ja - koeficijent regresije za odgovarajuću faktorsku varijablu.

Koeficijent elastičnosti pokazuje za koliko posto će se prosječno promijeniti vrijednost rezultirajuće varijable kada se faktorska varijabla promijeni za 1%, tj. kako rezultirajuća varijabla reagira na promjenu faktorske varijable. Na primjer, kako se mijenja cijena kvadrata. m površine stana na udaljenosti od centra grada.

Korisna sa stajališta analize značajnosti određenog koeficijenta regresije je procjena privatni koeficijent determinacije:

Ovdje je procjena varijance dobivenog

varijabla. Ovaj koeficijent pokazuje koliko je postotaka varijacija rezultirajuće varijable objašnjena varijacijom /-te faktorske varijable uključene u regresijsku jednadžbu.

  • Pod hedonističkim karakteristikama podrazumijevaju se karakteristike predmeta koje odražavaju njegova korisna (vrijedna) svojstva sa stajališta kupaca i prodavača.