Jednostavna regresiona analiza. Regresiona analiza je statistička metoda za proučavanje zavisnosti slučajne varijable od varijabli. Analiza rezultata analize

Tokom studija studenti se vrlo često susreću sa raznim jednačinama. Jedna od njih - jednadžba regresije - razmatra se u ovom članku. Ova vrsta jednadžbe se koristi posebno za opisivanje karakteristika odnosa između matematičkih parametara. Ovaj tip jednakosti se koriste u statistici i ekonometriji.

Definicija regresije

U matematici se regresija podrazumijeva kao određena veličina koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Jednačina regresije pokazuje, kao funkciju određene karakteristike, prosječnu vrijednost druge karakteristike. Funkcija regresije ima oblik jednostavne jednadžbe y \u003d x, u kojoj y djeluje kao zavisna varijabla, a x je nezavisna (faktor karakteristika). U stvari, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli

Generalno, razlikuju se dva suprotna tipa odnosa: korelacija i regresija.

Prvi karakteriše jednakost uslovnih varijabli. AT ovaj slučaj ne zna se sa sigurnošću koja varijabla zavisi od druge.

Ako ne postoji jednakost između varijabli i uvjeti govore koja varijabla je eksplanatorna, a koja zavisna, onda možemo govoriti o prisutnosti veze drugog tipa. Da bi se konstruisala jednačina linearne regresije, biće potrebno saznati kakav se tip odnosa posmatra.

Vrste regresije

Do danas postoji 7 različitih tipova regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednačina linearne regresije se koristi u statistici za jasno objašnjenje parametara jednačine. Izgleda kao y = c + m * x + E. Hiperbolična jednadžba ima oblik regularne hiperbole y = c + m / x + E. Logaritamski linearna jednadžba izražava odnos pomoću logaritamske funkcije: In y \u003d In c + m * In x + In E.

Višestruki i nelinearni

još dva složene vrste regresije su višestruke i nelinearne. Jednačina višestruke regresije izražava se funkcijom y = f (x 1, x 2 ... x c) + E. U ovoj situaciji, y je zavisna varijabla, a x je varijabla koja objašnjava. Varijabla E je stohastička i uključuje utjecaj drugih faktora u jednačini. Jednačina nelinearne regresije je malo nedosljedna. S jedne strane, u odnosu na indikatore koji se uzimaju u obzir, on nije linearan, as druge strane, u ulozi ocjenjivanja indikatora, on je linearan.

Inverzna i parna regresija

Inverzna je vrsta funkcije koju treba pretvoriti u linearni oblik. U najtradicionalnijim aplikativnim programima ima oblik funkcije y = 1 / c + m * x + E. Jednačina parne regresije pokazuje odnos između podataka kao funkcije y = f(x) + E. Baš kao i druge jednadžbe, y ovisi o x i E je stohastički parametar.

Koncept korelacije

Ovo je indikator koji pokazuje postojanje veze između dva fenomena ili procesa. Jačina veze se izražava kao koeficijent korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator ukazuje na prisustvo povratne informacije, pozitivno - o pravoj liniji. Ako koeficijent ima vrijednost jednaku 0, onda nema veze. Što je vrijednost bliža 1, to je odnos između parametara jači, što je bliži 0, to je slabiji.

Metode

Korelacione parametarske metode mogu proceniti čvrstoću odnosa. Koriste se na osnovu procjena raspodjele za proučavanje parametara koji su u skladu sa zakonom normalne distribucije.

Parametri jednačine linearne regresije su neophodni za identifikaciju tipa zavisnosti, funkciju jednačine regresije i procenu indikatora izabrane formule odnosa. Korelaciono polje se koristi kao metoda za identifikaciju odnosa. Da biste to učinili, svi postojeći podaci moraju biti predstavljeni grafički. U pravougaonom dvodimenzionalnom koordinatnom sistemu svi poznati podaci moraju biti ucrtani. Tako se formira korelaciono polje. Vrijednost opisnog faktora je označena duž apscise, dok su vrijednosti zavisnog faktora označene duž ordinate. Ako postoji funkcionalni odnos između parametara, oni se poređaju u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunom odsustvu veze. Ako je između 30% i 70%, onda to ukazuje na prisustvo karika srednje čvrstoće. 100% indikator je dokaz funkcionalne veze.

Jednačina nelinearne regresije, baš kao i linearna, mora biti dopunjena indeksom korelacije (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o tesnosti odnosa prikazanog skupa indikatora sa osobinom koja se proučava. Takođe se može govoriti o prirodi uticaja parametara na rezultat. Jednačina višestruke regresije se procjenjuje pomoću ovog indikatora.

Da bi se izračunao indeks višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način procjene faktora regresije. Njegova suština je u minimiziranju sume kvadrata odstupanja dobijenih zbog zavisnosti faktora od funkcije.

Uparena jednačina linearne regresije može se procijeniti korištenjem takve metode. Ova vrsta jednadžbi se koristi u slučaju detekcije između indikatora uparene linearne veze.

Opcije jednadžbe

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena jednadžba linearne regresije sadrži dva parametra: c i m. Parametar t pokazuje prosječnu promjenu konačnog indikatora funkcije y, podložna smanjenju (povećanju) varijable x za jedan konvencionalna jedinica. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, onda faktor c nema ekonomskog smisla. Jedini uticaj na funkciju je znak ispred faktora c. Ako postoji minus, onda možemo reći o sporoj promjeni rezultata u odnosu na faktor. Ako postoji plus, onda to ukazuje na ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost jednačine regresije može se izraziti u obliku jednačine. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje takvi uvjeti zadatka u kojima su sve informacije grupirane prema atributu x, ali su istovremeno za određenu grupu naznačene odgovarajuće prosječne vrijednosti zavisnog indikatora. U ovom slučaju, prosječne vrijednosti karakteriziraju kako indikator ovisi o x. Dakle, grupisane informacije pomažu u pronalaženju regresijske jednačine. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosjeci su često podložni vanjskim fluktuacijama. Ove fluktuacije nisu odraz obrazaca odnosa, oni samo maskiraju njegovu „buku“. Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem veličine određene populacije sa odgovarajućim prosjekom, možete dobiti zbir y unutar grupe. Zatim morate izbaciti sve primljene iznose i pronaći konačni indikator y. Malo je teže izvršiti proračune sa indikatorom zbira xy. U slučaju da su intervali mali, možemo uslovno uzeti indikator x za sve jedinice (unutar grupe) isti. Pomnožite ga sa zbirom y da biste pronašli zbir proizvoda x i y. Nadalje, sve sume se sabiraju i ispada ukupan iznos hu.

Regresija višestrukih parova jednačina: Procjena važnosti odnosa

Kao što je ranije rečeno, višestruka regresija ima funkciju oblika y = f (x 1, x 2, ..., x m) + E. Najčešće se takva jednačina koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice, proučavanje uzroka i vrste funkcije troškova proizvodnje. Također se aktivno koristi u širokom spektru makroekonomskih studija i proračuna, ali na nivou mikroekonomije takva se jednadžba koristi nešto rjeđe.

Glavni zadatak višestruke regresije je da se izgradi model podataka koji sadrži ogromnu količinu informacija kako bi se dalje utvrdilo kakav uticaj svaki od faktora pojedinačno iu svojoj ukupnosti ima na indikator koji se modelira i njegove koeficijente. Jednačina regresije može poprimiti različite vrijednosti. U ovom slučaju, dvije vrste funkcija se obično koriste za procjenu odnosa: linearne i nelinearne.

Linearna funkcija je prikazana u obliku takvog odnosa: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. U ovom slučaju, a2, a m , smatraju se koeficijentima "čiste" regresije. Oni su neophodni da bi se okarakterisala prosečna promena parametra y sa promenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uslov stabilne vrednosti ostalih indikatora.

Nelinearne jednačine imaju, na primjer, oblik funkcija snage y=ax 1 b1 x 2 b2 ...x m bm . U ovom slučaju, indikatori b 1, b 2 ..... b m - nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg indikatora x za 1% i sa stabilnim indikatorom drugih faktora.

Koje faktore treba uzeti u obzir pri izgradnji višestruke regresije

Da bi se pravilno konstruisala višestruka regresija, potrebno je otkriti na koje faktore treba obratiti posebnu pažnju.

Neophodno je imati određeno razumijevanje prirode odnosa između ekonomskih faktora i modeliranog. Faktori koji se uključuju moraju ispunjavati sljedeće kriterije:

  • Mora biti mjerljiva. Da bi se koristio faktor koji opisuje kvalitetu nekog objekta, u svakom slučaju treba mu dati kvantitativni oblik.
  • Ne bi trebalo postojati međukorelacija faktora ili funkcionalna veza. Takvi postupci najčešće dovode do nepovratnih posljedica – sistema obične jednačine postaje neuslovljen, a to povlači njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog indikatora korelacije, ne postoji način da se sazna izolovani uticaj faktora na krajnji rezultat indikatora, stoga koeficijenti postaju neinterpretljivi.

Construction Methods

Postoji ogroman broj metoda i načina da se objasni kako možete odabrati faktore za jednadžbu. Međutim, sve ove metode se zasnivaju na odabiru koeficijenata pomoću indeksa korelacije. Među njima su:

  • Metoda isključenja.
  • Uključi metod.
  • Postepena regresiona analiza.

Prva metoda uključuje prosijavanje svih koeficijenata iz agregatnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno primijenjeni na jednačinu. Svaka od ovih metoda ima pravo na postojanje. Oni imaju svoje prednosti i nedostatke, ali mogu na svoj način riješiti problem skrininga nepotrebnih indikatora. U pravilu, rezultati dobiveni svakom pojedinačnom metodom su prilično bliski.

Metode multivarijantne analize

Takve metode za određivanje faktora zasnivaju se na razmatranju pojedinačnih kombinacija međusobno povezanih karakteristika. To uključuje diskriminantnu analizu, prepoznavanje obrazaca, analizu glavnih komponenti i klaster analizu. Osim toga, postoji i faktorska analiza, međutim, ona se pojavila kao rezultat razvoja komponentne metode. Svi oni se primenjuju u određenim okolnostima, pod određenim uslovima i faktorima.

Šta je regresija?

Razmotrimo dvije kontinuirane varijable x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Postavimo tačke na 2D dijagram raspršenja i kažemo da imamo linearni odnos ako se podaci aproksimiraju ravnom linijom.

Ako to pretpostavimo y zavisi od x, i promjene u y uzrokovana promjenama u x, možemo definirati liniju regresije (regresija y na x), koji najbolje opisuje pravolinijski odnos između ove dvije varijable.

Statistička upotreba riječi "regresija" dolazi od fenomena poznatog kao regresija na srednju vrijednost, koji se pripisuje Sir Francisu Galtonu (1889).

Pokazao je da, iako visoki očevi obično imaju visoke sinove, prosječna visina sinova je niža od visine njihovih visokih očeva. Prosječna visina sinova je "nazad" i "vratila" na prosječnu visinu svih očeva u populaciji. Tako, u prosjeku, visoki očevi imaju niže (ali još uvijek visoke) sinove, a niski očevi više (ali još uvijek prilično niske) sinove.

regresijska linija

Matematička jednadžba koja procjenjuje jednostavnu (u paru) liniju linearne regresije:

x naziva nezavisna varijabla ili prediktor.

Y je zavisna varijabla ili varijabla odgovora. Ovo je vrijednost koju očekujemo y(u prosjeku) ako znamo vrijednost x, tj. je predviđena vrijednost y»

  • a- slobodni član (prelazak) linije evaluacije; ovu vrijednost Y, kada x=0(Sl.1).
  • b- nagib ili nagib procijenjene linije; to je iznos za koji Y povećava se u prosjeku ako povećamo x za jednu jedinicu.
  • a i b nazivaju se koeficijenti regresije procijenjene linije, iako se ovaj izraz često koristi samo za b.

Parna linearna regresija se može proširiti da uključi više od jedne nezavisne varijable; u ovom slučaju je poznat kao višestruka regresija.

Fig.1. Linija linearne regresije koja pokazuje sjecište a i nagiba b (iznos povećanja Y kada se x poveća za jednu jedinicu)

Metoda najmanjeg kvadrata

Vršimo regresijsku analizu koristeći uzorak opservacija gdje a i b- procjene uzorka pravih (općih) parametara, α i β , koji određuju liniju linearne regresije u populaciji (opšta populacija).

Većina jednostavna metoda određivanje koeficijenata a i b je metoda najmanjeg kvadrata(MNK).

Poklapanje se procjenjuje uzimanjem u obzir reziduala (vertikalna udaljenost svake tačke od linije, npr. ostatak = vidljivo y- predviđeno y, Rice. 2).

Linija koja najbolje odgovara odabrana je tako da zbir kvadrata reziduala bude minimalan.

Rice. 2. Linija linearne regresije sa prikazanim ostacima (vertikalne isprekidane linije) za svaku tačku.

Pretpostavke linearne regresije

Dakle, za svaku posmatranu vrijednost rezidual je jednak razlici i odgovarajućoj predviđenoj.Svaki ostatak može biti pozitivan ili negativan.

Možete koristiti ostatke da testirate sljedeće pretpostavke iza linearne regresije:

  • Ostaci su normalno raspoređeni sa nultom srednjom vrijednosti;

Ako su pretpostavke linearnosti, normalnosti i/ili konstantne varijanse upitne, možemo transformirati ili izračunati nova linija regresija za koju su ove pretpostavke zadovoljene (na primjer, upotreba logaritamska transformacija ili drugi).

Abnormalne vrijednosti (odstupanja) i tačke uticaja

"Utjecajno" zapažanje, ako se izostavi, mijenja jednu ili više procjena parametara modela (tj. nagib ili presek).

Ekstra (zapažanje koje je u suprotnosti sa većinom vrijednosti u skupu podataka) može biti "utjecajno" zapažanje i može se dobro uočiti vizualno kada se gleda 2D dijagram raspršenja ili dijagram ostatka.

I za autliere i za "uticajna" zapažanja (poene) koriste se modeli, kako sa njihovim uključivanjem tako i bez njih, obratiti pažnju na promjenu procjene (koeficijenti regresije).

Kada radite analizu, nemojte automatski odbacivati ​​vanjske vrijednosti ili točke utjecaja, jer jednostavno ignoriranje može utjecati na rezultate. Uvijek proučavajte uzroke ovih izuzetaka i analizirajte ih.

Hipoteza linearne regresije

Prilikom konstruiranja linearne regresije, provjerava se nulta hipoteza da je opći nagib linije regresije β nula.

Ako je nagib linije nula, ne postoji linearni odnos između i: promjena ne utiče

Da biste testirali nultu hipotezu da je pravi nagib nula, možete koristiti sljedeći algoritam:

Izračunajte statistiku testa jednaku omjeru , koji se pridržava distribucije sa stupnjevima slobode, gdje je standardna greška koeficijenta


,

- procjena varijanse reziduala.

Obično, ako je dostignuti nivo značajnosti nulta hipoteza se odbacuje.


gdje je postotak distribucije sa stupnjevima slobode koji daje vjerovatnoću dvostranog testa

Ovo je interval koji sadrži opći nagib sa vjerovatnoćom od 95%.

Za velike uzorke, recimo da možemo aproksimirati sa vrijednošću od 1,96 (to jest, statistika testa će imati tendenciju da bude normalno raspoređena)

Procjena kvaliteta linearne regresije: koeficijent determinacije R 2

Zbog linearnog odnosa i očekujemo da se to mijenja kako se mijenja , a mi to nazivamo varijacijom koja je posljedica ili objašnjena regresijom. Preostala varijacija treba da bude što manja.

Ako je tako, onda će većina varijacija biti objašnjena regresijom, a tačke će ležati blizu linije regresije, tj. linija se dobro uklapa u podatke.

Zove se udio ukupne varijanse koji je objašnjen regresijom koeficijent determinacije, obično se izražava u postocima i označava R2(u uparenoj linearnoj regresiji, ovo je vrijednost r2, kvadrat koeficijenta korelacije), omogućava subjektivno procjenu kvaliteta jednačine regresije.

Razlika je postotak varijanse koji se ne može objasniti regresijom.

Bez formalnog testa za procjenu, primorani smo da se oslanjamo na subjektivno prosuđivanje da bismo odredili kvalitetu uklapanja linije regresije.

Primjena linije regresije na prognozu

Možete koristiti liniju regresije da predvidite vrijednost iz vrijednosti unutar posmatranog raspona (nikada nemojte ekstrapolirati izvan ovih granica).

Predviđamo srednju vrijednost za opservable koje imaju određenu vrijednost zamjenom te vrijednosti u jednadžbu regresijske linije.

Dakle, ako predviđamo kao, koristimo ovu predviđenu vrijednost i njenu standardnu ​​grešku za procjenu intervala povjerenja za pravu srednju vrijednost populacije.

Ponavljanje ove procedure za različite vrijednosti omogućava vam da izgradite granice pouzdanosti za ovu liniju. Ovo je traka ili područje koje sadrži pravu liniju, na primjer, sa 95% nivoa pouzdanosti.

Jednostavni regresijski planovi

Jednostavni regresijski dizajni sadrže jedan kontinuirani prediktor. Ako postoje 3 slučaja sa vrijednostima prediktora P, kao što su 7, 4 i 9, a dizajn uključuje efekat prvog reda P, tada će matrica dizajna X biti

a jednadžba regresije korištenje P za X1 izgleda kao

Y = b0 + b1 P

Ako jednostavan regresijski dizajn sadrži učinak višeg reda na P, kao što je kvadratni efekat, tada će vrijednosti u stupcu X1 u matrici dizajna biti podignute na drugi stepen:

i jednačina će poprimiti oblik

Y = b0 + b1 P2

Metode kodiranja ograničene na sigmu i prekomjerno parametrizirane se ne primjenjuju na jednostavne regresijske dizajne i druge dizajne koji sadrže samo kontinuirane prediktore (jer jednostavno ne postoje kategorički prediktori). Bez obzira na odabranu metodu kodiranja, vrijednosti kontinuiranih varijabli se povećavaju za odgovarajuću snagu i koriste kao vrijednosti za X varijable. U ovom slučaju se ne vrši konverzija. Osim toga, kada opisujete planove regresije, možete izostaviti razmatranje matrice plana X i raditi samo s jednadžbom regresije.

Primjer: Jednostavna regresijska analiza

Ovaj primjer koristi podatke navedene u tabeli:

Rice. 3. Tabela početnih podataka.

Podaci se temelje na usporedbi popisa stanovništva iz 1960. i 1970. godine u 30 nasumično odabranih županija. Imena županija su predstavljena kao imena opažanja. Informacije o svakoj varijabli su predstavljene u nastavku:

Rice. 4. Tablica specifikacija varijabli.

Cilj istraživanja

Za ovaj primjer, analizirat će se korelacija između stope siromaštva i moći koja predviđa procenat porodica koje su ispod linije siromaštva. Stoga ćemo varijablu 3 (Pt_Poor) tretirati kao zavisnu varijablu.

Može se postaviti hipoteza: promena u populaciji i procenat porodica koje su ispod granice siromaštva su povezane. Čini se razumnim očekivati ​​da siromaštvo vodi odljevu stanovništva, stoga bi postojala negativna korelacija između procenta ljudi ispod granice siromaštva i promjene stanovništva. Stoga ćemo varijablu 1 (Pop_Chng) tretirati kao prediktorsku varijablu.

Pogledaj rezultate

Regresijski koeficijenti

Rice. 5. Koeficijenti regresije Pt_Poor na Pop_Chng.

Na raskrsnici Pop_Chng reda i Param. nestandardizirani koeficijent za regresiju Pt_Poor na Pop_Chng je -0,40374 . To znači da za svaku jedinicu smanjenja stanovništva dolazi do povećanja stope siromaštva od .40374. Gornje i donje (zadano) 95% granice povjerenja za ovaj nestandardizirani koeficijent ne uključuju nulu, tako da je koeficijent regresije značajan na nivou p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Distribucija varijabli

Koeficijenti korelacije mogu postati značajno precijenjeni ili potcijenjeni ako u podacima postoje velike odstupanja. Hajde da ispitamo distribuciju zavisne varijable Pt_Poor po županijama. Da bismo to učinili, napravit ćemo histogram varijable Pt_Poor.

Rice. 6. Histogram varijable Pt_Poor.

Kao što vidite, distribucija ove varijable značajno se razlikuje od normalne distribucije. Međutim, iako čak dva okruga (dva desna kolona) imaju veći postotak porodica koje su ispod granice siromaštva od očekivanog u normalnoj distribuciji, čini se da su „unutar raspona“.

Rice. 7. Histogram varijable Pt_Poor.

Ovaj sud je donekle subjektivan. Opće pravilo je da se odstupanja moraju uzeti u obzir ako posmatranje (ili zapažanja) ne spadaju u interval (srednja vrijednost ± 3 puta standardna devijacija). U ovom slučaju, vrijedno je ponoviti analizu sa i bez eksternih faktora kako bismo se uvjerili da oni nemaju ozbiljan učinak na korelaciju između članova populacije.

Scatterplot

Ako je jedna od hipoteza a priori o odnosu između datih varijabli, onda je korisno provjeriti je na dijagramu odgovarajućeg dijagrama raspršenja.

Rice. 8. Scatterplot.

Dijagram raspršenja pokazuje jasnu negativnu korelaciju (-.65) između dvije varijable. Takođe pokazuje interval pouzdanosti od 95% za liniju regresije, tj. sa vjerovatnoćom od 95% linija regresije prolazi između dvije isprekidane krive.

Kriterijumi značajnosti

Rice. 9. Tabela koja sadrži kriterijume značajnosti.

Test za koeficijent regresije Pop_Chng potvrđuje da je Pop_Chng snažno povezan sa Pt_Poor , p<.001 .

Ishod

Ovaj primjer je pokazao kako analizirati jednostavan plan regresije. Također je predstavljena interpretacija nestandardiziranih i standardiziranih regresijskih koeficijenata. Raspravlja se o važnosti proučavanja distribucije odgovora zavisne varijable i demonstrira se tehnika za određivanje smjera i jačine odnosa između prediktora i zavisne varijable.

U prisustvu korelacije između faktora i rezultantnih znakova, doktori često moraju odrediti za koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni mjernom jedinicom koju je općenito prihvatio ili ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako im se visina poveća za 1 cm. Za ove svrhe koristi se metoda regresijske analize.

Metoda regresijske analize najčešće se koristi za izradu normativnih skala i standarda fizičkog razvoja.

  1. Definicija regresije. Regresija je funkcija koja omogućava da se na osnovu prosječne vrijednosti jednog atributa odredi prosječna vrijednost drugog atributa koji je u korelaciji s prvim.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati broj prehlada u prosjeku na određenim vrijednostima prosječne mjesečne temperature zraka u jesensko-zimskom periodu.

  2. Definicija koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se vrijednost jednog atributa u prosjeku mijenja kada se drugi atribut povezan s njim promijeni za određenu mjernu jedinicu.
  3. Formula regresijskog koeficijenta. R y / x \u003d r xy x (σ y / σ x)
    gdje je R y / x - koeficijent regresije;
    r xy - koeficijent korelacije između karakteristika x i y;
    (σ y i σ x) - standardne devijacije karakteristika x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature vazduha u jesensko-zimskom periodu;
    σ y = 8,65 (standardna devijacija broja infektivnih prehlada).
    Dakle, R y/x je koeficijent regresije.
    R y / x = -0,96 x (4,6 / 8,65) = 1,8, tj. sa smanjenjem prosječne mjesečne temperature zraka (x) za 1 stepen, prosječan broj zaraznih prehlada (y) u jesensko-zimskom periodu će se promijeniti za 1,8 slučajeva.

  4. Regresijska jednačina. y \u003d M y + R y / x (x - M x)
    gdje je y prosječna vrijednost atributa, koju treba odrediti kada se promijeni prosječna vrijednost drugog atributa (x);
    x - poznata prosječna vrijednost druge karakteristike;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti karakteristika x i y.

    Na primjer, prosječan broj zaraznih prehlada (y) može se odrediti bez posebnih mjerenja na bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako je x = - 9 °, R y / x = 1,8 bolesti, M x = -7 °, M y = 20 bolesti, onda y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova jednadžba se koristi u slučaju pravolinijskog odnosa između dvije karakteristike (x i y).

  5. Svrha jednadžbe regresije. Jednačina regresije se koristi za crtanje linije regresije. Ovo poslednje omogućava da se bez posebnih merenja odredi bilo koja prosečna vrednost (y) jednog atributa, ako se promeni vrednost (x) drugog atributa. Na osnovu ovih podataka pravi se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti prosječne mjesečne temperature u rasponu između izračunatih vrijednosti broja prehlada.
  6. sigma regresije (formula).
    gdje je σ Ru/x - sigma (standardna devijacija) regresije;
    σ y je standardna devijacija karakteristike y;
    r xy - koeficijent korelacije između karakteristika x i y.

    Dakle, ako je σ y standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom periodu (x) iznosi -0,96, tada

  7. Svrha sigma regresije. Daje karakteristiku mjere raznolikosti rezultirajuće karakteristike (y).

    Na primjer, karakterizira raznolikost broja prehlada na određenoj vrijednosti srednje mjesečne temperature zraka u jesensko-zimskom periodu. Dakle, prosječan broj prehlada na temperaturi zraka x 1 = -6 ° može se kretati od 15,78 bolesti do 20,62 bolesti.
    Pri x 2 = -9° prosječan broj prehlada može biti u rasponu od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma se koristi u izgradnji skale regresije, koja odražava odstupanje vrijednosti efektivnog atributa od njegove prosječne vrijednosti ucrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i crtanje skale regresije
    • koeficijent regresije - Ry/x;
    • jednadžba regresije - y \u003d M y + R y / x (x-M x);
    • sigma regresije - σ Rx/y
  9. Redoslijed proračuna i grafički prikaz skale regresije.
    • odrediti koeficijent regresije po formuli (vidi paragraf 3). Na primjer, treba odrediti koliko će se u prosjeku promijeniti tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • prema formuli regresione jednadžbe (vidi paragraf 4), odrediti kolika će biti prosječna, na primjer, tjelesna težina (y, y 2, y 3 ...) * za određenu vrijednost rasta (x, x 2, x 3 ...) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrednosti"X".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamjenjujući njihove vrijednosti u formulu (vidi paragraf 6).
    • na osnovu poznatih vrednosti x 1, x 2, x 3 i njihovih odgovarajućih prosečnih vrednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru / x) i najveće (y + σ ru / x) vrijednosti (y) konstruiraju skalu regresije.

      Za grafički prikaz skale regresije, vrijednosti x, x 2 , x 3 (y-osa) se prvo označavaju na grafikonu, tj. gradi se regresijska linija, na primjer, ovisnost tjelesne težine (y) o visini (x).

      Zatim se u odgovarajućim tačkama y 1 , y 2 , y 3 označavaju numeričke vrijednosti sigme regresije, tj. na grafikonu pronađite najmanju i najveću vrijednost y 1 , y 2 , y 3 .

  10. Praktična upotreba regresijske skale. Normativne skale i standardi se razvijaju, posebno za fizički razvoj. Prema standardnoj skali moguće je dati individualnu procjenu razvoja djece. Istovremeno, fizički razvoj se ocjenjuje kao harmoničan ako je, na primjer, na određenoj visini, djetetova tjelesna težina unutar jedne sigme regresije na prosječnu izračunatu jedinicu tjelesne težine - (y) za datu visinu (x) ( y ± 1 σ Ry / x).

    Fizički razvoj se smatra disharmoničnim u smislu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge sigme regresije: (y ± 2 σ Ry/x)

    Fizički razvoj će biti oštro disharmoničan kako zbog viška tako i zbog nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja fizičkog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije su prikazane u tabeli.

Obavezno:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednačine odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina sa visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati sigmu regresije, izgraditi skalu regresije, grafički prikazati rezultate njenog rješenja;
  • izvući odgovarajuće zaključke.

Stanje problema i rezultati njegovog rješavanja prikazani su u zbirnoj tabeli.

Tabela 1

Uslovi problema Rezultati rješenja problema
jednadžba regresije sigma regresija regresijska skala (očekivana tjelesna težina (u kg))
M σ r xy R y/x X At σRx/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
visina (x) 109 cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tjelesna težina (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Rješenje.

Zaključak. Dakle, skala regresije unutar izračunatih vrijednosti tjelesne težine omogućava vam da je odredite za bilo koju drugu vrijednost rasta ili procijenite individualni razvoj djeteta. Da biste to učinili, vratite okomicu na liniju regresije.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za srednje škole. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medik V.A., Yuriev V.K. Kurs predavanja o javnom zdravlju i zdravstvenoj zaštiti: Dio 1. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Vodič u 2 toma). - Sankt Peterburg, 1998. -528 str.
  5. Kucherenko V.Z., Agarkov N.M. i dr. Socijalna higijena i organizacija zdravstvene zaštite (Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glantz. Mediko-biološka statistika. Per sa engleskog. - M., Praksa, 1998. - 459 str.

Regresiona analiza ispituje zavisnost određene veličine od druge veličine ili nekoliko drugih veličina. Regresiona analiza se uglavnom koristi u srednjoročnim prognozama, kao iu dugoročnim prognozama. Srednjoročni i dugoročni periodi omogućavaju utvrđivanje promjena u poslovnom okruženju i uzimanje u obzir uticaja tih promjena na indikator koji se proučava.

Za provođenje regresione analize potrebno je:

    dostupnost godišnjih podataka o proučavanim indikatorima,

    dostupnost jednokratnih prognoza, tj. prognoze koje se ne poboljšavaju novim podacima.

Regresiona analiza se obično radi za objekte koji imaju kompleksnu, multifaktorsku prirodu, kao što su obim investicija, profit, obim prodaje itd.

At metod normativne prognoze određuju se načini i rokovi postizanja mogućih stanja pojave, uzetih za cilj. Riječ je o predviđanju postizanja željenih stanja fenomena na osnovu unaprijed određenih normi, ideala, poticaja i ciljeva. Takva prognoza odgovara na pitanje: na koji način se može postići željeno? Normativna metoda se češće koristi za programske ili ciljane prognoze. Koriste se i kvantitativni izraz standarda i određena skala mogućnosti funkcije evaluacije.

U slučaju korištenja kvantitativnog izraza, na primjer, fizioloških i racionalnih normi za potrošnju određenih prehrambenih i neprehrambenih proizvoda koje su razvili stručnjaci za različite grupe stanovništva, moguće je odrediti nivo potrošnje ovih dobara za godine koje prethode postizanju navedene norme. Takvi proračuni se nazivaju interpolacija. Interpolacija je način izračunavanja indikatora koji nedostaju u vremenskom nizu neke pojave, na osnovu utvrđenog odnosa. Uzimajući stvarnu vrijednost indikatora i vrijednost njegovih standarda kao ekstremnih članova dinamičke serije, moguće je odrediti veličinu vrijednosti unutar ove serije. Stoga se interpolacija smatra normativnom metodom. Prethodno data formula (4), korištena u ekstrapolaciji, može se koristiti u interpolaciji, pri čemu y n više neće karakterizirati stvarne podatke, već standard indikatora.

Ako se u normativnoj metodi koristi skala (polje, spektar) mogućnosti funkcije evaluacije, odnosno funkcija raspodjele preferencija, otprilike je naznačena sljedeća gradacija: nepoželjno - manje poželjno - poželjnije - najpoželjnije - optimalno ( normativno).

Metoda normativnog predviđanja pomaže da se razviju preporuke za povećanje nivoa objektivnosti, a time i efikasnosti odluka.

Modeliranje, možda najteža metoda predviđanja. Matematičko modeliranje znači opisivanje ekonomske pojave kroz matematičke formule, jednačine i nejednačine. Matematički aparat bi trebao precizno odražavati pozadinu prognoze, iako je prilično teško u potpunosti odražavati cjelokupnu dubinu i složenost predviđenog objekta. Izraz "model" je izveden od latinske riječi modelus, što znači "mjera". Stoga bi bilo ispravnije modeliranje ne smatrati metodom predviđanja, već metodom proučavanja slične pojave na modelu.

U širem smislu, modeli se nazivaju zamjenama za predmet proučavanja, koji su s njim u tolikoj sličnosti da vam omogućavaju da dobijete nova saznanja o objektu. Model treba posmatrati kao matematički opis objekta. U ovom slučaju, model se definira kao pojava (objekt, instalacija) koja je u nekoj korespondenciji sa predmetom koji se proučava i može ga zamijeniti u procesu istraživanja, prezentujući informaciju o objektu.

Uz uže razumijevanje modela, on se smatra objektom predviđanja, njegovo proučavanje omogućava dobijanje informacija o mogućim stanjima objekta u budućnosti i načinima za postizanje tih stanja. U ovom slučaju, svrha prediktivnog modela je da dobije informacije ne o objektu općenito, već samo o njegovim budućim stanjima. Tada, prilikom izgradnje modela, može biti nemoguće direktno provjeriti njegovu korespondenciju s objektom, jer model predstavlja samo njegovo buduće stanje, a sam objekt trenutno može odsustvovati ili imati drugačije postojanje.

Modeli mogu biti materijalni i idealni.

Idealni modeli se koriste u ekonomiji. Najsavršeniji idealan model za kvantitativni opis socio-ekonomskog (ekonomskog) fenomena je matematički model koji koristi brojeve, formule, jednačine, algoritme ili grafički prikaz. Uz pomoć ekonomskih modela odredite:

    odnos između različitih ekonomskih pokazatelja;

    razne vrste ograničenja nametnutih indikatorima;

    kriterijume za optimizaciju procesa.

Smisaoni opis objekta može se predstaviti u obliku njegove formalizirane šeme, koja ukazuje koji parametri i početne informacije moraju biti prikupljeni da bi se izračunale tražene vrijednosti. Matematički model, za razliku od formalizirane sheme, sadrži specifične numeričke podatke koji karakteriziraju objekt.Razvoj matematičkog modela u velikoj mjeri ovisi o ideji prognostičara o suštini procesa koji se modelira. Na osnovu svojih ideja postavlja radnu hipotezu uz pomoć koje se kreira analitički zapis modela u obliku formula, jednadžbi i nejednačina. Kao rezultat rješavanja sistema jednačina dobijaju se specifični parametri funkcije koji opisuju promjenu željenih varijabli tokom vremena.

Redoslijed i redoslijed rada kao elementa organizacije prognoziranja određuje se u zavisnosti od primijenjenog metoda prognoziranja. Obično se ovaj posao izvodi u nekoliko faza.

Faza 1 - prediktivna retrospekcija, tj. uspostavljanje objekta prognoze i pozadine prognoze. Rad u prvoj fazi se izvodi u sljedećem redoslijedu:

    formiranje opisa objekta u prošlosti, koji uključuje pretprognoznu analizu objekta, procjenu njegovih parametara, njihovog značaja i međusobnih odnosa,

    utvrđivanje i vrednovanje izvora informacija, postupak i organizacija rada sa njima, prikupljanje i plasiranje retrospektivnih informacija;

    postavljanje ciljeva istraživanja.

Obavljajući zadatke prediktivne retrospekcije, prognostičari proučavaju istoriju razvoja objekta i pozadinu prognoze kako bi dobili njihov sistematski opis.

Faza 2 - prediktivna dijagnoza, tokom koje se proučava sistematski opis objekta predviđanja i pozadine prognoze kako bi se identifikovali trendovi u njihovom razvoju i odabrali modeli i metode predviđanja. Rad se izvodi u sljedećem redoslijedu:

    razvoj modela predviđanja objekta, uključujući formalizirani opis objekta, provjeru stepena adekvatnosti modela prema objektu;

    izbor metoda prognoze (glavnih i pomoćnih), razvoj algoritma i programa rada.

3. faza - patronaža, odnosno proces ekstenzivne izrade prognoze, uključujući: 1) proračun predviđenih parametara za dati vodeći period; 2) sinteza pojedinih komponenti prognoze.

4. faza - procjena prognoze, uključujući njenu verifikaciju, odnosno određivanje stepena pouzdanosti, tačnosti i valjanosti.

U toku istraživanja i evaluacije, zadaci prognoze i njena evaluacija rješavaju se na osnovu prethodnih faza.

Navedena faza je približna i zavisi od glavne metode predviđanja.

Rezultati prognoze sastavljaju se u obliku potvrde, izvještaja ili drugog materijala i prezentiraju se kupcu.

U prognozi se može naznačiti odstupanje prognoze od stvarnog stanja objekta, što se naziva greška prognoze, koja se izračunava po formuli:

;
;
. (9.3)

Izvori grešaka u predviđanju

Glavni izvori mogu biti:

1. Jednostavan prenos (ekstrapolacija) podataka iz prošlosti u budućnost (npr. kompanija nema druge opcije prognoze, osim povećanja prodaje od 10%).

2. Nemogućnost preciznog određivanja vjerovatnoće događaja i njegovog uticaja na predmet koji se proučava.

3. Nepredviđene poteškoće (remetilački događaji) koje utiču na implementaciju plana, na primjer, iznenadno otpuštanje šefa odjela prodaje.

Općenito, tačnost predviđanja raste s akumulacijom iskustva u predviđanju i razvojem njegovih metoda.

Regresiona analiza je u osnovi kreiranja većine ekonometrijskih modela, među kojima treba uključiti i modele procjene troškova. Za izgradnju modela vrednovanja, ova metoda se može koristiti ako su broj analoga (uporedivih objekata) i broj faktora troškova (elemenata poređenja) međusobno povezani na sljedeći način: P> (5 -g-10) x da, one. trebalo bi da ima 5-10 puta više analoga od faktora troškova. Isti zahtjev za odnos količine podataka i broja faktora odnosi se i na druge zadatke: uspostavljanje odnosa između parametara cijene i potrošača objekta; obrazloženje postupka za izračunavanje korektivnih indeksa; pojašnjenje kretanja cijena; uspostavljanje veze između habanja i promjena faktora utjecaja; dobijanje zavisnosti za izračunavanje standarda troškova itd. Ispunjenje ovog zahtjeva je neophodno kako bi se smanjila vjerovatnoća rada sa uzorkom podataka koji ne zadovoljava zahtjev normalne distribucije slučajnih varijabli.

Regresijski odnos odražava samo prosječni trend rezultirajuće varijable, kao što je trošak, iz promjena u jednoj ili više faktorskih varijabli, kao što su lokacija, broj soba, površina, sprat, itd. Ovo je razlika između regresijskog odnosa i funkcionalnog, u kojem je vrijednost rezultirajuće varijable striktno definirana za datu vrijednost faktorskih varijabli.

Prisutnost regresijskog odnosa / između rezultirajućeg at i faktorske varijable x str ..., x k(faktori) ukazuje da je ovaj odnos određen ne samo uticajem odabranih faktorskih varijabli, već i uticajem varijabli, od kojih su neke generalno nepoznate, druge se ne mogu procijeniti i uzeti u obzir:

Uticaj neobračunatih varijabli označen je drugim članom ove jednačine ?, što se naziva greškom aproksimacije.

Postoje sljedeće vrste regresijskih ovisnosti:

  • ? uparena regresija - odnos između dvije varijable (rezultantne i faktorijalne);
  • ? višestruka regresija - zavisnost jedne rezultirajuće varijable i dvije ili više faktorskih varijabli uključenih u studiju.

Glavni zadatak regresione analize je da kvantifikuje bliskost odnosa između varijabli (u parnoj regresiji) i više varijabli (u višestrukoj regresiji). Čvrstost odnosa se kvantificira koeficijentom korelacije.

Korištenje regresione analize omogućava vam da utvrdite obrazac utjecaja glavnih faktora (hedonističkih karakteristika) na indikator koji se proučava, kako u njihovoj ukupnosti, tako i svaki od njih pojedinačno. Uz pomoć regresione analize, kao metode matematičke statistike, moguće je, prvo, pronaći i opisati oblik analitičke zavisnosti rezultujuće (željene) varijable od faktorijalne i, drugo, proceniti bliskost ovu zavisnost.

Rješavanjem prvog zadatka dobija se matematički regresijski model uz pomoć kojeg se zatim izračunava željeni indikator za date vrijednosti faktora. Rješenje drugog problema omogućava utvrđivanje pouzdanosti izračunatih rezultata.

Dakle, regresiona analiza se može definisati kao skup formalnih (matematičkih) procedura dizajniranih da izmjere čvrstoću, usmjerenost i analitički izraz oblika odnosa između rezultirajućih i faktorskih varijabli, tj. Rezultat takve analize treba da bude strukturno i kvantitativno definisan statistički model u obliku:

gdje y - prosječna vrijednost rezultirajuće varijable (željenog indikatora, na primjer, trošak, najam, stopa kapitalizacije) preko P njena zapažanja; x je vrijednost faktorske varijable (/-ti faktor troškova); do - broj faktorskih varijabli.

Funkcija f(x l ,...,x lc), koja opisuje zavisnost rezultujuće varijable o faktorijalnoj naziva se regresijska jednačina (funkcija). Pojam "regresija" (regresija (lat.) - povlačenje, povratak na nešto) povezan je sa specifičnostima jednog od specifičnih zadataka koji se rješavaju u fazi formiranja metode, a trenutno ne odražava cjelokupnu suštinu metode. , ali se i dalje koristi.

Regresiona analiza općenito uključuje sljedeće korake:

  • ? formiranje uzorka homogenih objekata i prikupljanje početnih informacija o tim objektima;
  • ? izbor glavnih faktora koji utiču na rezultujuću varijablu;
  • ? provjera uzorka za normalno korištenje X 2 ili binomni kriterijum;
  • ? prihvatanje hipoteze o obliku komunikacije;
  • ? matematička obrada podataka;
  • ? dobijanje regresijskog modela;
  • ? procjena njegovih statističkih pokazatelja;
  • ? verifikacioni proračuni korišćenjem regresionog modela;
  • ? analiza rezultata.

Specificirani niz operacija odvija se u proučavanju odnosa u paru između faktorske varijable i jedne rezultirajuće varijable, kao i višestrukog odnosa između rezultirajuće varijable i nekoliko faktorskih varijabli.

Upotreba regresione analize nameće određene zahtjeve za početne informacije:

  • ? statistički uzorak objekata treba da bude homogen u funkcionalnom i konstruktivno-tehnološkom pogledu;
  • ? prilično brojni;
  • ? indikator troškova koji se proučava - rezultirajuća varijabla (cijena, trošak, troškovi) - mora se svesti na iste uslove za njegov obračun za sve objekte u uzorku;
  • ? faktorske varijable moraju se izmjeriti dovoljno precizno;
  • ? faktorske varijable moraju biti nezavisne ili minimalno zavisne.

Zahtjevi za homogenost i potpunost uzorka su u suprotnosti: što se strožije vrši selekcija objekata prema njihovoj homogenosti, to je uzorak manji, i obrnuto, da bi se uzorak povećao, potrebno je uključiti objekte koji nisu mnogo slični jedno drugom.

Nakon što se prikupe podaci za grupu homogenih objekata, oni se analiziraju kako bi se utvrdio oblik odnosa između rezultirajućih i faktorskih varijabli u obliku teorijske regresijske linije. Proces nalaženja teorijske regresione linije sastoji se od razumnog izbora aproksimativne krive i izračunavanja koeficijenata njene jednačine. Regresijska linija je glatka kriva (u konkretnom slučaju, prava linija) koja opisuje, koristeći matematičku funkciju, opći trend ovisnosti koja se proučava i izglađuje nepravilne, nasumične odstupanja od utjecaja sporednih faktora.

Za prikaz uparenih regresijskih ovisnosti u zadacima procjene najčešće se koriste sljedeće funkcije: linearna - y - a 0 + ars + s snaga - y - aj&i + c demonstrativna - y - linearni eksponencijalni - y - a 0 + ar * + s. ovdje - e greška aproksimacije zbog djelovanja neuračunatih slučajnih faktora.

U ovim funkcijama, y ​​je rezultujuća varijabla; x - faktor varijabla (faktor); a 0 , a r a 2 - parametri regresijskog modela, koeficijenti regresije.

Linearni eksponencijalni model pripada klasi takozvanih hibridnih modela oblika:

gdje

gdje je x (i = 1, /) - vrijednosti faktora;

b t (i = 0, /) su koeficijenti regresione jednadžbe.

U ovoj jednačini, komponente A, B i Z odgovaraju troškovima pojedinih komponenti imovine koja se vrednuje, na primer, cena zemljišne parcele i troškovi poboljšanja, i parametar Q je uobičajeno. Dizajniran je da prilagodi vrijednost svih komponenti imovine koja se vrednuje za zajednički faktor uticaja, kao što je lokacija.

Vrijednosti faktora koji se nalaze u stepenu odgovarajućih koeficijenata su binarne varijable (0 ili 1). Faktori koji su u osnovi stepena su diskretne ili kontinuirane varijable.

Faktori povezani sa koeficijentima predznaka množenja su također kontinuirani ili diskretni.

Specifikacija se u pravilu provodi empirijskim pristupom i uključuje dvije faze:

  • ? crtanje tačaka regresijskog polja na grafu;
  • ? grafička (vizuelna) analiza tipa moguće aproksimativne krive.

Tip krivulje regresije nije uvijek odmah odabran. Da bi se to odredilo, tačke regresijskog polja se prvo ucrtavaju na graf prema početnim podacima. Zatim se vizualno povlači linija duž položaja tačaka, pokušavajući otkriti kvalitativni obrazac veze: ravnomjeran rast ili ravnomjerno smanjenje, rast (smanjenje) s povećanjem (smanjenjem) stope dinamike, glatki pristup određeni nivo.

Ovaj empirijski pristup dopunjen je logičkom analizom, polazeći od već poznatih ideja o ekonomskoj i fizičkoj prirodi proučavanih faktora i njihovom međusobnom uticaju.

Na primjer, poznato je da su ovisnosti rezultirajućih varijabli - ekonomskih pokazatelja (cijene, rente) od niza faktorskih varijabli - faktora koji formiraju cijene (udaljenost od centra naselja, površine itd.) nelinearne. , i mogu se opisati prilično striktno pomoću stepena, eksponencijalne ili kvadratne funkcije . Ali uz mali raspon faktora, prihvatljivi rezultati se mogu dobiti korištenjem linearne funkcije.

Ako je još uvijek nemoguće odmah napraviti siguran izbor bilo koje funkcije, tada se odabiru dvije ili tri funkcije, izračunavaju se njihovi parametri, a zatim se, koristeći odgovarajuće kriterije za čvrstoću veze, funkcija konačno odabire.

U teoriji, proces regresije za pronalaženje oblika krive se naziva specifikacija model i njegovi koeficijenti - kalibracija modeli.

Ako se utvrdi da rezultirajuća varijabla y ovisi o nekoliko faktorskih varijabli (faktora) x ( , x 2 , ..., x k, tada pribjegavaju izgradnji modela višestruke regresije. Obično se koriste tri oblika višestruke komunikacije: linearna - y - a 0 + a x x x + a^x 2 + ... + a k x k, demonstrativna - y - a 0 a*i a x t- a x b, snaga - y - a 0 x x ix 2 a 2. .x^ ili njihove kombinacije.

Eksponencijalna i eksponencijalna funkcija su univerzalnije, jer aproksimiraju nelinearne odnose, što je većina ovisnosti proučavanih u procjeni. Osim toga, mogu se koristiti u evaluaciji objekata iu metodi statističkog modeliranja za masovnu evaluaciju, te u metodi direktnog poređenja u individualnoj evaluaciji prilikom utvrđivanja faktora korekcije.

U fazi kalibracije, parametri regresijskog modela se izračunavaju metodom najmanjih kvadrata, čija je suština da se zbroj kvadrata odstupanja izračunatih vrijednosti rezultirajuće varijable at., tj. izračunato prema odabranoj jednadžbi relacije, od stvarnih vrijednosti treba biti minimalno:

Vrijednosti j) (. i y. poznato, dakle Q je funkcija samo koeficijenata jednačine. Da nađem minimum S uzeti parcijalne derivate Q koeficijentima jednačine i izjednačiti ih sa nulom:

Kao rezultat dobijamo sistem normalnih jednačina, čiji je broj jednak broju utvrđenih koeficijenata željene regresione jednačine.

Pretpostavimo da trebamo pronaći koeficijente linearne jednačine y - a 0 + ars. Zbir kvadrata odstupanja je:

/=1

Razlikujte funkciju Q po nepoznatim koeficijentima a 0 i i izjednačiti parcijalne derivacije sa nulom:

Nakon transformacije dobijamo:

gdje P - broj originalnih stvarnih vrijednosti at njih (broj analoga).

Navedeni postupak za izračunavanje koeficijenata regresione jednačine primjenjiv je i za nelinearne zavisnosti, ako se te zavisnosti mogu linearizirati, tj. dovesti do linearnog oblika koristeći promjenu varijabli. Potencijalne i eksponencijalne funkcije nakon uzimanja logaritma i odgovarajuće promjene varijabli dobijaju linearni oblik. Na primjer, funkcija stepena nakon uzimanja logaritma poprima oblik: U y \u003d 1n 0 +a x 1ph. Nakon promjene varijabli Y- U y, L 0 - U i br. X- U x dobijamo linearnu funkciju

Y=A0 + cijX,čiji se koeficijenti nalaze kako je gore opisano.

Metoda najmanjih kvadrata se također koristi za izračunavanje koeficijenata modela višestruke regresije. Dakle, sistem normalnih jednačina za izračunavanje linearne funkcije sa dvije varijable Xj i x 2 nakon niza transformacija, to izgleda ovako:

Obično se ovaj sistem jednačina rješava primjenom metoda linearne algebre. Višestruka eksponencijalna funkcija se dovodi u linearni oblik uzimanjem logaritama i promjenom varijabli na isti način kao uparena eksponencijalna funkcija.

Kada se koriste hibridni modeli, višestruki koeficijenti regresije se pronalaze pomoću numeričkih procedura metode uzastopnih aproksimacija.

Da bi se napravio konačan izbor između nekoliko jednačina regresije, potrebno je testirati svaku jednačinu na čvrstoću odnosa, koja se mjeri koeficijentom korelacije, varijansom i koeficijentom varijacije. Za evaluaciju možete koristiti i kriterije Studenta i Fishera. Što veća čvrstoća veze otkriva krivulju, to je ona poželjnija, pod uslovom da su sve ostale jednake.

Ako se rješava problem takve klase, kada je potrebno utvrditi ovisnost indikatora troškova od faktora troškova, onda je želja da se uzme u obzir što više faktora utjecaja i na taj način izgradi precizniji model višestruke regresije. razumljivo. Međutim, dva objektivna ograničenja ometaju proširenje broja faktora. Prvo, izgradnja modela višestruke regresije zahtijeva mnogo veći uzorak objekata od izgradnje uparenog modela. Općenito je prihvaćeno da broj objekata u uzorku treba da bude veći od broja P faktora, najmanje 5-10 puta. Iz toga slijedi da je za izgradnju modela sa tri utjecajna faktora potrebno prikupiti uzorak od približno 20 objekata sa različitim skupovima vrijednosti faktora. Drugo, faktori odabrani za model u svom uticaju na indikator vrednosti treba da budu dovoljno nezavisni jedan od drugog. Ovo nije lako osigurati, jer uzorak obično kombinuje objekte koji pripadaju istoj porodici, u kojoj postoji redovna promjena mnogih faktora od objekta do objekta.

Kvaliteta regresijski modeli, u pravilu provjerite koristeći sljedeće statistike.

Standardna devijacija greške jednadžbe regresije (greška procjene):

gdje P - veličina uzorka (broj analoga);

do - broj faktora (faktora troškova);

Greška neobjašnjena regresionom jednačinom (slika 3.2);

y. - stvarnu vrijednost rezultirajuće varijable (na primjer, trošak); y t - izračunata vrijednost rezultirajuće varijable.

Ovaj indikator se također naziva standardna greška procjene (RMS greška). Na slici tačke označavaju specifične vrijednosti uzorka, simbol označava liniju srednjih vrijednosti uzorka, nagnuta isprekidana linija je linija regresije.


Rice. 3.2.

Standardna devijacija greške procjene mjeri koliko stvarne vrijednosti y odstupaju od odgovarajućih izračunatih vrijednosti. at( , dobijeno pomoću regresionog modela. Ako uzorak na kojem je model izgrađen podliježe zakonu normalne distribucije, onda se može tvrditi da 68% stvarnih vrijednosti at su u dometu at ± &e od regresijske linije, a 95% - u rasponu at ± 2d e. Ovaj indikator je zgodan jer su jedinice mjere sg? odgovaraju mjernim jedinicama at,. U tom smislu, može se koristiti za ukazivanje na tačnost rezultata dobijenog u procesu evaluacije. Na primjer, u certifikatu o vrijednosti možete naznačiti da je vrijednost tržišne vrijednosti dobivena korištenjem regresijskog modela V sa vjerovatnoćom od 95% je u rasponu od (V-2d,.) prije (kod + 2ds).

Koeficijent varijacije rezultirajuće varijable:

gdje y - srednja vrijednost rezultirajuće varijable (slika 3.2).

U regresionoj analizi, koeficijent varijacije var je standardna devijacija rezultata, izražena kao postotak srednje vrijednosti varijable rezultata. Koeficijent varijacije može poslužiti kao kriterij za prediktivne kvalitete rezultirajućeg regresijskog modela: što je manja vrijednost var, što su prediktivni kvaliteti modela veći. Upotreba koeficijenta varijacije je poželjnija od eksponenta &e, budući da je relativan eksponent. U praktičnoj upotrebi ovog indikatora može se preporučiti da se ne koristi model čiji koeficijent varijacije prelazi 33%, jer se u ovom slučaju ne može reći da ovi uzorci podležu normalnom zakonu distribucije.

Koeficijent determinacije (višestruki koeficijent korelacije na kvadrat):

Ovaj indikator se koristi za analizu ukupnog kvaliteta rezultirajućeg regresijskog modela. Pokazuje koliki je postotak varijacije rezultirajuće varijable zbog utjecaja svih faktorskih varijabli uključenih u model. Koeficijent determinacije uvijek leži u rasponu od nule do jedan. Što je vrijednost koeficijenta determinacije bliža jedinici, to model bolje opisuje originalnu seriju podataka. Koeficijent determinacije može se predstaviti na drugi način:

Evo greške objašnjene regresijskim modelom,

a - greška neobjašnjena

regresijski model. Sa ekonomske tačke gledišta, ovaj kriterijum omogućava da se proceni koliki je procenat varijacije cene objašnjen regresionom jednačinom.

Tačna granica prihvatljivosti indikatora R2 nemoguće je precizirati za sve slučajeve. Moraju se uzeti u obzir i veličina uzorka i smislena interpretacija jednačine. U pravilu, kada se proučavaju podaci o objektima istog tipa, dobijeni približno u isto vrijeme, vrijednost R2 ne prelazi nivo od 0,6-0,7. Ako su sve greške predviđanja nula, tj. kada je odnos između rezultujućih i faktorskih varijabli funkcionalan, onda R2 =1.

Prilagođeni koeficijent determinacije:

Potreba za uvođenjem prilagođenog koeficijenta determinacije objašnjava se činjenicom da sa povećanjem broja faktora to uobičajeni koeficijent determinacije se skoro uvijek povećava, ali se broj stupnjeva slobode smanjuje (n - k- jedan). Uneseno podešavanje uvijek smanjuje vrijednost R2, zbog (P - 1) > (n- do - jedan). Kao rezultat, vrijednost R 2 CKOf) može čak postati negativan. To znači da je vrijednost R2 bio blizu nule prije prilagođavanja i udio varijanse objašnjen regresijskom jednadžbom varijable at vrlo male.

Od dvije varijante regresionih modela koje se razlikuju po vrijednosti prilagođenog koeficijenta determinacije, ali imaju jednako dobre druge kriterije kvaliteta, poželjnija je varijanta sa velikom vrijednošću prilagođenog koeficijenta determinacije. Koeficijent determinacije se ne prilagođava ako (n - k): k> 20.

Fisher omjer:

Ovaj kriterij se koristi za procjenu značajnosti koeficijenta determinacije. Preostali zbir kvadrata je mjera greške predviđanja koristeći regresiju poznatih vrijednosti troškova kod.. Njegovo poređenje sa regresijskim zbirom kvadrata pokazuje koliko puta regresijska ovisnost predviđa rezultat bolje od srednje vrijednosti at. Postoji tabela kritičnih vrijednosti F R Fisherov koeficijent ovisi o broju stupnjeva slobode brojioca - da, imenilac v 2 = p - k- 1 i nivo značaja a. Ako je izračunata vrijednost Fisherovog kriterija F R veća od tabelarne vrijednosti, onda se postavlja hipoteza o beznačajnosti koeficijenta determinacije, tj. o neskladu između odnosa ugrađenih u regresionu jednačinu i stvarno postojećih, s vjerovatnoćom p = 1 - a se odbacuje.

Prosječna greška aproksimacije(prosječno procentualno odstupanje) izračunava se kao prosječna relativna razlika, izražena u postocima, između stvarne i izračunate vrijednosti rezultirajuće varijable:

Kako manje vrijednosti dati indikator, bolji je prediktivni kvalitet modela. Kada vrijednost ovog pokazatelja nije veća od 7%, to ukazuje na visoku tačnost modela. Ako a 8 > 15%, ukazuje na nezadovoljavajuću tačnost modela.

Standardna greška koeficijenta regresije:

gdje je (/I) -1 .- dijagonalni element matrice (X G X) ~ 1 do - broj faktora;

X- matrica vrijednosti faktorskih varijabli:

X7- transponovana matrica vrednosti faktorskih varijabli;

(JL) _| je matrica inverzna matrici.

Što su ovi rezultati manji za svaki koeficijent regresije, to je pouzdanija procjena odgovarajućeg koeficijenta regresije.

Studentov test (t-statistika):

Ovaj kriterijum vam omogućava da izmerite stepen pouzdanosti (značajnosti) odnosa zbog datog koeficijenta regresije. Ako je izračunata vrijednost t. veća od vrijednosti u tabeli

t av , gdje v - p - k - 1 je broj stepeni slobode, onda se hipoteza da je ovaj koeficijent statistički beznačajan odbacuje sa vjerovatnoćom (100 - a)%. Postoje posebne tabele /-distribucije koje omogućavaju određivanje kritične vrijednosti kriterija prema datom nivou značaja a i broju stupnjeva slobode v. Najčešće korištena vrijednost a je 5%.

Multikolinearnost, tj. efekat međusobnih odnosa između faktorskih varijabli dovodi do potrebe da se zadovolji sa ograničenim brojem njih. Ako se to ne uzme u obzir, onda možete završiti s nelogičnim regresijskim modelom. Kako bi se izbjegao negativan učinak multikolinearnosti, prije izgradnje modela višestruke regresije, izračunavaju se koeficijenti korelacije parova rxjxj između odabranih varijabli X. i X

Evo XjX; - srednja vrijednost proizvoda dvije faktorske varijable;

XjXj- proizvod prosječnih vrijednosti dvije faktorske varijable;

Procjena varijanse faktorske varijable x..

Smatra se da su dvije varijable regresivno povezane (tj. kolinearne) ako je njihov koeficijent parne korelacije striktno veći od 0,8 u apsolutnoj vrijednosti. U ovom slučaju, bilo koju od ovih varijabli treba isključiti iz razmatranja.

U cilju proširenja mogućnosti ekonomske analize rezultirajućih regresionih modela, koriste se prosjeci koeficijenti elastičnosti, određena formulom:

gdje Xj- srednja vrijednost odgovarajuće faktorske varijable;

y - srednja vrijednost rezultirajuće varijable; a i - koeficijent regresije za odgovarajuću faktorsku varijablu.

Koeficijent elastičnosti pokazuje za koliko procenata će se u prosjeku promijeniti vrijednost rezultirajuće varijable kada se faktorska varijabla promijeni za 1%, tj. kako rezultirajuća varijabla reagira na promjenu faktorske varijable. Na primjer, kako se mijenja cijena kvadrata? m površine stana na udaljenosti od centra grada.

Korisna sa stanovišta analize značaja određenog koeficijenta regresije je procjena privatni koeficijent determinacije:

Ovdje je procjena varijanse rezultirajućeg

varijabla. Ovaj koeficijent pokazuje koliko procenata se varijacija rezultirajuće varijable objašnjava varijacijom /-te faktorske varijable uključene u regresionu jednačinu.

  • Hedonističke karakteristike se shvataju kao karakteristike predmeta koje odražavaju njegova korisna (vrijedna) svojstva sa stanovišta kupaca i prodavaca.