Koji su zahtjevi u modelu regresijske analize. Osnove linearne regresije. Korelacija za višestruku regresiju

Regresijska analiza jedna je od najpopularnijih metoda statistička istraživanja. Može se koristiti za određivanje stupnja utjecaja nezavisnih varijabli na zavisnu varijablu. Funkcionalnost programa Microsoft Excel ima alate dizajnirane za provedbu ove vrste analize. Pogledajmo što su i kako ih koristiti.

No, kako biste koristili funkciju koja vam omogućuje provođenje regresijske analize, prije svega morate aktivirati Analysis Package. Tek tada će se alati potrebni za ovaj postupak pojaviti na vrpci programa Excel.


Sad kad idemo na tab "Podaci", na vrpci u kutiji s alatima "Analiza" vidjet ćemo novi gumb - "Analiza podataka".

Vrste regresijske analize

Postoji nekoliko vrsta regresija:

  • parabolični;
  • vlast;
  • logaritamski;
  • eksponencijalni;
  • demonstracija;
  • hiperbolički;
  • Linearna regresija.

O izvršenju posljednjeg pogleda regresijska analiza Kasnije ćemo više govoriti o Excelu.

Linearna regresija u Excelu

Ispod je, kao primjer, tablica koja prikazuje prosječnu dnevnu temperaturu zraka na ulici i broj kupaca trgovine za odgovarajući radni dan. Otkrijmo uz pomoć regresijske analize točno kako vrijeme u obliku temperature zraka može utjecati na posjećenost trgovačkog objekta.

Opća jednadžba linearne regresije izgleda ovako: Y = a0 + a1x1 + ... + axk. U ovoj formuli Y označava varijablu čiji utjecaj pokušavamo proučavati. U našem slučaju to je broj kupaca. Značenje x- ovo je razni faktori koji utječu na varijablu. Mogućnosti a su koeficijenti regresije. Odnosno, određuju značaj određenog faktora. Indeks k stoji za ukupno ti isti faktori.


Analiza rezultata analize

Rezultati regresijske analize prikazuju se u obliku tablice na mjestu navedenom u postavkama.

Jedan od glavnih pokazatelja je R-kvadrat. Označava kvalitetu modela. U našem slučaju taj koeficijent iznosi 0,705 ili oko 70,5%. Ovo je prihvatljiva razina kvalitete. Odnos manji od 0,5 je loš.

Još jedan važan pokazatelj nalazi se u ćeliji na sjecištu linije "Y-raskrižje" i stupac "Koeficijenti". Ovdje je naznačeno koju će vrijednost Y imati, au našem slučaju to je broj kupaca, sa svim ostalim faktorima nula. U ovoj tablici ova vrijednost je 58,04.

Vrijednost na sjecištu grafikona "Varijabla X1" i "Koeficijenti" pokazuje razinu ovisnosti Y o X. U našem slučaju to je razina ovisnosti broja kupaca trgovine o temperaturi. Koeficijent od 1,31 smatra se prilično visokim pokazateljem utjecaja.

Kao što vidite, vrlo je jednostavno stvoriti tablicu regresijske analize pomoću programa Microsoft Excel. Ali samo obučena osoba može raditi s podacima dobivenim na izlazu i razumjeti njihovu bit.

REZULTATI

Tablica 8.3a. Regresijska statistika
Regresijska statistika
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
standardna pogreška 0,42405
Zapažanja 10

Pogledajmo najprije gornji dio izračuna prikazanih u tablici 8.3a, regresijsku statistiku.

Vrijednost R-kvadrata, koja se također naziva i mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremi, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedinice, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Obrnuto, vrijednost R-kvadrata blizu nule znači lošu kvalitetu konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stupanj ovisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Više R jednako korijen od koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nula do jedan.

U jednostavnoj analizi linearne regresije, višestruki R jednak je Pearsonovom koeficijentu korelacije. Doista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti
Izgledi standardna pogreška t-statistika
Y-raskrižje 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Dana je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna prikazanih u tablici 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak duž y-osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) koeficijenti regresije(koeficijent b).

Ako znak na koeficijent regresije- pozitivan, odnos ovisne varijable s nezavisnom bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tablici 8.3c. prikazani su rezultati izlaza reziduala. Kako bi se ovi rezultati pojavili u izvješću, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tablica 8.3c. Ostaci
Promatranje Predviđeno Y Ostaci Standardna stanja
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost

Kao rezultat proučavanja materijala poglavlja 4, student bi trebao:

znati

  • osnovni pojmovi regresijske analize;
  • metode estimacije i svojstva estimacija metode najmanjih kvadrata;
  • osnovna pravila za testiranje značajnosti i intervalnu procjenu jednadžbe i regresijskih koeficijenata;

biti u mogućnosti

  • pronaći procjene parametara dvodimenzionalnih i višestrukih modela regresijskih jednadžbi iz uzorka podataka, analizirati njihova svojstva;
  • provjeriti značajnost jednadžbe i koeficijenata regresije;
  • pronaći intervalne procjene značajnih parametara;

vlastiti

  • vještine statističke procjene parametara dvodimenzionalnih i višestrukih regresijskih jednadžbi; vještine provjere primjerenosti regresijskih modela;
  • vještine dobivanja regresijske jednadžbe sa svim značajnim koeficijentima korištenjem analitičkog softvera.

Osnovni koncepti

Nakon što korelacijska analiza, kada se otkrije prisutnost statistički značajnih odnosa između varijabli i procijeni stupanj njihove povezanosti, obično se prelazi na matematički opis vrste ovisnosti pomoću metoda regresijske analize. U tu svrhu odabire se klasa funkcija koja povezuje efektivni indikator na i argumenti„ izračunati procjene parametara jednadžbe ograničenja i analizirati točnost rezultirajuće jednadžbe .

Funkcija| koja opisuje ovisnost uvjetne prosječne vrijednosti efektivne značajke na iz zadanih vrijednosti argumenata, poziva se regresijska jednadžba.

Pojam "regresija" (od lat. regresija- povući se, vratiti se nečemu) uveo je engleski psiholog i antropolog F. Galton i povezuje se s jednim od njegovih prvih primjera, u kojem je Galton, obrađujući statističke podatke vezane uz pitanje nasljednosti rasta, utvrdio da ako visina očeva odstupa od prosječne visine svih očeva x inča, tada visina njihovih sinova odstupa od prosječne visine svih sinova za manje od x inča Identificirani trend je tzv regresija na srednju vrijednost.

Izraz "regresija" široko se koristi u statističkoj literaturi, iako u mnogim slučajevima ne opisuje točno statističku ovisnost.

Za točan opis regresijske jednadžbe potrebno je poznavati uvjetni zakon raspodjele efektivnog pokazatelja g. U statističkoj praksi obično je nemoguće dobiti takve informacije, stoga su ograničeni na pronalaženje prikladnih aproksimacija za funkciju f(x u x 2, .... l *), na temelju preliminarne smislene analize fenomena ili na izvornim statističkim podacima.

U okviru pojedinih modela pretpostavke o vrsti distribucije vektora indikatora<) может быть получен общий вид regresijske jednadžbe, gdje. Na primjer, pod pretpostavkom da proučavani skup pokazatelja poštuje ()-dimenzionalni zakon normalne distribucije s vektorom matematičkih očekivanja

Gdje je, i pomoću matrice kovarijance,

gdje je varijanca y,

Regresijska jednadžba (uvjetno očekivanje) ima oblik

Stoga, ako multivarijatna slučajna varijabla ()

poštuje ()-dimenzionalni zakon normalne distribucije, zatim regresijsku jednadžbu efektivnog indikatora na u eksplanatornim varijablama ima linearni in x pogled.

Međutim, u statističkoj praksi, obično se moramo ograničiti na pronalaženje prikladnih aproksimacija za nepoznatu pravu regresijsku funkciju f(x), budući da istraživač nema egzaktno znanje o uvjetnom zakonu distribucije vjerojatnosti analiziranog pokazatelja uspješnosti na za date vrijednosti argumenata X.

Razmotrite odnos između stvarnih, modelskih i regresijskih procjena. Neka pokazatelj učinka na povezan s argumentom x omjer

gdje je slučajna varijabla s normalnim zakonom distribucije, štoviše. Prava regresijska funkcija u ovom slučaju je

Pretpostavimo da ne znamo točan oblik prave regresijske jednadžbe, ali imamo devet opažanja dvodimenzionalne slučajne varijable povezanih relacijama prikazanim na slici. 4.1.

Riža. 4.1. Relativni položaj istinitogf(x) i teoretskivauregresijski modeli

Položaj točaka na sl. 4.1 dopušta nam da se ograničimo na klasu linearnih ovisnosti forme

Koristeći metodu najmanjih kvadrata, nalazimo procjenu za regresijsku jednadžbu.

Za usporedbu, na Sl. 4.1 prikazuje grafove stvarne regresijske funkcije i teorijske aproksimativne regresijske funkcije. Procjena regresijske jednadžbe konvergira u vjerojatnosti potonjoj vau s neograničenim povećanjem veličine uzorka ().

Budući da smo pogreškom odabrali linearnu regresijsku funkciju umjesto prave regresijske funkcije, što je, nažalost, dosta često u praksi statističkih istraživanja, naši statistički zaključci i procjene neće imati svojstvo konzistentnosti, tj. bez obzira koliko povećali opseg opažanja, naša procjena uzorka neće konvergirati pravoj regresijskoj funkciji

Ako smo ispravno odabrali klasu regresijskih funkcija, onda je netočnost u opisu korištenjem vau bi se objasnilo samo ograničenošću uzorka i stoga bi se mogao učiniti proizvoljno malim

Kako bi se na najbolji način vratila uvjetna vrijednost efektivnog pokazatelja i nepoznate regresijske funkcije iz početnih statističkih podataka, najčešće se koriste: kriteriji primjerenosti funkcije gubitka.

1. Metoda najmanjeg kvadrata, prema kojem je kvadrat odstupanja promatranih vrijednosti efektivnog pokazatelja, , od vrijednosti modela minimiziran, gdje su koeficijenti regresijske jednadžbe; vrijednosti vektora argumenata u "-M promatranju" :

Rješava se problem nalaženja procjene vektora. Rezultirajuća regresija naziva se glavni trg.

2. Metoda najmanjih modula, prema kojem je zbroj apsolutnih odstupanja opaženih vrijednosti efektivnog pokazatelja od modularnih vrijednosti minimiziran, tj.

Rezultirajuća regresija naziva se srednje apsolutno(medijan).

3. minimaks metoda svodi se na minimiziranje maksimalnog modula odstupanja opažene vrijednosti efektivnog pokazatelja y, od vrijednosti modela, tj.

Rezultirajuća regresija naziva se minimax.

U praktičnim primjenama često se javljaju problemi u kojima se proučava slučajna varijabla y, ovisno o nekom skupu varijabli i nepoznatih parametara. Smatrat ćemo () kao (k + 1)-dimenzionalna opća populacija, iz koje je slučajni uzorak volumena P, gdje je () rezultat /-tog opažanja,. Potrebno je procijeniti nepoznate parametre na temelju rezultata promatranja. Gore opisani zadatak odnosi se na zadatke regresijske analize.

regresijska analiza nazivamo metodom statističke analize ovisnosti slučajne varijable na o varijablama koje se u regresijskoj analizi smatraju neslučajnim varijablama, bez obzira na pravi zakon distribucije

Tijekom studija studenti se vrlo često susreću s raznim jednadžbama. Jedna od njih - regresijska jednadžba - razmatra se u ovom članku. Ova vrsta jednadžbe posebno se koristi za opisivanje karakteristika odnosa između matematičkih parametara. Ova vrsta jednakosti koristi se u statistici i ekonometriji.

Definicija regresije

U matematici se pod regresijom podrazumijeva određena veličina koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Regresijska jednadžba pokazuje, kao funkciju određene značajke, prosječnu vrijednost druge značajke. Regresijska funkcija ima oblik jednostavne jednadžbe y \u003d x, u kojoj y djeluje kao zavisna varijabla, a x je nezavisna varijabla (faktor značajke). Zapravo, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli

Općenito, razlikuju se dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakterizira jednakost uvjetnih varijabli. U ovom slučaju nije sigurno poznato koja varijabla ovisi o drugoj.

Ako ne postoji jednakost između varijabli i uvjeti govore koja je varijabla objašnjavajuća, a koja zavisna, tada možemo govoriti o prisutnosti veze drugog tipa. Kako bi se izgradila jednadžba linearne regresije, bit će potrebno saznati koja se vrsta odnosa promatra.

Vrste regresija

Do danas postoji 7 različitih vrsta regresije: hiperbolička, linearna, višestruka, nelinearna, pairwise, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednadžba linearne regresije koristi se u statistici za jasno objašnjenje parametara jednadžbe. Izgleda kao y = c + m * x + E. Hiperbolička jednadžba ima oblik pravilne hiperbole y \u003d c + m / x + E. Logaritamski linearna jednadžba izražava odnos pomoću logaritamske funkcije: In y \u003d In c + m * In x + In E.

Višestruko i nelinearno

Dva složenija tipa regresije su višestruka i nelinearna. Jednadžba višestruke regresije izražena je funkcijom y \u003d f (x 1, x 2 ... x c) + E. U ovoj situaciji, y je zavisna varijabla, a x je eksplanatorna varijabla. Varijabla E je stohastička i uključuje utjecaj drugih faktora u jednadžbi. Jednadžba nelinearne regresije je malo nedosljedna. S jedne strane, s obzirom na pokazatelje koji se uzimaju u obzir, on nije linearan, as druge strane, u ulozi ocjene pokazatelja, on je linearan.

Inverzna i parna regresija

Inverz je vrsta funkcije koju je potrebno pretvoriti u linearni oblik. U najtradicionalnijim aplikacijskim programima ima oblik funkcije y \u003d 1 / c + m * x + E. Uparena regresijska jednadžba pokazuje odnos između podataka kao funkcije y = f(x) + E. Kao i druge jednadžbe, y ovisi o x, a E je stohastički parametar.

Pojam korelacije

Ovo je pokazatelj koji pokazuje postojanje veze između dvije pojave ili procesa. Snaga veze izražava se koeficijentom korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan pokazatelj ukazuje na prisutnost povratne informacije, pozitivan pokazatelj na izravnu. Ako koeficijent ima vrijednost jednaku 0, tada nema veze. Što je vrijednost bliža 1 - odnos između parametara je jači, što je bliži 0 - to je slabiji.

Metode

Korelacijske parametarske metode mogu procijeniti čvrstoću odnosa. Koriste se na temelju procjena distribucije za proučavanje parametara koji se pokoravaju normalnom zakonu distribucije.

Parametri linearne regresijske jednadžbe potrebni su za prepoznavanje vrste ovisnosti, funkcije regresijske jednadžbe i procjenu pokazatelja odabrane formule odnosa. Polje korelacije koristi se kao metoda za identificiranje odnosa. Da biste to učinili, svi postojeći podaci moraju biti predstavljeni grafički. U pravokutnom dvodimenzionalnom koordinatnom sustavu moraju se iscrtati svi poznati podaci. Tako nastaje korelacijsko polje. Na apscisi je označena vrijednost faktora koji opisuje, a na ordinati vrijednosti zavisnog faktora. Ako postoji funkcionalni odnos između parametara, oni se nižu u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunoj odsutnosti veze. Ako je između 30% i 70%, to ukazuje na prisutnost karika srednje čvrstoće. Indikator od 100% je dokaz funkcionalne veze.

Jednadžba nelinearne regresije, kao i linearna, mora biti dopunjena korelacijskim indeksom (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o tijesnosti odnosa prikazanog skupa indikatora sa svojstvom koje se proučava. Također se može govoriti o prirodi utjecaja parametara na rezultat. Pomoću ovog pokazatelja procjenjuje se jednadžba višestruke regresije.

Da bi se izračunao indeks višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način procjene faktora regresije. Njegova bit leži u minimiziranju zbroja kvadratnih odstupanja dobivenih ovisnošću faktora o funkciji.

Jednadžba uparene linearne regresije može se procijeniti pomoću takve metode. Ova vrsta jednadžbi koristi se u slučaju otkrivanja uparenog linearnog odnosa između pokazatelja.

Opcije jednadžbe

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena linearna regresijska jednadžba sadrži dva parametra: c i m. Parametar t pokazuje prosječnu promjenu konačnog pokazatelja funkcije y, ovisno o smanjenju (povećanju) varijable x za jednu konvencionalnu jedinicu. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, tada faktor c nema ekonomskog smisla. Jedini utjecaj na funkciju ima predznak ispred faktora c. Ako postoji minus, onda možemo govoriti o sporoj promjeni rezultata u odnosu na faktor. Ako postoji plus, to znači ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost regresijske jednadžbe može se izraziti u obliku jednadžbe. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje takvi uvjeti zadatka u kojima su sve informacije grupirane prema atributu x, ali su istodobno za određenu skupinu naznačene odgovarajuće prosječne vrijednosti ovisnog pokazatelja. U ovom slučaju, prosječne vrijednosti karakteriziraju kako indikator ovisi o x. Dakle, grupirane informacije pomažu pronaći regresijsku jednadžbu. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosjeci su često podložni vanjskim fluktuacijama. Te fluktuacije nisu odraz obrazaca odnosa, one samo prikrivaju njegovu "buku". Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem veličine određene populacije s odgovarajućim prosjekom, možete dobiti zbroj y unutar grupe. Zatim morate izbaciti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže raditi izračune s indikatorom zbroja xy. U slučaju da su intervali mali, pokazatelj x možemo uvjetno uzeti za sve jedinice (unutar grupe) isti. Pomnožite ga sa zbrojem y da biste pronašli zbroj umnožaka x i y. Nadalje, svi se zbrojevi zbrajaju i dobiva se ukupni zbroj xy.

Regresija jednadžbe s više parova: Procjena važnosti odnosa

Kao što je ranije objašnjeno, višestruka regresija ima funkciju oblika y \u003d f (x 1, x 2, ..., x m) + E. Najčešće se takva jednadžba koristi za rješavanje problema ponude i potražnje dobara, prihoda od kamata na otkupljene dionice, proučavanje uzroka i vrste funkcije troškova proizvodnje. Također se aktivno koristi u raznim makroekonomskim studijama i izračunima, ali na razini mikroekonomije ova se jednadžba koristi nešto rjeđe.

Glavni zadatak višestruke regresije je izgraditi podatkovni model koji sadrži ogromnu količinu informacija kako bi se dalje odredilo kakav učinak ima svaki od čimbenika pojedinačno iu svojoj ukupnosti na pokazatelj koji se modelira i njegove koeficijente. Regresijska jednadžba može poprimiti različite vrijednosti. U tom se slučaju obično koriste dvije vrste funkcija za procjenu odnosa: linearne i nelinearne.

Linearna funkcija prikazana je u obliku takvog odnosa: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. U ovom slučaju a2, a m se smatraju koeficijentima "čiste" regresije. Oni su potrebni za karakterizaciju prosječne promjene parametra y s promjenom (smanjenje ili povećanje) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilne vrijednosti ostalih pokazatelja.

Nelinearne jednadžbe imaju npr. oblik funkcije potencije y=ax 1 b1 x 2 b2 ...x m bm . U ovom slučaju, pokazatelji b 1, b 2 ..... b m - nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg pokazatelja x za 1% a uz stabilan pokazatelj ostalih faktora.

Koje čimbenike treba uzeti u obzir pri izradi višestruke regresije

Kako bi se ispravno konstruirala višestruka regresija, potrebno je otkriti na koje čimbenike treba obratiti posebnu pozornost.

Potrebno je imati određeno razumijevanje prirode odnosa između ekonomskih čimbenika i modeliranog. Čimbenici koji se uključuju moraju ispunjavati sljedeće kriterije:

  • Mora biti mjerljivo. Da bi se koristio faktor koji opisuje kvalitetu predmeta, u svakom slučaju, treba mu dati kvantitativni oblik.
  • Ne bi trebalo postojati međukorelacija faktora ili funkcionalni odnos. Takve radnje najčešće dovode do nepovratnih posljedica - sustav običnih jednadžbi postaje bezuvjetan, a to povlači njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacijskog pokazatelja, ne postoji način da se otkrije izolirani utjecaj čimbenika na konačni rezultat pokazatelja, stoga koeficijenti postaju netumačivi.

Metode konstrukcije

Postoji ogroman broj metoda i načina da se objasni kako možete odabrati faktore za jednadžbu. Međutim, sve te metode temelje se na izboru koeficijenata pomoću indeksa korelacije. Među njima su:

  • Metoda isključenja.
  • Uključi metodu.
  • Postupna regresijska analiza.

Prva metoda uključuje izdvajanje svih koeficijenata iz agregatnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno primijenjeni na jednadžbu. Svaka od ovih metoda ima pravo postojati. Imaju svoje prednosti i nedostatke, ali problem uklanjanja nepotrebnih pokazatelja mogu riješiti na svoj način. U pravilu su rezultati dobiveni svakom pojedinačnom metodom prilično bliski.

Metode multivarijatne analize

Takve metode određivanja faktora temelje se na razmatranju pojedinačnih kombinacija međusobno povezanih obilježja. To uključuje diskriminantnu analizu, prepoznavanje uzoraka, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, no ona se pojavila kao rezultat razvoja metode komponenata. Svi se oni primjenjuju u određenim okolnostima, pod određenim uvjetima i čimbenicima.

Suvremena politička znanost polazi od stava o odnosu svih pojava i procesa u društvu. Nemoguće je razumjeti događaje i procese, predviđati i upravljati pojavama političkog života bez proučavanja veza i ovisnosti koje postoje u političkoj sferi društva. Jedan od najčešćih zadataka istraživanja politike je proučavanje odnosa između nekih vidljivih varijabli. Cijela klasa statističkih metoda analize, objedinjena zajedničkim nazivom "regresijska analiza" (ili, kako se još naziva, "korelacijsko-regresijska analiza"), pomaže riješiti ovaj problem. Međutim, ako korelacijska analiza omogućuje procjenu jačine odnosa između dviju varijabli, tada je pomoću regresijske analize moguće odrediti vrstu tog odnosa, predvidjeti ovisnost vrijednosti bilo koje varijable o vrijednosti druge varijable. .

Prvo, sjetimo se što je korelacija. Korelativna naziva se najvažniji poseban slučaj statističkog odnosa, koji se sastoji u činjenici da jednake vrijednosti jedne varijable odgovaraju različitim prosječne vrijednosti još. S promjenom vrijednosti atributa x prirodno se mijenja prosječna vrijednost atributa y, dok se u svakom pojedinačnom slučaju vrijednost atributa na(s različitim vjerojatnostima) može poprimiti mnogo različitih vrijednosti.

Pojava pojma “korelacija” u statistici (a politička znanost za rješavanje svojih problema privlači dostignuće statistike, koja je, dakle, disciplina srodna političkoj znanosti) povezuje se s imenom engleskog biologa i statističara Francisa Galtona, koji je predložio u 19. stoljeću. teorijske osnove korelacijsko-regresijske analize. Pojam "korelacija" u znanosti je bio poznat i prije. Konkretno, u paleontologiji još u 18.st. primijenio ga je francuski znanstvenik Georges Cuvier. Uveo je takozvani korelacijski zakon, uz pomoć kojeg je, prema ostacima životinja pronađenim tijekom iskapanja, bilo moguće vratiti njihov izgled.

Uz ime ovog znanstvenika i njegov zakon korelacije veže se poznata priča. Tako su u dane sveučilišnog praznika studenti koji su se odlučili našaliti s poznatim profesorom na jednog studenta navukli kozju kožu s rogovima i papcima. Popeo se na prozor Cuvierove spavaće sobe i povikao: "Pojest ću te." Profesor se probudio, pogledao siluetu i odgovorio: „Ako imaš rogove i kopita, onda si biljojed i ne možeš me pojesti. A za nepoznavanje zakona korelacije dobit ćete dvojku. Okrenuo se i zaspao. Šala je šala, ali u ovom primjeru vidimo poseban slučaj primjene višestruke korelacijsko-regresijske analize. Ovdje je profesor na temelju poznavanja vrijednosti dva promatrana svojstva (prisutnost rogova i kopita), na temelju zakona korelacije, izveo prosječnu vrijednost trećeg svojstva (razreda kojem ova životinja pripada je biljožder). U ovom slučaju ne govorimo o specifičnoj vrijednosti ove varijable (tj. ova životinja može poprimiti različite vrijednosti na nominalnoj ljestvici - može biti jarac, ovan ili bik...).

Sada prijeđimo na pojam "regresija". Strogo govoreći, to nije povezano sa značenjem onih statističkih problema koji se rješavaju ovom metodom. Objašnjenje pojma moguće je dati samo na temelju poznavanja povijesti razvoja metoda za proučavanje odnosa među značajkama. Jedan od prvih primjera istraživanja ove vrste bio je rad statističara F. Galtona i K. Pearsona, koji su pokušali pronaći obrazac između rasta očeva i njihove djece prema dva vidljiva znaka (gdje X- očeva visina i U- dječji rast). U svojoj studiji potvrdili su početnu hipotezu da u prosjeku visoki očevi odgajaju prosječno visoku djecu. Isti princip vrijedi i za niske očeve i djecu. No, da su znanstvenici tu stali, njihovi radovi nikada ne bi bili spomenuti u udžbenicima statistike. Istraživači su pronašli još jedan obrazac unutar već spomenute potvrđene hipoteze. Dokazali su da vrlo visoki očevi rađaju djecu koja su u prosjeku visoka, ali se po visini ne razlikuju mnogo od djece čiji se očevi, iako iznad prosjeka, ne razlikuju puno od prosječne visine. Isto vrijedi i za očeve vrlo niskog rasta (što odstupa od prosjeka niske skupine) – njihova se djeca u prosjeku nisu razlikovala visinom od vršnjaka čiji su očevi jednostavno bili niski. Nazvali su funkciju koja opisuje tu pravilnost regresijska funkcija. Nakon ovog istraživanja sve jednadžbe koje opisuju slične funkcije i konstruirane na sličan način počinju se nazivati ​​regresijskim jednadžbama.

Regresijska analiza jedna je od metoda multivarijantne statističke analize podataka, koja kombinira skup statističkih tehnika dizajniranih za proučavanje ili modeliranje odnosa između jedne zavisne i nekoliko (ili jedne) neovisne varijable. Zavisna varijabla, prema tradiciji prihvaćenoj u statistici, naziva se odgovor i označava se kao V Neovisne varijable nazivaju se prediktori i označavaju se kao x. Tijekom analize, neke varijable će biti slabo povezane s odgovorom i na kraju će biti isključene iz analize. Preostale varijable povezane s ovisnom također se mogu nazvati faktorima.

Regresijska analiza omogućuje predviđanje vrijednosti jedne ili više varijabli ovisno o drugoj varijabli (primjerice, sklonost nekonvencionalnom političkom ponašanju ovisno o stupnju obrazovanja) ili više varijabli. Izračunava se na računalu. Za sastavljanje regresijske jednadžbe koja vam omogućuje mjerenje stupnja ovisnosti kontrolirane značajke o faktorima, potrebno je uključiti profesionalne matematičare-programere. Regresijska analiza može pružiti neprocjenjivu uslugu u izgradnji prediktivnih modela za razvoj političke situacije, procjeni uzroka društvenih napetosti iu provođenju teorijskih eksperimenata. Regresijska analiza se aktivno koristi za proučavanje utjecaja na izborno ponašanje građana brojnih sociodemografskih parametara: spola, dobi, profesije, mjesta stanovanja, nacionalnosti, razine i prirode prihoda.

U odnosu na regresijsku analizu, pojmovi nezavisna i ovisan varijable. Neovisna varijabla je varijabla koja objašnjava ili uzrokuje promjenu druge varijable. Zavisna varijabla je varijabla čija se vrijednost objašnjava utjecajem prve varijable. Primjerice, na predsjedničkim izborima 2004. odlučujući čimbenici, t.j. nezavisne varijable bili su pokazatelji kao što su stabilizacija financijske situacije stanovništva zemlje, razina popularnosti kandidata i faktor dužnost. U ovom slučaju, postotak glasova danih kandidatima može se smatrati ovisnom varijablom. Slično, u paru varijabli “dob birača” i “razina izborne aktivnosti” prva je nezavisna, a druga zavisna.

Regresijska analiza omogućuje rješavanje sljedećih problema:

  • 1) utvrditi samu činjenicu prisutnosti ili odsutnosti statistički značajne veze između Ci x;
  • 2) izgraditi najbolje (u statističkom smislu) procjene regresijske funkcije;
  • 3) prema zadanim vrijednostima x izgraditi predviđanje za nepoznato Na
  • 4) ocijeniti specifičnu težinu utjecaja svakog čimbenika x na Na i, sukladno tome, isključiti beznačajne značajke iz modela;
  • 5) identificiranjem uzročno-posljedičnih veza između varijabli, djelomično upravljati vrijednostima P prilagođavanjem vrijednosti eksplanatornih varijabli x.

Regresijska analiza povezana je s potrebom odabira međusobno neovisnih varijabli koje utječu na vrijednost proučavanog pokazatelja, određivanje oblika regresijske jednadžbe i vrednovanje parametara pomoću statističkih metoda obrade primarnih socioloških podataka. Ova vrsta analize temelji se na ideji o obliku, smjeru i bliskosti (gustoći) odnosa. razlikovati sauna i višestruka regresija ovisno o broju proučavanih obilježja. U praksi se regresijska analiza obično provodi zajedno s korelacijskom analizom. Regresijska jednadžba opisuje numerički odnos između veličina, izražen kao tendencija povećanja ili smanjenja jedne varijable dok se druga povećava ili smanjuje. Istodobno, razl i h a jut l mraz i nelinearna regresija. U opisivanju političkih procesa podjednako se sreću obje varijante regresije.

Dijagram raspršenosti za distribuciju međuovisnosti interesa za političke članke ( U) i obrazovanje ispitanika (X) je linearna regresija (slika 30).

Riža. trideset.

Dijagram raspršenosti za distribuciju razine izborne aktivnosti ( U) a dob ispitanika (A) (uvjetni primjer) je nelinearna regresija (slika 31).


Riža. 31.

Za opisivanje odnosa dviju značajki (A "i Y) u uparenom regresijskom modelu koristi se linearna jednadžba

gdje je a slučajna vrijednost pogreške jednadžbe s varijacijom značajki, tj. odstupanje jednadžbe od "linearnosti".

Za procjenu koeficijenata a i b koristiti metodu najmanjih kvadrata, koja pretpostavlja da bi zbroj kvadrata odstupanja svake točke na dijagramu raspršenja od regresijske linije trebao biti minimalan. Izgledi a h b može se izračunati pomoću sustava jednadžbi:

Metoda najmanjeg kvadrata daje takve procjene koeficijenata a i b, za koju pravac prolazi točkom s koordinatama x i y, oni. postoji odnos na = sjekira + b. Grafički prikaz regresijske jednadžbe naziva se teorijska regresijska linija. S linearnom ovisnošću, koeficijent regresije predstavlja na grafu tangens nagiba teorijske regresijske linije na x-os. Predznak kod koeficijenta pokazuje smjer odnosa. Ako je veći od nule, tada je odnos direktan, a ako je manji, obrnut je.

Sljedeći primjer iz studije "Politički Petersburg-2006" (Tablica 56) pokazuje linearan odnos između percepcije građana o stupnju zadovoljstva svojim životom u sadašnjosti i očekivanja promjena u kvaliteti života u budućnosti. Povezanost je izravna, linearna (standardizirani regresijski koeficijent je 0,233, razina značajnosti je 0,000). U ovom slučaju regresijski koeficijent nije visok, ali prelazi donju granicu statistički značajnog pokazatelja (donju granicu kvadrata statistički značajnog pokazatelja Pearsonovog koeficijenta).

Tablica 56

Utjecaj kvalitete života građana u sadašnjosti na očekivanja

(Sankt Peterburg, 2006.)

* Zavisna varijabla: "Što mislite kako će se vaš život promijeniti u sljedeće 2-3 godine?"

U političkom životu vrijednost varijable koja se proučava najčešće istodobno ovisi o nekoliko obilježja. Na primjer, na razinu i prirodu političke aktivnosti istodobno utječu politički režim države, političke tradicije, osobitosti političkog ponašanja ljudi na određenom području te društvena mikroskupina ispitanika, njegova dob, obrazovanje, prihodi razini, političkoj orijentaciji itd. U ovom slučaju morate koristiti jednadžbu višestruka regresija, koji ima sljedeći oblik:

gdje je koeficijent b.- parcijalni koeficijent regresije. Prikazuje doprinos svake nezavisne varijable određivanju vrijednosti nezavisne (ishodne) varijable. Ako je parcijalni regresijski koeficijent blizu 0, tada možemo zaključiti da ne postoji izravna veza između neovisnih i zavisnih varijabli.

Izračun takvog modela može se izvesti na osobnom računalu pomoću matrične algebre. Višestruka regresija omogućuje odraz višefaktorske prirode društvenih veza i razjašnjavanje mjere utjecaja svakog čimbenika pojedinačno i svih zajedno na rezultirajuću osobinu.

Označen koeficijent b, naziva se koeficijent linearne regresije i pokazuje snagu odnosa između varijacije atributa faktora x i varijacije efektivne značajke Y Ovaj koeficijent mjeri snagu odnosa u apsolutnim mjernim jedinicama obilježja. Međutim, bliskost korelacije obilježja može se izraziti i standardnom devijacijom rezultirajućeg obilježja (takav koeficijent naziva se koeficijent korelacije). Za razliku od koeficijenta regresije b koeficijent korelacije ne ovisi o prihvaćenim mjernim jedinicama obilježja, pa je stoga usporediv za bilo koje obilježje. Obično se veza smatra jakom ako je /> 0,7, srednja nepropusnost - na 0,5 g 0,5.

Kao što znate, najbliža veza je funkcionalna veza, kada svaki individualna vrijednost Y može se jedinstveno dodijeliti vrijednosti x. Dakle, što je korelacijski koeficijent bliži 1, to je odnos bliži funkcionalnom. Razina značajnosti za regresijsku analizu ne smije prelaziti 0,001.

Koeficijent korelacije dugo se smatrao glavnim pokazateljem bliskosti odnosa značajki. Međutim, kasnije je koeficijent determinacije postao takav pokazatelj. Značenje ovog koeficijenta je sljedeće - on odražava udio ukupne varijance rezultirajuće značajke Na, objašnjeno varijacijom značajke x. Nalazi se jednostavnim kvadriranjem koeficijenta korelacije (mijenjanjem od 0 do 1) i zauzvrat, za linearni odnos odražava udio od 0 (0%) do 1 (100%) karakteristične vrijednosti Y, određena vrijednostima atributa x. Bilježi se kao ja 2, a u dobivenim tablicama regresijske analize u paketu SPSS – bez kvadrata.

Označimo glavne probleme konstruiranja jednadžbe višestruke regresije.

  • 1. Izbor faktora uključenih u regresijsku jednadžbu. U ovoj fazi istraživač prvo sastavlja opći popis glavnih uzroka koji, prema teoriji, određuju fenomen koji se proučava. Zatim mora odabrati značajke u regresijskoj jednadžbi. Glavno pravilo odabira je da čimbenici uključeni u analizu trebaju što je manje moguće međusobno korelirati; samo u ovom slučaju moguće je određenom čimbeniku-atributu pripisati kvantitativnu mjeru utjecaja.
  • 2. Odabir oblika jednadžbe višestruke regresije(u praksi se češće koristi linearni ili linearno-logaritamski). Dakle, da bi koristio višestruku regresiju, istraživač prvo mora izgraditi hipotetski model utjecaja nekoliko neovisnih varijabli na rezultirajuću. Da bi dobiveni rezultati bili pouzdani, potrebno je da model točno odgovara stvarnom procesu, tj. odnos između varijabli mora biti linearan, niti jedna značajna nezavisna varijabla se ne može zanemariti, kao što se niti jedna varijabla koja nije izravno povezana s procesom koji se proučava ne može uključiti u analizu. Osim toga, sva mjerenja varijabli moraju biti izuzetno točna.

Iz gornjeg opisa proizlazi niz uvjeta za primjenu ove metode bez kojih je nemoguće pristupiti postupku višestruke regresijske analize (MRA). Samo usklađenost sa svim sljedećim točkama omogućuje vam ispravno provođenje regresijske analize.