Koja je korelacija. Korelacijska analiza. Korištenje softvera u korelacijskoj analizi

Pearsonov korelacijski test je parametarska statistička metoda koja vam omogućuje određivanje prisutnosti ili odsutnosti linearnog odnosa između dva kvantitativna pokazatelja, kao i procjenu njegove bliskosti i statističke značajnosti. Drugim riječima, Pearsonov test korelacije omogućuje vam da odredite postoji li linearni odnos između promjena u vrijednostima dviju varijabli. U statističkim proračunima i zaključcima koeficijent korelacije obično se označava kao rxy ili Rxy.

1. Povijest razvoja kriterija korelacije

Pearsonov test korelacije razvio je tim britanskih znanstvenika na čelu s Karl Pearson(1857.-1936.) 90-ih godina 19. stoljeća, kako bi se pojednostavila analiza kovarijance dviju slučajnih varijabli. Osim Karla Pearsona, rađen je i Pearsonov korelacijski test Francis Edgeworth i Raphael Weldon.

2. Za što se koristi Pearsonov korelacijski test?

Pearsonov kriterij korelacije omogućuje vam da odredite kolika je bliskost (ili snaga) korelacije između dva pokazatelja mjerena na kvantitativnoj ljestvici. Uz pomoć dodatnih izračuna također možete utvrditi koliko je identificirani odnos statistički značajan.

Na primjer, korištenjem Pearsonovog korelacijskog kriterija može se odgovoriti na pitanje postoji li veza između tjelesne temperature i sadržaja leukocita u krvi kod akutnih respiratornih infekcija, između visine i težine bolesnika, između sadržaja u piti vodu fluora i učestalost karijesa u populaciji.

3. Uvjeti i ograničenja za korištenje Pearsonovog hi-kvadrat testa

  1. Usporedne pokazatelje treba mjeriti u kvantitativna ljestvica(na primjer, broj otkucaja srca, tjelesna temperatura, broj leukocita u 1 ml krvi, sistolički krvni tlak).
  2. Pomoću Pearsonovog korelacijskog kriterija moguće je odrediti samo prisutnost i snaga linearnog odnosa između količina. Druge karakteristike odnosa, uključujući smjer (izravan ili obrnut), prirodu promjena (pravocrtne ili krivocrtne), kao i ovisnost jedne varijable o drugoj, određuju se pomoću regresijske analize.
  3. Broj vrijednosti koje se uspoređuju mora biti jednak dvama. U slučaju analize odnosa tri ili više parametara, trebali biste koristiti metodu faktorska analiza.
  4. Pearsonov kriterij korelacije je parametarski, u vezi s čim je uvjet za njegovu primjenu normalna distribucija usklađene varijable. Ako je potrebno provesti korelacijsku analizu pokazatelja čija distribucija odstupa od normalne, uključujući i one mjerene na ordinalnoj ljestvici, potrebno je koristiti Spearmanov koeficijent korelacije ranga.
  5. Potrebno je jasno razlikovati pojmove ovisnosti i korelacije. Ovisnost vrijednosti određuje prisutnost korelacije između njih, ali ne obrnuto.

Na primjer, rast djeteta ovisi o njegovoj dobi, odnosno o čemu starije dijete, to je viši. Ako uzmemo dvoje djece različite dobi, tada će s velikom vjerojatnošću rast starijeg djeteta biti veći od rasta mlađeg. Ova pojava se zove ovisnost, što podrazumijeva uzročnu vezu između pokazatelja. Naravno, ima i njih poveznica, što znači da promjene jednog pokazatelja prate promjene drugog pokazatelja.

U drugoj situaciji, razmotrite odnos između rasta djeteta i brzine otkucaja srca (HR). Kao što znate, obje ove vrijednosti izravno ovise o dobi, stoga će u većini slučajeva djeca većeg rasta (a time i starija) imati niže vrijednosti otkucaja srca. To je, poveznicaće se promatrati i može imati dovoljno visoku nepropusnost. Međutim, ako uzmemo djecu iste dobi, ali različite visine, tada će se najvjerojatnije njihov broj otkucaja srca neznatno razlikovati, s tim u vezi možemo zaključiti da neovisnost Otkucaji srca od rasta.

Gornji primjer pokazuje koliko je važno razlikovati koncepte koji su temeljni u statistici veze i ovisnosti pokazatelji za izvođenje točnih zaključaka.

4. Kako izračunati Pearsonov koeficijent korelacije?

Pearsonov koeficijent korelacije izračunava se pomoću sljedeće formule:

5. Kako interpretirati vrijednost Pearsonovog koeficijenta korelacije?

Vrijednosti Pearsonovog koeficijenta korelacije tumače se na temelju njegovih apsolutnih vrijednosti. Moguće vrijednosti korelacijskog koeficijenta variraju od 0 do ±1. Što je veća apsolutna vrijednost r xy, veća je bliskost odnosa između dviju veličina. r xy = 0 označava potpuni nedostatak veze. r xy = 1 - označava prisutnost apsolutne (funkcionalne) veze. Ako se vrijednost Pearsonovog kriterija korelacije pokazala većom od 1 ili manjom od -1, došlo je do pogreške u izračunima.

Za procjenu bliskosti, odnosno snage korelacije koriste se općeprihvaćeni kriteriji prema kojima se apsolutne vrijednosti r xy< 0.3 свидетельствуют о slab veza, r xy vrijednosti od 0,3 do 0,7 - o vezi sredini nepropusnost, r xy vrijednosti> 0,7 - o snažna veze.

Točnija procjena snage korelacije može se dobiti korištenjem Chaddock stol:

Razred statistička značajnost koeficijent korelacije r xy provodi se pomoću t-testa, izračunatog sljedećom formulom:

Dobivena vrijednost t r uspoređuje se s kritičnom vrijednošću pri određenoj razini značajnosti i broju stupnjeva slobode n-2. Ako t r prelazi t crit, tada se donosi zaključak o statističkoj značajnosti utvrđene korelacije.

6. Primjer izračuna Pearsonovog koeficijenta korelacije

Cilj istraživanja bio je identificirati, utvrditi čvrstoću i statističku značajnost korelacije između dva kvantitativna pokazatelja: razine testosterona u krvi (X) i postotka mišićne mase u tijelu (Y). Početni podaci za uzorak od 5 ispitanika (n = 5) sažeti su u tablici.

Uz korelaciju ista vrijednost jednog atributa odgovara različitim vrijednostima drugog. Na primjer: postoji korelacija između visine i težine, između učestalosti zloćudnih novotvorina i dobi itd.

Postoje 2 metode za izračunavanje koeficijenta korelacije: metoda kvadrata (Pearson), metoda rangova (Spearman).

Najtočnija je metoda kvadrata (Pearson), u kojoj se koeficijent korelacije određuje formulom: , gdje je

r xy je koeficijent korelacije između statističkih serija X i Y.

d x je odstupanje svakog od brojeva statističke serije X iz njegove aritmetičke sredine.

d y je odstupanje svakog od brojeva statističke serije Y od njegove aritmetičke sredine.

Ovisno o jačini veze i njenom smjeru, koeficijent korelacije može biti u rasponu od 0 do 1 (-1). Koeficijent korelacije 0 označava potpuni nedostatak veze. Što je razina korelacijskog koeficijenta bliža 1 ili (-1), to je veća, odnosno bliža izravna ili povratna veza mjerena njime. S koeficijentom korelacije jednakim 1 ili (-1), veza je potpuna, funkcionalna.

Shema za procjenu jakosti korelacije pomoću koeficijenta korelacije

Snaga veze

Vrijednost koeficijenta korelacije, ako je dostupan

izravna veza (+)

Povratne informacije (-)

Nema veze

Komunikacija je mala (slaba)

od 0 do +0,29

0 do -0,29

Prosječna komunikacija (umjereno)

+0,3 do +0,69

-0,3 do -0,69

Komunikacija velika (jaka)

+0,7 do +0,99

-0,7 do -0,99

Komunikacija je završena

(funkcionalno)

Za izračun koeficijenta korelacije metodom kvadrata sastavlja se tablica od 7 stupaca. Analizirajmo postupak izračuna koristeći primjer:

ODREDITE SNAGU I PRIRODU ODNOSA IZMEĐU

Vrijeme je-

nost

gušavost

(V g )

d x= V xM x

d y= V gM g

d x d g

d x 2

d g 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Odrediti prosječni sadržaj joda u vodi (u mg/l).

mg/l

2. Odredite prosječnu incidenciju gušavosti u %.

3. Odredite odstupanje svakog V x od M x, tj. d x .

201–138=63; 178–138=40 itd.

4. Slično, određujemo odstupanje svakog V y od M y, t.j. d

0,2–3,8=-3,6; 0,6–38=-3,2 itd.

5. Određujemo produkte odstupanja. Dobiveni proizvod se zbroji i dobije.

6. Kvadriramo d x i sumiramo rezultate, dobivamo.

7. Slično, kvadriramo d y, sažimamo rezultate, dobivamo

8. Na kraju, zamijenimo sve primljene iznose u formulu:

Da bi se riješio problem pouzdanosti koeficijenta korelacije, njegova prosječna pogreška određena je formulom:

(Ako je broj opažanja manji od 30, tada je nazivnik n-1).

U našem primjeru

Vrijednost koeficijenta korelacije smatra se pouzdanom ako je najmanje 3 puta veća od svoje srednje pogreške.

U našem primjeru

Dakle, koeficijent korelacije nije pouzdan, zbog čega je potrebno povećati broj promatranja.

Koeficijent korelacije može se odrediti na nešto manje točan, ali puno lakši način, metodom rangiranja (Spearman).

Spearmanova metoda: P=1-(6∑d 2 /n-(n 2 -1))

napravite dva reda uparenih uspoređivanih obilježja, označavajući prvi i drugi red, redom, x i y. Istovremeno predstavite prvi redak atributa u silaznom ili rastućem redoslijedu, a brojčane vrijednosti drugog retka postavite nasuprot onih vrijednosti prvog retka kojima odgovaraju

vrijednost obilježja u svakom od uspoređivanih redaka treba zamijeniti rednim brojem (rangom). Rangovi, odnosno brojevi, označavaju mjesta pokazatelja (vrijednosti) prvog i drugog reda. Istovremeno, rangove treba dodijeliti numeričkim vrijednostima druge značajke istim redoslijedom koji je usvojen pri raspodjeli njihovih vrijednosti na vrijednosti prve značajke. Uz iste vrijednosti atributa u seriji, rangove treba odrediti kao prosječni broj iz zbroja rednih brojeva ovih vrijednosti

odredite razliku u rangovima između x i y (d): d = x - y

kvadrirajte dobivenu rang razliku (d 2)

dobiti zbroj kvadrata razlike (Σ d 2) i zamijeniti dobivene vrijednosti u formulu:

Primjer: metodom rangiranja utvrditi smjer i jačinu odnosa između radnog staža u godinama i učestalosti ozljeda, ako se dobiju sljedeći podaci:

Obrazloženje za izbor metode: za rješavanje problema može se odabrati samo metoda korelacije ranga, jer prvi redak atributa "radno iskustvo u godinama" ima otvorene opcije (radno iskustvo do 1 godine i 7 i više godina), što ne dopušta korištenje točnije metode - metode kvadrata - za utvrđivanje odnosa između uspoređivane karakteristike.

Riješenje. Redoslijed izračuna je opisan u tekstu, rezultati su prikazani u tablici. 2.

tablica 2

Radno iskustvo u godinama

Broj ozljeda

Redni brojevi (činovi)

Razlika u rangu

razlika u rangu na kvadrat

d(x-y)

d 2

Svaki od redova uparenih znakova označen je s "x" i s "y" (stupci 1-2).

Vrijednost svakog od znakova zamjenjuje se rang (rednim) brojem. Redoslijed raspodjele činova u nizu "x" je sljedeći: minimalnoj vrijednosti atributa (iskustvo do 1 godine) dodjeljuje se redni broj "1", sljedećim varijantama istog niza atributa, odnosno , po rastućem redoslijedu 2., 3., 4. i 5. rednog broja - rangova (vidi stupac 3). Sličan redoslijed se uočava kod raspodjele rangova prema drugom obilježju "y" (stupac 4). U slučajevima kada postoji više varijanti iste veličine (na primjer, u standardnom zadatku, to su 12 i 12 ozljeda na 100 radnika sa iskustvom od 3-4 godine i 5-6 godina), redni broj je označen sa prosječni broj iz zbroja njihovih rednih brojeva. Ovi podaci o broju ozljeda (12 ozljeda) u poretku bi trebali zauzeti 2. i 3. mjesto, tako da je njihov prosječni broj (2 + 3) / 2 = 2,5.) trebaju raspodijeliti iste rang brojeve - "2,5" (kolona 4).

Odredite razliku u rangovima d = (x - y) - (stupac 5)

Kvadriranje razlike u rangovima (d 2) i dobivanje zbroja kvadrata razlike u rangovima Σ d 2 (stupac 6).

Izračunajte koeficijent korelacije ranga pomoću formule:

gdje je n broj podudarnih parova opcija u retku "x" i retku "y"

Najvažniji cilj statistika je proučavanje objektivno postojećih odnosa među pojavama. Tijekom statistička studija tih odnosa, potrebno je utvrditi uzročno-posljedične veze između pokazatelja, tj. kako promjena nekih pokazatelja ovisi o promjeni drugih pokazatelja.

Postoje dvije kategorije ovisnosti (funkcionalne i korelacijske) i dvije skupine znakova (obilježja-faktori i efektivni znakovi). Za razliku od funkcionalnog odnosa, gdje postoji potpuna podudarnost faktorskih i rezultantnih obilježja, u korelacijskom odnosu takva potpuna podudarnost ne postoji.

poveznica- ovo je odnos gdje se utjecaj pojedinih čimbenika pojavljuje samo kao trend (u prosjeku) uz masovno promatranje stvarnih podataka. Primjeri korelacijske ovisnosti mogu biti ovisnost između veličine aktive banke i visine dobiti banke, rast produktivnosti rada i radni staž zaposlenih.

Najjednostavnija verzija korelacijske ovisnosti je parna korelacija, tj. ovisnost između dva predznaka (efektivnog i faktorijela ili između dva faktorijala). Matematički se ta ovisnost može izraziti kao ovisnost efektivnog pokazatelja y o faktorskom pokazatelju x. Veze mogu biti izravne i obrnute. U prvom slučaju, s porastom atributa x, raste i atribut y; s povratnom spregom, s porastom atributa x, atribut y opada.

Najvažniji zadatak je određivanje oblika veze uz naknadno izračunavanje parametara jednadžbe, odnosno pronalaženje jednadžbe veze ( regresijske jednadžbe).

Može ih biti raznih kontakt forme:

pravolinijski

krivolinijski u obliku: parabole drugog reda (ili višeg reda)

hiperbola

eksponencijalna funkcija itd.

Parametri za sve te jednadžbe sprezanja obično se određuju iz sustavi normalnih jednadžbi, koji mora zadovoljiti zahtjev metode najmanjih kvadrata (LSM):

Ako je odnos izražen parabolom drugog reda ( ), tada se sustav normalnih jednadžbi za pronalaženje parametara a0, a1, a2 (takva se veza naziva višestrukom, budući da podrazumijeva ovisnost više od dva faktora) može prikazati kao

Drugi veliki zadatak je dependance tightness mjerenje- za sve oblike komunikacije može se riješiti izračunavanjem empirijskog omjera korelacije:

gdje je - varijanca u nizu izjednačenih vrijednosti efektivnog pokazatelja;

Disperzija u nizu stvarnih vrijednosti y.

Za određivanje stupnja čvrstoće uparene linearne ovisnosti, koeficijent linearne korelacije r, koji se može izračunati pomoću, na primjer, sljedeće dvije formule:

Koeficijent linearne korelacije može poprimiti vrijednosti u rasponu od -1 do +1 ili modulo od 0 do 1. Što je bliži 1 u apsolutnoj vrijednosti, to je odnos bliži. Znak označava smjer veze: "+" - izravna ovisnost, "-" se odvija s obrnutom ovisnošću.

U statističkoj praksi mogu postojati slučajevi kada se kvalitete faktorskih i rezultantnih obilježja ne mogu numerički izraziti. Stoga je za mjerenje blizine ovisnosti potrebno koristiti druge pokazatelje. U tu svrhu koriste se tzv neparametarske metode.

Najrasprostranjeniji su koeficijenti korelacije ranga, koji se temelje na principu numeriranja vrijednosti statističke serije. Kada se koriste koeficijenti korelacije rangova, ne koreliraju se vrijednosti indikatora x i y, već samo brojevi njihovih mjesta koja oni zauzimaju u svakoj seriji vrijednosti. U ovom slučaju, broj svake pojedine jedinice bit će njezin rang.

Koeficijente korelacije temeljene na korištenju metode rangiranja predložili su K. Spearman i M. Kendall.

Spearmanov koeficijent korelacije ranga(p) temelji se na razmatranju razlike između rangova vrijednosti rezultantnih i faktorskih karakteristika i može se izračunati formulom

gdje je d = Nx - Ny, tj. razlika rangova svakog para x i y vrijednosti; n je broj opažanja.

Kendalov koeficijent korelacije ranga() može se odrediti formulom

gdje je S = P + Q.

Neparametarske metode istraživanja uključuju koeficijent asocijacije Cus i faktor kontingencije Kkon, koji se koriste ako je, na primjer, potrebno istražiti bliskost odnosa između kvalitativnih obilježja, od kojih je svako predstavljeno u obliku alternativnih obilježja.

Za određivanje ovih koeficijenata kreira se proračunska tablica (tablica “četiri polja”), gdje je statistički predikat shematski prikazan u sljedećem obliku:

znakovi

Ovdje su a, b, c, d učestalosti međusobne kombinacije (kombinacije) dva alternativna znaka; n- ukupni iznos frekvencije.

Koeficijent raspodjele proizvoda izračunava se formulom

Mora se imati na umu da je za iste podatke koeficijent kontingencije (varira od -1 do +1) uvijek manji od koeficijenta povezanosti.

Ako je potrebno procijeniti bliskost odnosa između alternativnih značajki koje mogu preuzeti bilo koji broj opcija vrijednosti, primijeniti Pearsonov međusobni koeficijent konjugacije(KP).

Za proučavanje ove vrste odnosa, primarne statističke informacije stavljaju se u obliku tablice:

znakovi

Ovdje su mij učestalosti međusobne kombinacije dvaju atributnih obilježja; P je broj parova opažanja.

Pearsonov međusobni koeficijent kontingencije određuje se formulom

gdje je srednji kvadratni indeks konjugacije:

Međusobni koeficijent kontingencije varira od 0 do 1.

Na kraju treba spomenuti Fechnerov koeficijent, koji karakterizira elementarni stupanj bliskosti veze, koji je preporučljivo koristiti za utvrđivanje činjenice postojanja veze kada postoji mala količina početnih informacija. Ovaj koeficijent se određuje formulom

gdje je na broj podudarnosti znakova odstupanja pojedinačnih vrijednosti od njihove aritmetičke sredine; nb - odnosno broj neusklađenosti.

Fechnerov koeficijent može varirati unutar -1,0 Kf +1,0.

Formula koeficijenta korelacije

U procesu ekonomska aktivnostčovjek se postupno formirao cijeli razred zadatke za prepoznavanje različitih statističkih obrazaca.

Trebalo je ocijeniti stupanj determiniranosti jednih procesa drugima, bilo je potrebno utvrditi čvrstoću međuovisnosti između različitih procesa i varijabli.
Korelacija je međusobni odnos varijabli.

Za procjenu čvrstoće ovisnosti uveden je koeficijent korelacije.

Fizičko značenje koeficijenta korelacije

hrskav fizičko značenje koeficijent korelacije ima, ako su statistički parametri nezavisnih varijabli podložni normalnoj distribuciji, takva distribucija grafički predstavlja Gaussovu krivulju. A odnos je linearan.

Koeficijent korelacije pokazuje kako je jedan proces određen drugim. Oni. kada se jedan proces mijenja, koliko se često mijenja i zavisni proces. Uopće se ne mijenja – nema ovisnosti, mijenja se odmah svaki put – potpuna ovisnost.

Koeficijent korelacije može poprimiti vrijednosti u rasponu [-1:1]

Nulta vrijednost koeficijenta znači da ne postoji povezanost između razmatranih varijabli.
Ekstremne vrijednosti raspona znače potpunu ovisnost između varijabli.

Ako je vrijednost koeficijenta pozitivna, tada je ovisnost izravna.

S negativnim koeficijentom - suprotno. Oni. u prvom slučaju, kada se mijenja argument, funkcija se mijenja proporcionalno, u drugom slučaju, obrnuto.
Kada je vrijednost koeficijenta korelacije u sredini raspona, tj. od 0 do 1, ili od -1 do 0, označavaju nepotpun funkcionalni odnos.
Što je vrijednost koeficijenta bliža ekstremnim pokazateljima, to je veći odnos između varijabli odn. slučajne varijable. Što je vrijednost bliža 0, to je manja međuovisnost.
Obično koeficijent korelacije ima srednje vrijednosti.

Koeficijent korelacije je nemjerljiva veličina

Koeficijent korelacije koristi se u statistici, u korelacijskoj analizi, za testiranje statističkih hipoteza.

Iznoseći neku statističku hipotezu o ovisnosti jedne slučajne varijable o drugoj, izračunava se koeficijent korelacije. Po njemu se može prosuditi - postoji li odnos količina i kolika je gustoća.

Stvar je u tome što ne možete uvijek vidjeti vezu. Često vrijednosti nisu izravno povezane jedna s drugom, već ovise o mnogim čimbenicima. Međutim, može se pokazati da su slučajne varijable međusobno ovisne kroz skup posredovanih veza. Naravno, to ne mora značiti njihovu izravnu povezanost, pa, primjerice, nestankom posrednika može nestati i ovisnost.

Svrha korelacijske analize je identificirati procjenu jačine veze između slučajnih varijabli (značajki) koja karakterizira neki stvarni proces.
Problemi korelacijske analize:
a) Mjerenje stupnja povezanosti (čvrstoće, jakosti, ozbiljnosti, intenziteta) dviju ili više pojava.
b) Odabir čimbenika koji imaju najznačajniji utjecaj na rezultirajuće svojstvo, na temelju mjerenja stupnja povezanosti među pojavama. Značajni čimbenici u ovom aspektu koriste se dalje u regresijskoj analizi.
c) Otkrivanje nepoznatih uzročno-posljedičnih odnosa.

Oblici manifestacije međuodnosa vrlo su raznoliki. Kao njihovi najčešći tipovi, funkcionalni (potpuni) i korelacija (nepotpuna) veza.
poveznica očituje se u prosjeku, za masovna promatranja, kada zadane vrijednosti zavisne varijable odgovaraju određenom broju vjerojatnosnih vrijednosti nezavisne varijable. Veza se naziva korelacija, ako svaka vrijednost faktorskog atributa odgovara dobro definiranoj neslučajnoj vrijednosti rezultantnog atributa.
Korelacijsko polje služi kao vizualni prikaz korelacijske tablice. To je grafikon gdje su vrijednosti X iscrtane na apscisnoj osi, vrijednosti Y iscrtane duž osi ordinata, a kombinacije X i Y prikazane su točkama. Prisutnost veze može se procijeniti prema lokaciji točkice.
Indikatori nepropusnosti omogućuju karakterizaciju ovisnosti varijacije rezultirajućeg svojstva o varijaciji čimbenika svojstva.
Bolji pokazatelj stupnja nepropusnosti poveznica je koeficijent linearne korelacije. Pri izračunavanju ovog pokazatelja ne uzimaju se u obzir samo odstupanja pojedinačne vrijednosti predznak od srednje vrijednosti, ali i veličinu tih odstupanja.

Ključna pitanja ove teme su jednadžbe regresijskog odnosa između rezultirajuće značajke i eksplanatorne varijable, metoda najmanjih kvadrata za procjenu parametara regresijski model, analiza kvalitete dobivene regresijske jednadžbe, konstrukcija intervala pouzdanosti za predviđanje vrijednosti rezultantnog obilježja prema regresijskoj jednadžbi.

Primjer 2


Sustav normalnih jednadžbi.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Za naše podatke sustav jednadžbi ima oblik
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iz prve jednadžbe izražavamo a i zamijenite u drugu jednadžbu:
Dobivamo b = -3,46, a = 1379,33
Regresijska jednadžba:
y = -3,46 x + 1379,33

2. Izračun parametara regresijske jednadžbe.
Uzorak znači.



Odstupanja uzorka:


standardna devijacija


1.1. Koeficijent korelacije
kovarijanca.

Izračunavamo pokazatelj bliskosti komunikacije. Takav pokazatelj je selektivni linearni koeficijent korelacije, koji se izračunava formulom:

Koeficijent linearne korelacije ima vrijednosti od –1 do +1.
Odnosi između značajki mogu biti slabi ili jaki (bliski). Njihovi kriteriji ocjenjuju se na Chaddockovoj ljestvici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
U našem primjeru, odnos između značajke Y i faktora X je visok i inverzan.
Osim toga, koeficijent korelacije linearnog para može se odrediti u smislu regresijskog koeficijenta b:

1.2. Regresijska jednadžba(procjena regresijske jednadžbe).

Jednadžba linearne regresije je y = -3,46 x + 1379,33

Koeficijent b = -3,46 pokazuje prosječnu promjenu efektivnog pokazatelja (u jedinicama y) s povećanjem ili smanjenjem vrijednosti faktora x po jedinici njegovog mjerenja. U ovom primjeru, s povećanjem od 1 jedinice, y se smanjuje u prosjeku za -3,46.
Koeficijent a = 1379,33 formalno pokazuje predviđenu razinu y, ali samo ako je x=0 blizu vrijednosti uzorka.
Ali ako je x=0 daleko od vrijednosti uzorka x, tada doslovna interpretacija može dovesti do netočnih rezultata, pa čak i ako regresijska linija točno opisuje vrijednosti promatranog uzorka, nema jamstva da će to također biti slučaj kada se ekstrapolira ulijevo ili udesno.
Zamjenom odgovarajućih vrijednosti x u regresijsku jednadžbu, moguće je odrediti usklađene (predviđene) vrijednosti efektivnog pokazatelja y(x) za svako opažanje.
Odnos između y i x određuje predznak regresijskog koeficijenta b (ako je > 0 - izravni odnos, inače - inverzan). U našem primjeru odnos je obrnut.
1.3. koeficijent elastičnosti.
Nepoželjno je koristiti koeficijente regresije (u primjeru b) za izravnu ocjenu utjecaja čimbenika na efektivni atribut u slučaju da postoji razlika u mjernim jedinicama efektivnog pokazatelja y i faktorskog atributa x.
U tu svrhu izračunavaju se koeficijenti elastičnosti i beta koeficijenti.
Prosječni koeficijent elastičnosti E pokazuje koliko će se posto u prosjeku promijeniti rezultat u agregatu na od njegove prosječne vrijednosti pri promjeni faktora x 1% svoje prosječne vrijednosti.
Koeficijent elastičnosti nalazi se po formuli:


Koeficijent elastičnosti je manji od 1. Dakle, ako se X promijeni za 1%, Y će se promijeniti za manje od 1%. Drugim riječima, utjecaj X na Y nije značajan.
Beta koeficijent pokazuje za koji dio vrijednosti svoje standardne devijacije će se prosječno promijeniti vrijednost efektivnog atributa kada se atribut faktora promijeni za vrijednost svoje standardne devijacije uz vrijednost preostalih nezavisnih varijabli fiksiranih na konstantnoj razini:

Oni. povećanje x za vrijednost standardne devijacije S x dovest će do smanjenja prosječne vrijednosti Y za 0,74 standardne devijacije S y .
1.4. Pogreška aproksimacije.
Procijenimo kvalitetu regresijske jednadžbe koristeći apsolutnu pogrešku aproksimacije. Prosječna pogreška aproksimacije je prosječno odstupanje izračunatih vrijednosti od stvarnih:


Budući da je pogreška manja od 15%, ova se jednadžba može koristiti kao regresija.
Analiza disperzije.
Zadatak analize varijance je analizirati varijancu zavisne varijable:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
gdje
∑(y i - y cp) 2 - ukupni zbroj kvadrata odstupanja;
∑(y(x) - y cp) 2 - zbroj kvadrata odstupanja uslijed regresije (“objašnjeno” ili “faktorijel”);
∑(y - y(x)) 2 - rezidualni zbroj kvadrata odstupanja.
Teorijski omjer korelacije za linearni odnos jednak je koeficijentu korelacije r xy .
Za bilo koji oblik ovisnosti, nepropusnost veze određuje se pomoću višestruki koeficijent korelacije:

Ovaj koeficijent je univerzalan jer odražava čvrstoću veze i točnost modela, a može se koristiti i za bilo koji oblik povezanosti između varijabli. Kod konstruiranja jednofaktorskog korelacijskog modela koeficijent višestruke korelacije jednak je koeficijentu parne korelacije r xy .
1.6. Koeficijent determinacije.
Kvadrat koeficijenta (višestruke) korelacije naziva se koeficijent determinacije, koji pokazuje udio varijacije rezultantnog atributa objašnjenog varijacijom faktorskog atributa.
Najčešće, dajući tumačenje koeficijenta determinacije, izražava se u postocima.
R 2 \u003d -0,74 2 \u003d 0,5413
oni. u 54,13% slučajeva promjene x dovode do promjene y. Drugim riječima, točnost odabira regresijske jednadžbe je prosječna. Preostalih 45,87% promjene Y rezultat je čimbenika koji nisu uzeti u obzir u modelu.

Bibliografija

  1. Ekonometrija: Udžbenik / Ed. I.I. Eliseeva. - M.: Financije i statistika, 2001, str. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Početni tečaj. Tutorial. - 2. izdanje, Rev. – M.: Delo, 1998, str. 17..42.
  3. Radionica iz ekonometrije: Proc. dodatak / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i drugi; ur. I.I. Eliseeva. - M.: Financije i statistika, 2001, str. 5..48.