Aká je korelácia. Korelačná analýza. Využitie softvéru v korelačnej analýze

Pearsonov korelačný test je metóda parametrickej štatistiky, ktorá umožňuje určiť prítomnosť alebo absenciu lineárneho vzťahu medzi dvoma kvantitatívnymi ukazovateľmi, ako aj vyhodnotiť jeho blízkosť a štatistickú významnosť. Inými slovami, Pearsonov korelačný test vám umožňuje určiť, či existuje lineárny vzťah medzi zmenami hodnôt dvoch premenných. V štatistických výpočtoch a záveroch sa korelačný koeficient zvyčajne označuje ako rxy alebo Rxy.

1. História vývoja korelačného kritéria

Pearsonov korelačný test vyvinul tím britských vedcov pod vedením Karl Pearson(1857-1936) v 90. rokoch 19. storočia na zjednodušenie analýzy kovariancie dvoch náhodných premenných. Okrem Karla Pearsona sa pracovalo aj na Pearsonovom korelačnom teste Francis Edgeworth a Raphael Weldon.

2. Na čo sa používa Pearsonov korelačný test?

Pearsonovo korelačné kritérium vám umožňuje určiť, aká je blízkosť (alebo sila) korelácie medzi dvoma indikátormi meranými na kvantitatívnej škále. Pomocou dodatočných výpočtov môžete tiež určiť, aký štatisticky významný je zistený vzťah.

Napríklad pomocou Pearsonovho korelačného kritéria je možné odpovedať na otázku, či existuje vzťah medzi telesnou teplotou a obsahom leukocytov v krvi pri akútnych respiračných infekciách, medzi výškou a hmotnosťou pacienta, medzi obsahom pitná voda fluoridov a výskyt kazov v populácii.

3. Podmienky a obmedzenia používania Pearsonovho chí-kvadrát testu

  1. Mali by sa merať porovnateľné ukazovatele kvantitatívna mierka(napríklad srdcová frekvencia, telesná teplota, počet leukocytov na 1 ml krvi, systolický krvný tlak).
  2. Pomocou Pearsonovho korelačného kritéria je možné len určiť prítomnosť a sila lineárneho vzťahu medzi množstvami. Ďalšie charakteristiky spojenia, vrátane smeru (priamy alebo reverzný), povahy zmien (priamočiarych alebo krivočiarych), ako aj prítomnosti závislosti jednej premennej na druhej, sa určujú pomocou regresnej analýzy.
  3. Počet porovnávaných hodnôt sa musí rovnať dvom. V prípade analýzy vzťahu troch alebo viacerých parametrov by ste mali použiť metódu faktorová analýza.
  4. Pearsonovým korelačným kritériom je parametrické, v súvislosti s ktorým je podmienkou jeho uplatnenia normálne rozdelenie spárované premenné. Ak je potrebné vykonať korelačnú analýzu ukazovateľov, ktorých distribúcia sa líši od normálneho, vrátane tých, ktoré sú merané na ordinálnej stupnici, mal by sa použiť Spearmanov koeficient poradovej korelácie.
  5. Je potrebné jasne rozlišovať medzi pojmami závislosť a korelácia. Závislosť hodnôt určuje prítomnosť korelácie medzi nimi, ale nie naopak.

Napríklad rast dieťaťa závisí od jeho veku, teda od toho, aký staršie dieťa, tým je vyššia. Ak vezmeme dve deti rôzneho veku, potom s vysokou mierou pravdepodobnosti bude rast staršieho dieťaťa väčší ako rast mladšieho. Tento jav sa nazýva závislosť, čo naznačuje príčinnú súvislosť medzi ukazovateľmi. Samozrejme, existujú aj také korelácia, čo znamená, že zmeny v jednom ukazovateli sú sprevádzané zmenami v inom ukazovateli.

V inej situácii zvážte vzťah medzi rastom dieťaťa a srdcovou frekvenciou (HR). Ako viete, obe tieto hodnoty sú priamo závislé od veku, preto vo väčšine prípadov budú mať deti s vyššou výškou (a teda staršieho veku) nižšie hodnoty srdcovej frekvencie. teda korelácia budú pozorované a môžu mať dostatočne vysokú tesnosť. Ak však vezmeme deti rovnaký vek, ale rôzna výška, potom sa s najväčšou pravdepodobnosťou ich srdcová frekvencia bude nepatrne líšiť, v súvislosti s čím môžeme konštatovať, že nezávislosť Srdcová frekvencia z rastu.

Vyššie uvedený príklad ukazuje, aké dôležité je rozlišovať medzi základnými pojmami v štatistike spojenia a závislosti ukazovatele na vyvodenie správnych záverov.

4. Ako vypočítať Pearsonov korelačný koeficient?

Pearsonov korelačný koeficient sa vypočíta podľa nasledujúceho vzorca:

5. Ako interpretovať hodnotu Pearsonovho korelačného koeficientu?

Hodnoty Pearsonovho korelačného koeficientu sa interpretujú na základe jeho absolútnych hodnôt. Možné hodnoty korelačného koeficientu sa pohybujú od 0 do ±1. Čím väčšia je absolútna hodnota r xy, tým vyššia je tesnosť vzťahu medzi týmito dvoma veličinami. r xy = 0 označuje úplný nedostatok spojenia. r xy = 1 - označuje prítomnosť absolútneho (funkčného) spojenia. Ak sa ukázalo, že hodnota Pearsonovho korelačného kritéria je väčšia ako 1 alebo menšia ako -1, vo výpočtoch sa stala chyba.

Na posúdenie blízkosti alebo sily korelácie sa používajú všeobecne uznávané kritériá, podľa ktorých sú absolútne hodnoty r xy< 0.3 свидетельствуют о slabý pripojenie, hodnoty r xy ​​od 0,3 do 0,7 - o pripojení stredná tesnosť, hodnoty r xy > 0,7 - o silný spojenia.

Presnejší odhad sily korelácie možno získať použitím Chaddockový stôl:

stupňa štatistická významnosť korelačný koeficient r xy sa vykonáva pomocou t-testu vypočítaného podľa tohto vzorca:

Získaná hodnota t r sa porovnáva s kritickou hodnotou na určitej hladine významnosti a počte stupňov voľnosti n-2. Ak t r presiahne t krit, potom sa urobí záver o štatistickej významnosti zistenej korelácie.

6. Príklad výpočtu Pearsonovho korelačného koeficientu

Cieľom štúdie bolo identifikovať, určiť blízkosť a štatistickú významnosť korelácie medzi dvoma kvantitatívnymi ukazovateľmi: hladinou testosterónu v krvi (X) a percentom svalovej hmoty v tele (Y). Počiatočné údaje pre vzorku 5 subjektov (n = 5) sú zhrnuté v tabuľke.

S koreláciou rovnaká hodnota jedného atribútu zodpovedá rôznym hodnotám druhého. Napríklad: existuje korelácia medzi výškou a hmotnosťou, medzi výskytom malígnych novotvarov a vekom atď.

Na výpočet korelačného koeficientu existujú 2 metódy: metóda štvorcov (Pearson), metóda hodností (Spearman).

Najpresnejšia je metóda štvorcov (Pearson), pri ktorej je korelačný koeficient určený vzorcom: , kde

r xy je korelačný koeficient medzi štatistickými radmi X a Y.

d x je odchýlka každého z čísel štatistický rad X z jeho aritmetického priemeru.

d y je odchýlka každého z čísel štatistického radu Y od jeho aritmetického priemeru.

V závislosti od sily spojenia a jeho smeru sa korelačný koeficient môže pohybovať od 0 do 1 (-1). Korelačný koeficient 0 znamená úplný nedostatok spojenia. Čím bližšie je úroveň korelačného koeficientu k 1 alebo (-1), tým väčšia je, v tomto poradí, tým bližšie je ním nameraná priama alebo spätná väzba. S korelačným koeficientom rovným 1 alebo (-1) je spojenie kompletné, funkčné.

Schéma na odhad sily korelácie pomocou korelačného koeficientu

Sila spojenia

Hodnota korelačného koeficientu, ak je k dispozícii

priame pripojenie (+)

spätná väzba (-)

Žiadne spojenie

Komunikácia je malá (slabá)

od 0 do +0,29

0 až -0,29

Priemerná komunikácia (stredná)

+0,3 až +0,69

-0,3 až -0,69

Komunikácia veľká (silná)

+0,7 až +0,99

-0,7 až -0,99

Komunikácia je dokončená

(funkčné)

Na výpočet korelačného koeficientu metódou štvorcov je zostavená tabuľka so 7 stĺpcami. Analyzujme proces výpočtu na príklade:

URČITE SILU A CHARAKTER VZŤAHU MEDZI MEDZI

Je čas-

ness

struma

(V r )

d x= V XM X

d y= V rM r

d X d r

d X 2

d r 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Určte priemerný obsah jódu vo vode (v mg / l).

mg/l

2. Určte priemerný výskyt strumy v %.

3. Určte odchýlku každého V x od M x, t.j. d x .

201–138=63; 178–138=40 atď.

4. Podobne určíme odchýlku každého V y od M y, t.j. d

0,2-3,8=-3,6; 0,6–38 = -3,2 atď.

5. Určujeme súčin odchýlok. Výsledný produkt sa spočíta a získa.

6. Odmocníme d x a zhrnieme výsledky, dostaneme.

7. Podobne odmocníme d y, zhrnieme výsledky, dostaneme

8. Nakoniec dosadíme všetky prijaté sumy do vzorca:

Na vyriešenie problému spoľahlivosti korelačného koeficientu je jeho priemerná chyba určená vzorcom:

(Ak je počet pozorovaní menší ako 30, potom je menovateľom n-1).

V našom príklade

Hodnota korelačného koeficientu sa považuje za spoľahlivú, ak je aspoň 3-krát vyššia ako jeho stredná chyba.

V našom príklade

Korelačný koeficient teda nie je spoľahlivý, a preto je potrebné zvýšiť počet pozorovaní.

Korelačný koeficient možno určiť o niečo menej presnou, ale oveľa jednoduchšou metódou, metódou hodnotenia (Spearman).

Spearmanova metóda: P=1-(6∑d 2 /n-(n 2 -1))

vytvorte dva riadky spárovaných porovnávaných prvkov, pričom označte prvý a druhý riadok x a y. Zároveň uveďte prvý riadok atribútu v zostupnom alebo vzostupnom poradí a umiestnite číselné hodnoty druhého riadku oproti hodnotám prvého riadka, ktorým zodpovedajú

hodnota prvku v každom z porovnávaných riadkov by mala byť nahradená sériovým číslom (rank). Poradie alebo čísla označujú miesta ukazovateľov (hodnoty) prvého a druhého riadku. V tomto prípade by mali byť poradia priradené k číselným hodnotám druhého atribútu v rovnakom poradí, aké bolo prijaté pri distribúcii ich hodnôt na hodnoty prvého atribútu. Pri rovnakých hodnotách atribútu v rade by sa poradie malo určiť ako priemerné číslo zo súčtu poradových čísel týchto hodnôt

určiť rozdiel v poradí medzi x a y (d): d = x - y

druhá mocnina výsledného rozdielu v poradí (d 2)

získajte súčet druhých mocnín rozdielu (Σ d 2) a získané hodnoty dosaďte do vzorca:

Príklad: použitím hodnostnej metódy na určenie smeru a sily vzťahu medzi dĺžkou služby v rokoch a frekvenciou zranení, ak sa získajú tieto údaje:

Zdôvodnenie výberu metódy: na vyriešenie problému je možné zvoliť len metódu poradovej korelácie, keďže prvý riadok atribútu „pracovná prax v rokoch“ má otvorené možnosti (pracovná prax do 1 roka a 7 a viac rokov), čo neumožňuje presnejšou metódou – metódou štvorcov – stanoviť vzťah medzi porovnávané charakteristiky.

Riešenie. Postupnosť výpočtov je popísaná v texte, výsledky sú uvedené v tabuľke. 2.

tabuľka 2

Pracovné skúsenosti v rokoch

Počet zranení

Radové čísla (hodnoty)

Rozdiel v poradí

rozdiel v poradí na druhú

d(x-y)

d 2

Každý z radov párových znakov je označený „x“ a „y“ (stĺpce 1-2).

Hodnota každého zo znakov je nahradená poradovým (poradovým) číslom. Poradie rozdelenia hodností v riadku „x“ je nasledovné: minimálnej hodnote atribútu (praxe do 1 roka) je priradené poradové číslo „1“, následné varianty toho istého riadku atribútu, resp. , vo vzostupnom poradí od 2., 3., 4. a 5. poradového čísla - poradia (pozri stĺpec 3). Podobné poradie sa pozoruje pri rozdeľovaní poradí podľa druhého prvku „y“ (stĺpec 4). V prípadoch, keď existuje viacero variantov rovnakej veľkosti (napríklad pri štandardnej úlohe ide o 12 a 12 úrazov na 100 pracovníkov s praxou 3-4 roky a 5-6 rokov), je poradové číslo označené priemerný počet zo súčtu ich poradových čísel. Tieto údaje o počte zranení (12 zranení) v rebríčku by mali obsadiť 2 a 3 miesta, takže priemerný počet je (2 + 3) / 2 = 2,5. ) by mali distribuovať rovnaké poradové čísla – „2,5“ (stĺpec 4).

Určte rozdiel v poradí d = (x - y) - (stĺpec 5)

Umocnenie rozdielu v poradí (d 2) a získanie súčtu druhých mocnín rozdielu v poradí Σ d 2 (stĺpec 6).

Vypočítajte koeficient poradovej korelácie pomocou vzorca:

kde n je počet zhodných párov možností v riadku „x“ a riadku „y“

Najdôležitejší cieľ štatistiky je náuka o objektívne existujúcich vzťahoch medzi javmi. Počas štatistický výskum tieto vzťahy, je potrebné identifikovať vzťahy príčin a následkov medzi ukazovateľmi, t.j. ako zmena niektorých ukazovateľov závisí od zmeny iných ukazovateľov.

Existujú dve kategórie závislostí (funkčné a korelačné) a dve skupiny znakov (znaky-faktory a efektívne znaky). Na rozdiel od funkčného vzťahu, kde existuje úplná zhoda medzi faktorom a výslednými charakteristikami, vo vzťahu korelácie takáto úplná zhoda neexistuje.

korelácia- ide o vzťah, kde sa vplyv jednotlivých faktorov javí len ako trend (v priemere) pri hromadnom sledovaní aktuálnych údajov. Príkladom korelačnej závislosti môže byť závislosť medzi veľkosťou aktív banky a výškou zisku banky, rastom produktivity práce a dĺžkou služby zamestnancov.

Najjednoduchšou verziou korelačnej závislosti je párová korelácia, t.j. závislosť medzi dvoma znakmi (efektívnym a faktoriálnym alebo medzi dvoma faktoriálnymi). Matematicky možno túto závislosť vyjadriť ako závislosť efektívneho ukazovateľa y od faktorového ukazovateľa x. Spojenia môžu byť priame a reverzné. V prvom prípade s nárastom atribútu x rastie aj atribút y, so spätnou väzbou s nárastom atribútu x atribút y klesá.

Najdôležitejšou úlohou je určiť formu spojenia s následným výpočtom parametrov rovnice, alebo inak povedané nájsť rovnicu spojenia ( regresných rovníc).

Môžu byť rôzne kontaktné formuláre:

priamočiary

krivočiary vo forme: paraboly druhého rádu (alebo vyššie rády)

hyperbola

exponenciálna funkcia atď.

Parametre pre všetky tieto väzbové rovnice sa zvyčajne určujú z sústavy normálnych rovníc, ktorý musí spĺňať požiadavku metódy najmenších štvorcov (LSM):

Ak je vzťah vyjadrený parabolou druhého rádu ( ), potom systém normálnych rovníc na nájdenie parametrov a0, a1, a2 (takéto spojenie sa nazýva násobok, pretože znamená závislosť viac ako dvoch faktorov) môže byť reprezentovaný ako

Ďalšou hlavnou úlohou je meranie tesnosti závislosti- pre všetky formy komunikácie možno vyriešiť výpočtom empirického korelačného pomeru:

kde - rozptyl v sérii vyrovnaných hodnôt efektívneho ukazovateľa;

Rozptyl v rade skutočných hodnôt y.

Na určenie stupňa tesnosti párovej lineárnej závislosti lineárny korelačný koeficient r, ktorý možno vypočítať napríklad pomocou nasledujúcich dvoch vzorcov:

Koeficient lineárnej korelácie môže nadobúdať hodnoty v rozmedzí od -1 do + 1 alebo modulo od 0 do 1. Čím je v absolútnej hodnote bližšie k 1, tým je vzťah užší. Znamienko udáva smer spojenia: "+" - priama závislosť, "-" prebieha s inverznou závislosťou.

V štatistickej praxi môžu nastať prípady, keď kvalitu faktora a výsledné znaky nemožno vyjadriť číselne. Preto na meranie blízkosti závislosti je potrebné použiť iné ukazovatele. Na tento účel sa používajú tzv neparametrické metódy.

Najrozšírenejšie sú poradové korelačné koeficienty, ktoré sú založené na princípe číslovania hodnôt štatistického radu. Pri použití korelačných koeficientov poradí nie sú korelované hodnoty ukazovateľov x a y, ale iba počty ich miest, ktoré zaberajú v každej sérii hodnôt. V tomto prípade bude číslom každej jednotlivej jednotky jej hodnosť.

Korelačné koeficienty založené na použití ranked metódy navrhli K. Spearman a M. Kendall.

Spearmanov koeficient poradovej korelácie p) je založený na zohľadnení rozdielu medzi hodnotami výsledných a faktorových charakteristík a možno ho vypočítať podľa vzorca

kde d = Nx - Ny, t.j. rozdiel v poradí každej dvojice hodnôt x a y; n je počet pozorovaní.

Kendalov koeficient poradovej korelácie() možno určiť podľa vzorca

kde S = P + Q.

Neparametrické metódy výskumu zahŕňajú asociačný koeficient Cus a kontingenčný faktor Kkon, ktoré sa používajú, ak je napríklad potrebné skúmať blízkosť vzťahu medzi kvalitatívnymi znakmi, z ktorých každý je prezentovaný vo forme alternatívnych znakov.

Na určenie týchto koeficientov sa vytvorí výpočtová tabuľka (tabuľka „štyri polia“), kde je štatistický predikát schematicky znázornený v nasledujúcom tvare:

znamenia

Tu a, b, c, d sú frekvencie vzájomnej kombinácie (kombinácie) dvoch alternatívnych znakov; n- celková suma frekvencie.

Koeficient pridelenia produktu sa vypočíta podľa vzorca

Treba mať na pamäti, že pre tie isté údaje je koeficient kontingencie (varí sa od -1 do +1) vždy menší ako koeficient asociácie.

Ak je potrebné vyhodnotiť blízkosť vzťahu medzi alternatívnymi znakmi, ktoré môžu nadobudnúť ľubovoľný počet hodnotových možností, aplikujte Pearsonov koeficient vzájomnej konjugácie(KP).

Na štúdium tohto druhu vzťahu sú primárne štatistické informácie umiestnené vo forme tabuľky:

znamenia

Tu sú mij frekvencie vzájomnej kombinácie dvoch atribútových znakov; P je počet párov pozorovaní.

Pearsonov koeficient vzájomnej podmienenosti sa určuje podľa vzorca

kde je priemerný štvorcový index konjugácie:

Koeficient vzájomnej kontingencie sa pohybuje od 0 do 1.

Nakoniec treba spomenúť Fechnerov koeficient, ktorý charakterizuje elementárny stupeň tesnosti spojenia, ktorý je vhodné použiť na zistenie skutočnosti existencie spojenia pri malom množstve prvotných informácií. Tento koeficient je určený vzorcom

kde na je počet zhôd znakov odchýlok jednotlivých hodnôt od ich aritmetického priemeru; nb - počet nezhôd.

Fechnerov koeficient sa môže pohybovať v rozmedzí -1,0 Kf + 1,0.

Vzorec korelačného koeficientu

V procese ekonomická aktivitačlovek sa postupne formoval celá triedaúlohy identifikovať rôzne štatistické vzory.

Bolo potrebné vyhodnotiť mieru determinizmu niektorých procesov inými, bolo potrebné stanoviť tesnosť vzájomnej závislosti medzi rôznymi procesmi a premennými.
Korelácia je vzájomný vzťah premenných.

Na posúdenie tesnosti závislosti bol zavedený korelačný koeficient.

Fyzikálny význam korelačného koeficientu

jasný fyzický význam korelačný koeficient má, ak štatistické parametre nezávislých premenných podliehajú normálnemu rozdeleniu, takéto rozdelenie graficky predstavuje Gaussovu krivku. A vzťah je lineárny.

Korelačný koeficient ukazuje, ako je jeden proces určený iným. Tie. keď sa zmení jeden proces, ako často sa zmení aj závislý proces. Vôbec sa nemení – neexistuje závislosť, zakaždým sa okamžite zmení – úplná závislosť.

Korelačný koeficient môže nadobúdať hodnoty v rozsahu [-1:1]

Nulová hodnota koeficientu znamená, že medzi uvažovanými premennými neexistuje žiadny vzťah.
Extrémne hodnoty rozsahu znamenajú úplnú závislosť medzi premennými.

Ak je hodnota koeficientu kladná, potom je závislosť priama.

S negatívnym koeficientom - naopak. Tie. v prvom prípade, keď sa argument zmení, funkcia sa zmení proporcionálne, v druhom prípade naopak.
Keď je hodnota korelačného koeficientu v strede rozpätia, t.j. od 0 do 1 alebo od -1 do 0 indikujú neúplný funkčný vzťah.
Čím je hodnota koeficientu bližšie ku krajným ukazovateľom, tým väčší je vzťah medzi premennými resp náhodné premenné. Čím je hodnota bližšie k 0, tým menšia je vzájomná závislosť.
Korelačný koeficient zvyčajne nadobúda stredné hodnoty.

Korelačný koeficient je nemerateľná veličina

Korelačný koeficient sa používa v štatistike, v korelačnej analýze, na testovanie štatistických hypotéz.

Predložením nejakej štatistickej hypotézy o závislosti jednej náhodnej premennej od druhej sa vypočíta korelačný koeficient. Podľa nej sa dá urobiť úsudok – či existuje vzťah medzi množstvami a akou je hustotou.

Ide o to, že nie vždy vidíte súvislosť. Hodnoty často spolu priamo nesúvisia, ale závisia od mnohých faktorov. Môže sa však ukázať, že náhodné premenné sú vzájomne závislé prostredníctvom množiny sprostredkovaných spojení. Samozrejme, nemusí to znamenať ich priamu súvislosť, takže napríklad so zánikom sprostredkovateľa môže zaniknúť aj závislosť.

Účel korelačnej analýzy je identifikovať odhad sily spojenia medzi náhodnými premennými (vlastnosťami), ktoré charakterizujú nejaký reálny proces.
Problémy korelačnej analýzy:
a) Meranie miery spojenia (tesnosti, sily, závažnosti, intenzity) dvoch alebo viacerých javov.
b) Výber faktorov, ktoré majú najvýznamnejší vplyv na výsledný znak, na základe merania miery spojitosti medzi javmi. Významné faktory v tomto aspekte sa ďalej používajú v regresnej analýze.
c) Zisťovanie neznámych príčinných súvislostí.

Formy prejavu vzájomných vzťahov sú veľmi rôznorodé. Ako ich najbežnejšie typy sú funkčné (kompletné) a korelačné (neúplné) spojenie.
korelácia sa pri hromadných pozorovaniach prejavuje v priemere, keď dané hodnoty závislej premennej zodpovedajú určitému počtu pravdepodobnostných hodnôt nezávislej premennej. Spojenie sa nazýva korelácia, ak každá hodnota atribútu faktor zodpovedá dobre definovanej nenáhodnej hodnote výsledného atribútu.
Korelačné pole slúži ako vizuálna reprezentácia korelačnej tabuľky. Ide o graf, v ktorom sú hodnoty X vynesené na osi x, hodnoty Y sú vynesené pozdĺž osi y a kombinácie X a Y sú znázornené bodkami. Prítomnosť spojenia sa dá posúdiť podľa polohy bodky.
Indikátory tesnosti umožňujú charakterizovať závislosť variácie výsledného znaku od variácie znaku-faktora.
Lepší ukazovateľ stupňa tesnosti korelácia je lineárny korelačný koeficient. Pri výpočte tohto ukazovateľa sa berú do úvahy nielen odchýlky individuálnych hodnôt znak od priemeru, ale aj veľkosť týchto odchýlok.

Kľúčovými problémami tejto témy sú rovnice regresného vzťahu medzi výsledným znakom a vysvetľujúcou premennou, metóda najmenších štvorcov na odhad parametrov regresný model, analýza kvality získanej regresnej rovnice, konštrukcia intervalov spoľahlivosti pre predikciu hodnôt výsledného znaku podľa regresnej rovnice.

Príklad 2


Systém normálnych rovníc.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pre naše údaje má sústava rovníc tvar
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Z prvej rovnice vyjadríme a a dosaďte do druhej rovnice:
Dostaneme b = -3,46, a = 1379,33
Regresná rovnica:
y = -3,46 x + 1379,33

2. Výpočet parametrov regresnej rovnice.
Vzorové prostriedky.



Ukážkové odchýlky:


smerodajná odchýlka


1.1. Korelačný koeficient
kovariancia.

Vypočítame ukazovateľ blízkosti komunikácie. Takýmto ukazovateľom je selektívny lineárny korelačný koeficient, ktorý sa vypočíta podľa vzorca:

Koeficient lineárnej korelácie nadobúda hodnoty od –1 do +1.
Vzťahy medzi vlastnosťami môžu byť slabé alebo silné (úzke). Ich kritériá sa hodnotia na Chaddockovej stupnici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
V našom príklade je vzťah medzi znakom Y a faktorom X vysoký a inverzný.
Okrem toho možno koeficient lineárnej párovej korelácie určiť pomocou regresného koeficientu b:

1.2. Regresná rovnica(vyhodnotenie regresnej rovnice).

Rovnica lineárnej regresie je y = -3,46 x + 1379,33

Koeficient b = -3,46 vyjadruje priemernú zmenu efektívneho ukazovateľa (v jednotkách y) so zvýšením alebo znížením hodnoty faktora x na jednotku jeho merania. V tomto príklade sa pri zvýšení o 1 jednotku y zníži v priemere o -3,46.
Koeficient a = 1379,33 formálne ukazuje predpovedanú úroveň y, ale iba ak je x=0 blízko k vzorovým hodnotám.
Ak je však x=0 ďaleko od hodnôt x vzorky, potom doslovná interpretácia môže viesť k nesprávnym výsledkom, a aj keď regresná čiara presne opisuje hodnoty pozorovanej vzorky, nie je zaručené, že to bude tiež prípad pri extrapolácii doľava alebo doprava.
Nahradením zodpovedajúcich hodnôt x do regresnej rovnice je možné určiť zarovnané (predpovedané) hodnoty efektívneho indikátora y(x) pre každé pozorovanie.
Vzťah medzi y a x určuje znamienko regresného koeficientu b (ak > 0 - priamy vzťah, inak - inverzný). V našom príklade je vzťah opačný.
1.3. koeficient pružnosti.
Je nežiaduce používať regresné koeficienty (v príklade b) na priame hodnotenie vplyvu faktorov na efektívny atribút v prípade, že existuje rozdiel v jednotkách merania efektívneho ukazovateľa y a atribútu faktora x.
Na tieto účely sa vypočítajú koeficienty elasticity a koeficienty beta.
Priemerný koeficient pružnosti E ukazuje, o koľko percent sa výsledok v priemere zmení v súhrne pri z jeho priemernej hodnoty pri zmene faktora X 1 % svojej priemernej hodnoty.
Koeficient elasticity sa zistí podľa vzorca:


Koeficient elasticity je menší ako 1. Ak sa teda X zmení o 1 %, Y sa zmení o menej ako 1 %. Inými slovami, vplyv X na Y nie je významný.
Koeficient beta ukazuje, o akú časť hodnoty svojej štandardnej odchýlky sa v priemere zmení hodnota efektívneho atribútu, keď sa atribút faktor zmení o hodnotu svojej štandardnej odchýlky s hodnotou zostávajúcich nezávislých premenných zafixovaných na konštantnej úrovni:

Tie. zvýšenie x o hodnotu smerodajnej odchýlky S x povedie k zníženiu priemernej hodnoty Y o 0,74 smerodajnej odchýlky S y .
1.4. Chyba aproximácie.
Vyhodnoťme kvalitu regresnej rovnice pomocou absolútnej chyby aproximácie. Priemerná chyba aproximácie je priemerná odchýlka vypočítaných hodnôt od skutočných:


Keďže chyba je menšia ako 15 %, túto rovnicu možno použiť ako regresiu.
Disperzná analýza.
Úlohou analýzy rozptylu je analyzovať rozptyl závislej premennej:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
kde
∑(y i - y cp) 2 - celkový súčet štvorcových odchýlok;
∑(y(x) - y cp) 2 - súčet štvorcových odchýlok spôsobených regresiou („vysvetlené“ alebo „faktoriálne“);
∑(y - y(x)) 2 - zvyškový súčet kvadrátov odchýlok.
Teoretický korelačný pomer pre lineárny vzťah sa rovná korelačnému koeficientu r xy .
Pre akúkoľvek formu závislosti sa tesnosť spojenia určuje pomocou viacnásobný korelačný koeficient:

Tento koeficient je univerzálny, pretože odráža tesnosť spojenia a presnosť modelu a možno ho použiť aj pre akúkoľvek formu spojenia medzi premennými. Pri konštrukcii jednofaktorového korelačného modelu sa viacnásobný korelačný koeficient rovná párovému korelačnému koeficientu r xy.
1.6. Koeficient determinácie.
Druhá mocnina (viacnásobného) korelačného koeficientu sa nazýva koeficient determinácie, ktorý ukazuje podiel variácie výsledného atribútu vysvetleného variáciou faktora.
Najčastejšie sa pri interpretácii koeficientu determinácie vyjadruje v percentách.
R 2 \u003d -0,74 2 \u003d 0,5413
tie. v 54,13 % prípadov vedú zmeny x k zmene y. Inými slovami, presnosť výberu regresnej rovnice je priemerná. Zvyšných 45,87 % zmeny Y je spôsobené faktormi, ktoré sa v modeli nezohľadňujú.

Bibliografia

  1. Ekonometria: Učebnica / Ed. I.I. Eliseeva. - M.: Financie a štatistika, 2001, s. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Počiatočný kurz. Návod. - 2. vydanie, Rev. – M.: Delo, 1998, s. 17..42.
  3. Workshop z ekonometrie: Proc. príspevok / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko a ďalší; Ed. I.I. Eliseeva. - M.: Financie a štatistika, 2001, s. 5..48.