Kokia koreliacija. Koreliacinė analizė. Programinės įrangos naudojimas koreliacinėje analizėje

Pirsono koreliacijos testas – tai parametrinės statistikos metodas, leidžiantis nustatyti tiesinio ryšio tarp dviejų kiekybinių rodiklių buvimą ar nebuvimą, taip pat įvertinti jo artumą ir statistinį reikšmingumą. Kitaip tariant, Pearson koreliacijos testas leidžia nustatyti, ar yra tiesinis ryšys tarp dviejų kintamųjų verčių pokyčių. Statistiniuose skaičiavimuose ir išvadose koreliacijos koeficientas dažniausiai žymimas kaip rxy arba Rxy.

1. Koreliacijos kriterijaus raidos istorija

Pearsono koreliacijos testą sukūrė britų mokslininkų komanda, vadovaujama Karlas Pearsonas(1857-1936) XIX amžiaus 90-aisiais, siekiant supaprastinti dviejų atsitiktinių dydžių kovariacijos analizę. Be Karlo Pearsono, buvo atliktas ir Pearsono koreliacijos testas Pranciškus Edgeworthas ir Raphaelis Weldonas.

2. Kam naudojamas Pearsono koreliacijos testas?

Pearsono koreliacijos kriterijus leidžia nustatyti, koks yra koreliacijos tarp dviejų rodiklių, išmatuotų kiekybine skale, artumas (arba stiprumas). Papildomų skaičiavimų pagalba taip pat galite nustatyti, kiek statistiškai reikšmingas nustatytas ryšys.

Pavyzdžiui, naudojant Pearsono koreliacijos kriterijų, galima atsakyti į klausimą, ar yra ryšys tarp kūno temperatūros ir leukocitų kiekio kraujyje sergant ūminėmis kvėpavimo takų infekcijomis, tarp paciento ūgio ir svorio, tarp kiekio kraujyje. geriamas vanduo fluoro ir sergamumo kariesu populiacijoje.

3. Pirsono chi kvadrato testo naudojimo sąlygos ir apribojimai

Turėtų būti matuojami palyginami rodikliai kiekybinė skalė(pavyzdžiui, širdies susitraukimų dažnis, kūno temperatūra, leukocitų skaičius 1 ml kraujo, sistolinis kraujospūdis).
Naudojant Pearsono koreliacijos kriterijų, galima nustatyti tik tiesinio ryšio buvimas ir stiprumas tarp kiekių. Kitos ryšio charakteristikos, įskaitant kryptį (tiesioginę ar atvirkštinę), pokyčių pobūdį (tiesioji arba kreivinė), taip pat vieno kintamojo priklausomybė nuo kito, nustatomos naudojant regresinę analizę.
Lyginamų verčių skaičius turi būti lygus dviem. Jei analizuojate trijų ar daugiau parametrų ryšį, turėtumėte naudoti šį metodą faktorinė analizė.
Pearsono koreliacijos kriterijus yra parametrinis, dėl kurio yra jo taikymo sąlyga normalus skirstinys suderintus kintamuosius. Jei reikia atlikti rodiklių, kurių pasiskirstymas skiriasi nuo normalaus, koreliacinę analizę, įskaitant tuos, kurie matuojami eilės skalėje, reikia naudoti Spearmano rango koreliacijos koeficientą.
Būtina aiškiai atskirti priklausomybės ir koreliacijos sąvokas. Vertybių priklausomybė lemia koreliacijos tarp jų buvimą, bet ne atvirkščiai.

Pavyzdžiui, vaiko augimas priklauso nuo jo amžiaus, tai yra nuo ko vyresnis vaikas, kuo jis didesnis. Jei paimsime du skirtingo amžiaus vaikus, tada su didele tikimybe vyresnio vaiko augimas bus didesnis nei jaunesnio. Šis reiškinys vadinamas priklausomybė, o tai reiškia priežastinį ryšį tarp rodiklių. Žinoma, taip pat yra koreliacija, tai reiškia, kad vieno rodiklio pokyčius lydi kito rodiklio pokyčiai.

Kitoje situacijoje apsvarstykite ryšį tarp vaiko augimo ir širdies susitraukimų dažnio (HR). Kaip žinote, abi šios reikšmės tiesiogiai priklauso nuo amžiaus, todėl daugeliu atvejų didesnio ūgio (taigi ir vyresnių) vaikų pulso dažnis bus mažesnis. Tai yra, koreliacija bus stebimas ir gali turėti pakankamai didelį sandarumą. Tačiau jei imtume vaikus tokio pat amžiaus, bet skirtingo aukščio, tada greičiausiai jų širdies susitraukimų dažnis skirsis nežymiai, todėl galime daryti išvadą, kad nepriklausomybęŠirdies susitraukimų dažnis nuo augimo.

Aukščiau pateiktas pavyzdys parodo, kaip svarbu atskirti pagrindines statistikos sąvokas jungtys ir priklausomybės rodiklius, kad būtų galima padaryti teisingas išvadas.

4. Kaip apskaičiuoti Pearsono koreliacijos koeficientą?

Pirsono koreliacijos koeficientas apskaičiuojamas pagal šią formulę:

5. Kaip interpretuoti Pearsono koreliacijos koeficiento reikšmę?

Pearsono koreliacijos koeficiento reikšmės aiškinamos remiantis jo absoliučiomis reikšmėmis. Galimos koreliacijos koeficiento reikšmės svyruoja nuo 0 iki ±1. Kuo didesnė r xy absoliuti reikšmė, tuo didesnis ryšys tarp dviejų dydžių. r xy = 0 rodo visišką ryšio nebuvimą. r xy = 1 – rodo absoliutaus (funkcinio) ryšio buvimą. Jei Pirsono koreliacijos kriterijaus reikšmė pasirodė didesnė nei 1 arba mažesnė nei -1, skaičiavimuose buvo padaryta klaida.

Koreliacijos artumui arba stiprumui įvertinti naudojami visuotinai pripažinti kriterijai, pagal kuriuos absoliučios r xy reikšmės< 0.3 свидетельствуют о silpnas ryšys, r xy reikšmės nuo 0,3 iki 0,7 - apie ryšį vidurio sandarumas, r xy vertės > 0,7 - o stiprus jungtys.

Tikslesnį koreliacijos stiprumo įvertinimą galima gauti naudojant Chaddock stalas:

Įvertinimas statistinis reikšmingumas koreliacijos koeficientas r xy atliekamas naudojant t testą, apskaičiuojamą pagal šią formulę:

Gauta reikšmė t r lyginama su kritine verte tam tikram reikšmingumo lygiui ir laisvės laipsnių skaičiui n-2. Jei t r viršija t crit, tada daroma išvada apie nustatytos koreliacijos statistinį reikšmingumą.

6. Pirsono koreliacijos koeficiento apskaičiavimo pavyzdys

Tyrimo tikslas – nustatyti, nustatyti dviejų kiekybinių rodiklių – testosterono kiekio kraujyje (X) ir kūno raumenų masės procento (Y) – koreliacijos sandarumą ir statistinį reikšmingumą. 5 tiriamųjų imties pradiniai duomenys (n = 5) apibendrinti lentelėje.

Su koreliacija ta pati vieno atributo reikšmė atitinka skirtingas kito atributo reikšmes. Pavyzdžiui: yra koreliacija tarp ūgio ir svorio, tarp piktybinių navikų dažnio ir amžiaus ir kt.

Yra 2 koreliacijos koeficiento skaičiavimo metodai: kvadratų metodas (Pearson), rangų metodas (Spearman).

Tiksliausias yra kvadratų metodas (Pearson), kuriame koreliacijos koeficientas nustatomas pagal formulę: , kur

r xy yra koreliacijos koeficientas tarp statistinių eilučių X ir Y.

d x yra kiekvieno skaičiaus nuokrypis statistinės serijos X iš jo aritmetinio vidurkio.

d y – kiekvieno statistinės eilutės Y skaičiaus nuokrypis nuo jos aritmetinio vidurkio.

Priklausomai nuo ryšio stiprumo ir jo krypties, koreliacijos koeficientas gali svyruoti nuo 0 iki 1 (-1). Koreliacijos koeficientas 0 rodo visišką ryšio nebuvimą. Kuo koreliacijos koeficiento lygis artimesnis 1 arba (-1), tuo didesnis, atitinkamai, tuo artimesnis juo matuojamas tiesioginis arba grįžtamasis ryšys. Kai koreliacijos koeficientas lygus 1 arba (-1), ryšys yra baigtas, funkcionalus.

Koreliacijos stiprumo įvertinimo koreliacijos koeficientu schema

Ryšio stiprumas	Koreliacijos koeficiento vertė, jei yra
Ryšio stiprumas	tiesioginis ryšys (+)	Atsiliepimas (-)
Nėra ryšio
Bendravimas mažas (silpnas)	nuo 0 iki +0,29	nuo 0 iki -0,29
Bendravimo vidurkis (vidutinis)	+0,3 iki +0,69	-0,3 iki -0,69
Bendravimas didelis (stiprus)	+0,7 iki +0,99	-0,7 iki -0,99
Bendravimas baigtas (funkcinis)

Koreliacijos koeficientui apskaičiuoti kvadratų metodu sudaroma 7 stulpelių lentelė. Išanalizuokime skaičiavimo procesą naudodami pavyzdį:

NUSTATYTI SANTYKIŲ TARPUS STIPRIĄ IR POBŪDĮ

Jau laikas- ness struma (V y )	d x= V x –M x	d y= V y –M y	d x d y	d x 2	d y 2







			Σ -1345 ,0	Σ 13996 ,0	Σ 313 , 47

1. Nustatykite vidutinį jodo kiekį vandenyje (mg/l).

mg/l

2. Nustatyti vidutinį sergamumą struma proc.

3. Nustatykite kiekvieno V x nuokrypį nuo M x, t.y. d x .

201–138=63; 178–138=40 ir kt.

4. Panašiai nustatome kiekvieno V y nuokrypį nuo M y, t.y. d

0,2–3,8=-3,6; 0,6–38=–3,2 ir kt.

5. Nustatome nuokrypių sandaugas. Gautas produktas susumuojamas ir gaunamas.

6. Pastatome d x kvadratu ir apibendriname rezultatus, gauname.

7. Panašiai mes d y kvadratu, apibendriname rezultatus, gauname

8. Galiausiai visas gautas sumas pakeičiame į formulę:

Norint išspręsti koreliacijos koeficiento patikimumo klausimą, jo vidutinė paklaida nustatoma pagal formulę:

(Jei stebėjimų skaičius mažesnis nei 30, tai vardiklis yra n-1).

Mūsų pavyzdyje

Koreliacijos koeficiento reikšmė laikoma patikima, jei ji yra bent 3 kartus didesnė už jo vidutinę paklaidą.

Mūsų pavyzdyje

Taigi koreliacijos koeficientas nėra patikimas, todėl reikia didinti stebėjimų skaičių.

Koreliacijos koeficientą galima nustatyti kiek mažiau tiksliu, bet daug lengvesniu būdu, rango metodu (Spearman).

Spearman metodas: P=1-(6∑d 2 /n-(n 2 -1))

Padarykite dvi suporuotų palyginamų požymių eilutes, atitinkamai nurodydami pirmąją ir antrąją eilutes, x ir y. Tuo pačiu metu pirmąją atributo eilutę pateikite mažėjimo arba didėjimo tvarka, o antrosios eilutės skaitines reikšmes pastatykite priešais tas pirmosios eilutės reikšmes, kurias jos atitinka.

požymio reikšmė kiekvienoje lyginamoje eilutėje turėtų būti pakeista serijos numeriu (rangu). Reitingai, arba skaičiai, nurodo pirmosios ir antrosios eilučių rodiklių (reikšmių) vietas. Tuo pačiu metu rangai turėtų būti priskirti antrojo požymio skaitinėms reikšmėms ta pačia tvarka, kuri buvo priimta paskirstant jų reikšmes pirmosios požymio reikšmėms. Kai serijoje yra tos pačios atributo reikšmės, eilės turėtų būti nustatomos kaip vidutinis skaičius iš šių reikšmių eilinių skaičių sumos

nustatyti eilių skirtumą tarp x ir y (d): d = x - y

gauto rango skirtumo kvadratu (d 2)

gaukite skirtumo (Σ d 2) kvadratų sumą ir gautas reikšmes pakeiskite formule:

Pavyzdys: rango metodu nustatyti ryšio tarp tarnybos stažo metais ir traumų dažnumo kryptį ir stiprumą, jei gaunami šie duomenys:

Metodo pasirinkimo pagrindas: uždaviniui išspręsti galima pasirinkti tik rango koreliacijos metodą, kadangi pirmoje atributo „darbo patirtis metais“ eilutėje yra atviri variantai (darbo patirtis iki 1 metų ir 7 ar daugiau metų), o tai neleidžia naudojant tikslesnį metodą – kvadratų metodą – nustatyti ryšio tarp palygintos charakteristikos.

Sprendimas. Skaičiavimų seka aprašyta tekste, rezultatai pateikti lentelėje. 2.

2 lentelė

Darbo patirtis metų	Sužalojimų skaičius	Eiliniai skaičiai (gretai)	Reitingų skirtumas	rango skirtumas kvadratu
Darbo patirtis metų	Sužalojimų skaičius		d(x-y)	d 2

Kiekviena suporuotų ženklų eilutė žymima „x“ ir „y“ (1–2 stulpeliai).

Kiekvieno iš ženklų reikšmė pakeičiama rango (eilės) numeriu. „x“ serijos rangų pasiskirstymo tvarka yra tokia: minimaliai požymio reikšmei (stažas iki 1 metų) suteikiamas eilės numeris „1“, tos pačios požymio serijos vėlesni variantai atitinkamai. , didėjančia tvarka pagal 2, 3, 4 ir 5 eilės numerius – eilės (žr. 3 stulpelį). Panaši tvarka stebima skirstant rangus antrajam požymiui „y“ (4 stulpelis). Tais atvejais, kai yra keli vienodo dydžio variantai (pavyzdžiui, standartinėje užduotyje tai yra 12 ir 12 sužalojimų 100 darbuotojų, kurių stažas 3-4 metai ir 5-6 metai), serijos numeris nurodomas vidutinis skaičius iš jų eilės numerių sumos. Šie duomenys apie traumų skaičių (12 traumų) reitinge turėtų užimti 2 ir 3 vietas, todėl vidutinis jų skaičius yra (2 + 3) / 2 = 2,5. ) turėtų paskirstyti tuos pačius reitingo numerius – „2,5“ (4 stulpelis).

Nustatykite eilių skirtumą d = (x - y) - (5 stulpelis)

Eilių skirtumo kvadratas (d 2) ir eilių skirtumo Σ d 2 kvadratų suma (6 stulpelis).

Apskaičiuokite rango koreliacijos koeficientą pagal formulę:

kur n yra suderintų parinkčių porų skaičius eilutėse "x" ir eilutėse "y"

Svarbiausias tikslas statistika yra objektyviai egzistuojančių santykių tarp reiškinių tyrimas. Per statistiniai tyrimaišiuos ryšius, būtina nustatyti priežasties-pasekmės ryšius tarp rodiklių, t.y. kaip vienų rodiklių pokytis priklauso nuo kitų rodiklių kitimo.

Yra dvi priklausomybių kategorijos (funkcinė ir koreliacinė) ir dvi ženklų grupės (ženklai-veiksniai ir efektyvieji ženklai). Skirtingai nuo funkcinio ryšio, kuriame yra visiškas faktoriaus ir gaunamų charakteristikų atitikimas, koreliaciniame ryšyje tokio visiško atitikimo nėra.

koreliacija- tai ryšys, kai atskirų veiksnių įtaka pasireiškia tik kaip tendencija (vidutiniškai) su masiniu faktinių duomenų stebėjimu. Koreliacinės priklausomybės pavyzdžiais gali būti priklausomybė tarp banko turto dydžio ir banko pelno dydžio, darbo našumo augimo ir darbuotojų darbo stažo.

Paprasčiausias koreliacijos priklausomybės variantas yra porinė koreliacija, t.y. priklausomybė tarp dviejų ženklų (efektyvaus ir faktorinio arba tarp dviejų faktorialinių). Matematiškai ši priklausomybė gali būti išreikšta kaip efektyvaus rodiklio y priklausomybė nuo faktoriaus rodiklio x. Jungtys gali būti tiesioginės ir atvirkštinės. Pirmuoju atveju, padidėjus atributui x, požymis y taip pat didėja; su grįžtamuoju ryšiu, padidėjus atributui x, požymis y mažėja.

Svarbiausias uždavinys yra nustatyti ryšio formą su vėlesniu lygties parametrų skaičiavimu, arba, kitaip tariant, rasti ryšio lygtį ( regresijos lygtys).

Gali būti įvairių kontaktų formos:

tiesinis

kreivinis forma: antros eilės parabolės (arba aukštesnės eilės)

hiperbolė

eksponentinė funkcija ir kt.

Visų šių sujungimo lygčių parametrai paprastai nustatomi pagal normaliųjų lygčių sistemos, kuris turi atitikti mažiausių kvadratų metodo (LSM) reikalavimą:

Jei ryšys išreiškiamas antros eilės parabole ( ), tada normaliųjų lygčių sistemą, skirtą parametrams a0, a1, a2 (toks ryšys vadinamas daugybiniu, nes tai reiškia daugiau nei dviejų veiksnių priklausomybę) galima pavaizduoti kaip

Kita svarbi užduotis yra priklausomybės sandarumo matavimas- visoms komunikacijos formoms galima išspręsti apskaičiuojant empirinį koreliacijos santykį:

kur - efektyvaus rodiklio išlygintų verčių serijos dispersija;

Sklaida faktinių verčių serijoje y.

Norėdami nustatyti suporuotos tiesinės priklausomybės sandarumo laipsnį, tiesinės koreliacijos koeficientas r, kurį galima apskaičiuoti naudojant, pavyzdžiui, šias dvi formules:

Tiesinės koreliacijos koeficientas gali turėti reikšmes nuo -1 iki + 1 arba modulio nuo 0 iki 1. Kuo absoliučia verte jis artimesnis 1, tuo ryšys artimesnis. Ženklas nurodo ryšio kryptį: „+“ – tiesioginė priklausomybė, „-“ vyksta su atvirkštine priklausomybe.

Statistinėje praktikoje gali pasitaikyti atvejų, kai faktorių ir rezultatinių požymių ypatybės negali būti išreikštos skaičiais. Todėl norint išmatuoti priklausomybės artumą, būtina naudoti kitus rodiklius. Tam tikslui vadinamieji neparametriniai metodai.

Labiausiai paplitę yra rango koreliacijos koeficientai, kurios yra pagrįstos statistinių eilučių reikšmių numeravimo principu. Naudojant rangų koreliacijos koeficientus, koreliuojamos ne x ir y rodiklių reikšmės, o tik jų vietų, kurias jie užima kiekvienoje reikšmių serijoje, skaičiai. Tokiu atveju kiekvieno atskiro vieneto numeris bus jo rangas.

Koreliacijos koeficientus, pagrįstus reitinguoto metodo naudojimu, pasiūlė K. Spearman ir M. Kendall.

Spearman rango koreliacijos koeficientas(p) yra pagrįstas skirtumu tarp gaunamų ir faktorių charakteristikų verčių eilučių ir gali būti apskaičiuojamas pagal formulę

kur d = Nx - Ny , t.y. kiekvienos x ir y reikšmių poros rangų skirtumas; n yra stebėjimų skaičius.

Kendal rango koreliacijos koeficientas() galima nustatyti pagal formulę

kur S = P + Q.

Neparametriniai tyrimo metodai apima asociacijos koeficientas Cus ir atsitiktinumo veiksnys Kkon, kurie naudojami, jei, pavyzdžiui, reikia tirti kokybinių požymių santykio glaudumą, kurių kiekvienas pateikiamas alternatyvių požymių forma.

Šiems koeficientams nustatyti sukuriama skaičiavimo lentelė („keturių laukų“ lentelė), kurioje statistinis predikatas schematiškai pateikiamas tokia forma:

ženklai

Čia a, b, c, d yra dviejų alternatyvių ženklų tarpusavio kombinacijos (kombinacijos) dažniai; n- visas kiekis dažnius.

Prekės paskirstymo koeficientas apskaičiuojamas pagal formulę

Reikia turėti omenyje, kad tiems patiems duomenims atsitiktinumo koeficientas (kinta nuo -1 iki +1) visada yra mažesnis už asociacijos koeficientą.

Jei reikia įvertinti santykio tarp alternatyvių savybių, kurios gali įgyti bet kokį vertės variantų skaičių, glaudumą, taikykite Pirsono tarpusavio konjugacijos koeficientas(KP).

Norint ištirti tokio pobūdžio ryšį, pirminė statistinė informacija pateikiama lentelės pavidalu:

ženklai

Čia mij yra dviejų atributinių požymių tarpusavio derinio dažniai; P yra stebėjimų porų skaičius.

Pearsono abipusio atsitiktinumo koeficientas nustatoma pagal formulę

kur yra vidutinis kvadratinis konjugacijos indeksas:

Abipusio atsitiktinumo koeficientas svyruoja nuo 0 iki 1.

Galiausiai reikėtų paminėti Fechnerio koeficientas, kuris apibūdina elementarų ryšio glaudumo laipsnį, kuriuo patartina nustatyti ryšio egzistavimo faktą, kai yra nedidelis pradinės informacijos kiekis. Šis koeficientas nustatomas pagal formulę

kur na yra atskirų verčių nukrypimų nuo jų aritmetinio vidurkio ženklų sutapimų skaičius; nb - atitinkamai neatitikimų skaičius.

Fechnerio koeficientas gali skirtis -1,0 Kf +1,0 ribose.

Koreliacijos koeficiento formulė

Proceso eigoje ekonominė veiklažmogus palaipsniui susiformavo visa klasė užduotys įvairiems statistiniams modeliams nustatyti.

Reikėjo įvertinti vienų procesų determinizmo laipsnį kitais, reikėjo nustatyti skirtingų procesų ir kintamųjų tarpusavio priklausomybės sandarumą.
Koreliacija yra kintamųjų ryšys vienas su kitu.

Priklausomybės sandarumui įvertinti buvo įvestas koreliacijos koeficientas.

Koreliacijos koeficiento fizikinė reikšmė

traškus fizinę reikšmę koreliacijos koeficientas turi, jei nepriklausomų kintamųjų statistiniams parametrams taikomas normalus skirstinys, toks skirstinys grafiškai vaizduoja Gauso kreivę. O santykis linijinis.

Koreliacijos koeficientas parodo, kaip vieną procesą lemia kitas. Tie. pasikeitus vienam procesui, kaip dažnai keičiasi ir priklausomas procesas. Visai nesikeičia – priklausomybės nėra, kiekvieną kartą iš karto keičiasi – visiška priklausomybė.

Koreliacijos koeficiento reikšmės gali būti diapazone [-1:1]

Nulinė koeficiento reikšmė reiškia, kad tarp nagrinėjamų kintamųjų nėra ryšio.
Kraštutinės diapazono reikšmės reiškia visišką priklausomybę tarp kintamųjų.

Jei koeficiento reikšmė yra teigiama, tai priklausomybė yra tiesioginė.

Su neigiamu koeficientu – priešingai. Tie. pirmuoju atveju, pasikeitus argumentui, funkcija keičiasi proporcingai, antruoju – atvirkščiai.
Kai koreliacijos koeficiento reikšmė yra diapazono viduryje, t.y. nuo 0 iki 1 arba nuo -1 iki 0 rodo neišsamų funkcinį ryšį.
Kuo koeficiento reikšmė arčiau kraštutinių rodiklių, tuo didesnis ryšys tarp kintamųjų arba atsitiktiniai dydžiai. Kuo vertė arčiau 0, tuo mažesnė tarpusavio priklausomybė.
Paprastai koreliacijos koeficientas įgauna tarpines reikšmes.

Koreliacijos koeficientas yra neišmatuojamas dydis

Koreliacijos koeficientas naudojamas statistikoje, koreliacinėje analizėje, statistinėms hipotezėms tikrinti.

Iškeliant kokią nors statistinę vieno atsitiktinio dydžio priklausomybės nuo kito hipotezę, apskaičiuojamas koreliacijos koeficientas. Pagal jį galima spręsti – ar yra ryšys tarp kiekių ir koks jis tankus.

Reikalas tas, kad jūs ne visada galite pamatyti ryšį. Dažnai vertės nėra tiesiogiai susijusios viena su kita, bet priklauso nuo daugelio veiksnių. Tačiau gali pasirodyti, kad atsitiktiniai dydžiai yra tarpusavyje priklausomi per tarpininkaujančių ryšių rinkinį. Žinoma, tai gali nereikšti tiesioginio jų ryšio, todėl, pavyzdžiui, išnykus tarpininkui, gali išnykti ir priklausomybė.

Koreliacinės analizės tikslas yra nustatyti atsitiktinių dydžių (požymių) ryšio stiprumo įvertinimą, apibūdinantį kokį nors realų procesą.
Koreliacinės analizės problemos:
a) Dviejų ar daugiau reiškinių ryšio laipsnio (sandarumo, stiprumo, sunkumo, intensyvumo) matavimas.
b) Veiksnių, turinčių didžiausią įtaką gaunamam požymiui, pasirinkimas, remiantis reiškinių ryšio laipsnio matavimu. Svarbūs veiksniai šiuo aspektu toliau naudojami regresinėje analizėje.
c) Nežinomų priežastinių ryšių nustatymas.

Tarpusavio santykių pasireiškimo formos yra labai įvairios. Kaip dažniausiai pasitaikantys jų tipai, funkciniai (išbaigti) ir koreliacinis (neišsamus) ryšys.
koreliacija Pasireiškia vidutiniškai masiniams stebėjimams, kai nurodytos priklausomo kintamojo reikšmės atitinka tam tikrą nepriklausomo kintamojo tikimybinių verčių skaičių. Ryšys vadinamas koreliacija, jei kiekviena veiksnio požymio reikšmė atitinka tiksliai apibrėžtą neatsitiktinę gauto požymio reikšmę.
Koreliacijos laukas yra vaizdinis koreliacijos lentelės vaizdas. Tai grafikas, kuriame X reikšmės vaizduojamos ant abscisių ašies, Y reikšmės – išilgai ordinačių ašies, o X ir Y deriniai rodomi taškais. Apie ryšio buvimą galima spręsti pagal taškais.
Sandarumo rodikliai leidžia apibūdinti gauto požymio kitimo priklausomybę nuo požymio faktoriaus kitimo.
Geresnis sandarumo laipsnio rodiklis koreliacija yra tiesinės koreliacijos koeficientas. Skaičiuojant šį rodiklį, atsižvelgiama ne tik į nukrypimus individualias vertybesženklas nuo vidurkio, bet ir šių nukrypimų dydis.

Pagrindiniai šios temos klausimai yra regresinio ryšio tarp gauto požymio ir aiškinamojo kintamojo lygtys, mažiausių kvadratų metodas parametrams įvertinti. regresijos modelis, gautos regresijos lygties kokybės analizė, pasikliautinųjų intervalų sudarymas gaunamo požymio reikšmių prognozavimui pagal regresijos lygtį.

2 pavyzdys

Normaliųjų lygčių sistema.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Mūsų duomenims lygčių sistema turi formą
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iš pirmosios lygties išreiškiame a ir pakeiskite antrąja lygtimi:
Gauname b = -3,46, a = 1379,33
Regresijos lygtis:
y = -3,46 x + 1379,33

2. Regresijos lygties parametrų apskaičiavimas.
Pavyzdys reiškia.

Pavyzdžių nuokrypiai:

standartinis nuokrypis

1.1. Koreliacijos koeficientas
kovariacija.

Apskaičiuojame bendravimo artumo rodiklį. Toks rodiklis yra selektyvus tiesinės koreliacijos koeficientas, kuris apskaičiuojamas pagal formulę:

Linijinės koreliacijos koeficiento reikšmės yra nuo –1 iki +1.
Ryšiai tarp požymių gali būti silpni arba stiprūs (glaudūs). Jų kriterijai vertinami Chaddock skalėje:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Mūsų pavyzdyje ryšys tarp Y ir faktoriaus X yra didelis ir atvirkštinis.
Be to, tiesinės poros koreliacijos koeficientą galima nustatyti pagal regresijos koeficientą b:

1.2. Regresijos lygtis(regresijos lygties įvertinimas).

Tiesinės regresijos lygtis yra y = -3,46 x + 1379,33

Koeficientas b = -3,46 rodo vidutinį efektyvaus rodiklio pokytį (y vienetais) didėjant arba mažėjant koeficiento x reikšmei jo matavimo vienetui. Šiame pavyzdyje, padidėjus 1 vienetu, y sumažėja vidutiniškai -3,46.
Koeficientas a = 1379,33 formaliai parodo numatomą y lygį, bet tik tada, jei x=0 yra artimas imties reikšmėms.
Bet jei x=0 yra toli nuo imties x reikšmių, pažodinis aiškinimas gali lemti neteisingus rezultatus ir net jei regresijos linija tiksliai apibūdina stebimos imties reikšmes, nėra garantijos, kad tai taip pat bus atvejis ekstrapoliuojant į kairę arba į dešinę.
Pakeitus atitinkamas x reikšmes į regresijos lygtį, kiekvienam stebėjimui galima nustatyti išlygintas (numatomas) efektyvaus rodiklio y(x) reikšmes.
Ryšys tarp y ir x lemia regresijos koeficiento b ženklą (jei > 0 – tiesioginis ryšys, kitu atveju – atvirkštinis). Mūsų pavyzdyje santykiai yra atvirkštiniai.
1.3. elastingumo koeficientas.
Tiesioginiam veiksnių įtakos efektyviajam požymiui vertinti nepageidautina naudoti regresijos koeficientus (b pavyzdyje), jei skiriasi efektyvaus rodiklio y ir faktoriaus požymio x matavimo vienetai.
Šiems tikslams apskaičiuojami elastingumo koeficientai ir beta koeficientai.
Vidutinis elastingumo koeficientas E parodo, kiek procentų vidutiniškai pasikeis rezultatas suvestinėje adresu nuo jo vidutinės reikšmės keičiant koeficientą x 1% jo vidutinės vertės.
Tamprumo koeficientas randamas pagal formulę:

Tamprumo koeficientas yra mažesnis nei 1. Todėl, jei X pasikeis 1%, Y pasikeis mažiau nei 1%. Kitaip tariant, X įtaka Y nėra reikšminga.
Beta koeficientas parodo, kokia jo standartinio nuokrypio vertės dalimi vidutiniškai pasikeis efektyviojo požymio reikšmė, kai veiksnio požymis pasikeis jo standartinio nuokrypio reikšme, kai likusių nepriklausomų kintamųjų reikšmė fiksuota pastoviame lygyje:

Tie. x padidėjimas standartinio nuokrypio S x reikšme lems vidutinės Y reikšmės sumažėjimą 0,74 standartinio nuokrypio S y.
1.4. Aproksimacijos klaida.
Įvertinkime regresijos lygties kokybę naudodami absoliučią aproksimacijos paklaidą. Vidutinė apytikslė paklaida yra vidutinis apskaičiuotų verčių nuokrypis nuo faktinių:

Kadangi paklaida yra mažesnė nei 15%, šią lygtį galima naudoti kaip regresiją.
Dispersijos analizė.
Dispersijos analizės užduotis yra išanalizuoti priklausomo kintamojo dispersiją:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
kur
∑(y i - y cp) 2 - bendra kvadratinių nuokrypių suma;
∑(y(x) - y cp) 2 - nuokrypių kvadratu suma dėl regresijos ("paaiškintas" arba "fakcinis");
∑(y - y(x)) 2 - likutinė kvadratinių nuokrypių suma.
Teorinis koreliacijos santykis nes tiesinis ryšys yra lygus koreliacijos koeficientui r xy .
Esant bet kokiai priklausomybės formai, santykių sandarumas nustatomas naudojant daugkartinis koreliacijos koeficientas:

Šis koeficientas yra universalus, nes atspindi jungties sandarumą ir modelio tikslumą, taip pat gali būti naudojamas bet kokiai kintamųjų ryšio formai. Kuriant vieno veiksnio koreliacijos modelį, daugkartinės koreliacijos koeficientas yra lygus poros koreliacijos koeficientui r xy .
1.6. Determinacijos koeficientas.
(daugkartinio) koreliacijos koeficiento kvadratas vadinamas determinacijos koeficientu, kuris parodo rezultatinio požymio kitimo proporciją, paaiškinamą faktoriaus požymio kitimu.
Dažniausiai, pateikiant determinacijos koeficiento interpretaciją, jis išreiškiamas procentais.
R 2 \u003d -0,74 2 \u003d 0,5413
tie. 54,13 % atvejų x pokyčiai lemia y pokytį. Kitaip tariant, regresijos lygties pasirinkimo tikslumas yra vidutinis. Likę 45,87 % Y pokyčio yra dėl veiksnių, į kuriuos modelyje neatsižvelgta.

Bibliografija

Ekonometrija: vadovėlis / Red. I.I. Elizieva. - M.: Finansai ir statistika, 2001, p. 34..89.
Magnusas Ja.R., Katyshevas P.K., Peresetskis A.A. Ekonometrija. Pradinis kursas. Pamoka. – 2 leidimas, kun. – M.: Delo, 1998, p. 17..42 val.
Ekonometrijos seminaras: Proc. pašalpa / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko ir kiti; Red. I.I. Elizieva. - M.: Finansai ir statistika, 2001, p. 5..48.