Manekenų regresinė analizė. Duomenų analizės pagrindai. Analizės rezultatų analizė

Pagrindinis regresinės analizės tikslas susideda iš analitinės santykio formos nustatymo, kai gaunamo požymio pokytis atsiranda dėl vieno ar kelių faktoriaus ženklų įtakos, o visų kitų veiksnių, kurie taip pat turi įtakos gaunamam požymiui, rinkinys laikomas pastoviomis ir vidutinėmis reikšmėmis. .
Regresinės analizės uždaviniai:
a) Priklausomybės formos nustatymas. Kalbant apie reiškinių ryšio pobūdį ir formą, yra teigiama tiesinė ir nelinijinė bei neigiama tiesinė ir nelinijinė regresija.
b) Regresijos funkcijos apibrėžimas vienos ar kitos rūšies matematinės lygties pavidalu ir aiškinamųjų kintamųjų įtakos priklausomam kintamajam nustatymas.
c) Nežinomų priklausomo kintamojo reikšmių įvertinimas. Naudodami regresijos funkciją, galite atkurti priklausomo kintamojo reikšmes nurodytų aiškinamųjų kintamųjų verčių intervale (t. y. išspręsti interpoliacijos problemą) arba įvertinti proceso eigą už nurodyto intervalo ribų (t. y. išspręsti ekstrapoliacijos problemą). Rezultatas yra priklausomo kintamojo vertės įvertinimas.

Poros regresija – dviejų kintamųjų y ir x ryšio lygtis: y=f(x), kur y priklausomasis kintamasis (rezultato ženklas); x – nepriklausomas, aiškinamasis kintamasis (ypatybė-faktorius).

Yra tiesinės ir nelinijinės regresijos.
Tiesinė regresija: y = a + bx + ε
Netiesinės regresijos skirstomos į dvi klases: regresijos, kurios yra netiesinės į analizę įtrauktų aiškinamųjų kintamųjų atžvilgiu, bet tiesinės įvertintų parametrų atžvilgiu, ir regresijos, kurios yra netiesinės įvertintų parametrų atžvilgiu.
Regresijos, kurios aiškinamuosiuose kintamuosiuose yra netiesinės:

Regresijos, kurios yra netiesinės apskaičiuotuose parametruose:

  • galia y=a x b ε
  • eksponentinis y=a b x ε
  • eksponentinis y=e a+b x ε
Regresijos lygties konstrukcija sumažinama iki jos parametrų įvertinimo. Regresijų, kurių parametrai yra tiesiniai, parametrams įvertinti naudojamas mažiausių kvadratų (LSM) metodas. LSM leidžia gauti tokius parametrų įverčius, kuriems efektyviosios savybės y faktinių verčių kvadratinių nuokrypių suma nuo teorinių y x verčių yra minimali, t.y.
.
Tiesinėms ir netiesinėms lygtims, redukuojamoms į tiesines, a ir b išsprendžiama tokia sistema:

Galite naudoti paruoštas formules, kurios išplaukia iš šios sistemos:

Ryšio tarp tiriamų reiškinių glaudumas įvertinamas tiesinės regresijos tiesinės poros koreliacijos koeficientu r xy (-1≤r xy ≤1):

ir koreliacijos indeksas p xy – netiesinei regresijai (0≤p xy ≤1):

Sukonstruoto modelio kokybės įvertinimą duos determinacijos koeficientas (indeksas), taip pat vidutinė aproksimacijos paklaida.
Vidutinė apytikslė paklaida yra vidutinis apskaičiuotų verčių nuokrypis nuo faktinių:
.
Leistina verčių A riba - ne daugiau kaip 8-10%.
Vidutinis elastingumo koeficientas E parodo, kiek procentų vidutiniškai pasikeis rezultatas y nuo jo vidutinės reikšmės, kai koeficientas x pasikeis 1% nuo jo vidutinės vertės:
.

Dispersijos analizės užduotis yra išanalizuoti priklausomo kintamojo dispersiją:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
kur ∑(y-y )² - visas kiekis kvadratiniai nuokrypiai;
∑(y x -y)² – nuokrypių kvadratu suma dėl regresijos ("paaiškinta" arba "fakcinė");
∑(y-y x)² - likutinė kvadratinių nuokrypių suma.
Regresija paaiškinamos dispersijos dalis bendroje efektyviojo požymio y dispersijoje apibūdinama nustatymo koeficientu (indeksu) R2:

Determinacijos koeficientas yra koeficiento arba koreliacijos indekso kvadratas.

F testas – regresijos lygties kokybės įvertinimas – susideda iš hipotezės Bet apie regresijos lygties ir ryšio glaudumo rodiklio statistinį nereikšmingumą patikrinimo. Tam atliekamas faktinio F fakto ir kritinės (lentelės) Fišerio F kriterijaus verčių F lentelės palyginimas. F faktas nustatomas pagal faktorinių ir liekamųjų dispersijų verčių santykį, apskaičiuotą vienam laisvės laipsniui:
,
čia n – gyventojų vienetų skaičius; m yra kintamųjų x parametrų skaičius.
F lentelė yra didžiausia galima kriterijaus reikšmė, veikiama atsitiktinių veiksnių tam tikriems laisvės laipsniams ir reikšmingumo lygiui a. Reikšmingumo lygis a – teisingos hipotezės atmetimo tikimybė, jei ji yra teisinga. Paprastai a yra lygus 0,05 arba 0,01.
Jei F lentelė< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F yra faktas, tuomet hipotezė H apie neatmetama ir pripažįstamas statistinis nereikšmingumas, regresijos lygties nepatikimumas.
Regresijos ir koreliacijos koeficientų statistiniam reikšmingumui įvertinti apskaičiuojamas Stjudento t testas ir pasikliautinieji intervalai kiekvienam iš rodiklių. Iškeliama H hipotezė apie atsitiktinį rodiklių pobūdį, t.y. apie jų nereikšmingą skirtumą nuo nulio. Regresijos ir koreliacijos koeficientų reikšmingumo įvertinimas naudojant Stjudento t testą atliekamas lyginant jų reikšmes su atsitiktinės paklaidos dydžiu:
; ; .
Tiesinės regresijos parametrų ir koreliacijos koeficiento atsitiktinės paklaidos nustatomos pagal formules:



Palyginus faktines ir kritines (lentelės) t statistikos reikšmes - t tabl ir t fact - priimame arba atmetame hipotezę H o.
Ryšys tarp Fišerio F testo ir Stjudento t statistikos išreiškiamas lygybe

Jei t lentelė< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t tai, kad hipotezė H apie neatmetama ir atpažįstamas atsitiktinis a, b arba r xy susidarymo pobūdis.
Norėdami apskaičiuoti pasikliautinąjį intervalą, nustatome kiekvieno rodiklio ribinę paklaidą D:
Δ a =t lentelė m a , Δ b =t lentelė m b .
Pasikliautinų intervalų apskaičiavimo formulės yra šios:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γb = b-Δb; γb =b+Δb
Jei nulis patenka į pasikliautinojo intervalo ribas, t.y. Jei apatinė riba yra neigiama, o viršutinė - teigiama, laikoma, kad įvertintas parametras yra lygus nuliui, nes jis negali vienu metu įgyti ir teigiamų, ir neigiamų verčių.
Prognozuojama reikšmė y p nustatoma pakeičiant atitinkamą (prognozuojamą) reikšmę x p į regresijos lygtį y x =a+b·x . Apskaičiuojama vidutinė prognozės m y x standartinė paklaida:
,
kur
ir prognozės pasikliautinasis intervalas sudaromas:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
kur Δ y x =t lentelė ·m y x .

Sprendimo pavyzdys

Užduotis numeris 1. Septynioms Uralo regiono teritorijoms 199X žinomos dviejų ženklų reikšmės.
1 lentelė.

Reikalinga: 1. Norėdami apibūdinti y priklausomybę nuo x, apskaičiuokite šių funkcijų parametrus:
a) linijinis;
b) galios dėsnis (anksčiau reikia atlikti kintamųjų tiesinimo procedūrą imant abiejų dalių logaritmą);
c) parodomasis;
d) lygiakraštė hiperbolė (taip pat reikia išsiaiškinti, kaip iš anksto tiesuoti šį modelį).
2. Įvertinkite kiekvieną modelį naudodami vidutinę aproksimacijos paklaidą A ir Fišerio F testą.

Sprendimas (1 variantas)

Tiesinės regresijos y=a+b·x parametrams a ir b apskaičiuoti (skaičiuoti galima naudojant skaičiuotuvą).
išspręskite normaliųjų lygčių sistemą atžvilgiu a ir b:
Remdamiesi pradiniais duomenimis, apskaičiuojame ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x 2 y2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Iš viso405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
trečia vertė (Iš viso/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89 + 0,35 54,9 ≈ 76,88

Regresijos lygtis: y= 76,88 - 0,35X. Padidinus vidutinį dienos atlyginimą 1 rubliu. išlaidų dalis maisto produktams pirkti mažinama vidutiniškai 0,35 punkto.
Apskaičiuokite tiesinį poros koreliacijos koeficientą:

Bendravimas vidutinio sunkumo, atvirkštinis.
Nustatykime determinacijos koeficientą: r² xy =(-0,35)=0,127
12,7 % rezultato kitimas paaiškinamas x faktoriaus pokyčiu. Faktinių verčių pakeitimas regresijos lygtimi X, nustatome teorines (apskaičiuotas) y x reikšmes. Raskime vidutinės aproksimacijos paklaidos A reikšmę:

Vidutiniškai apskaičiuotos vertės skiriasi nuo faktinių 8,1%.
Apskaičiuokime F kriterijų:

Gauta reikšmė rodo, kad reikia sutikti su hipoteze H 0 apie atskleistos priklausomybės atsitiktinumą ir lygties parametrų bei ryšio glaudumo rodiklio statistinį nereikšmingumą.
1b. Sudarant galios modelį y=a·x b, atliekama kintamųjų tiesinimo procedūra. Pavyzdyje linearizacija atliekama imant abiejų lygties pusių logaritmą:
lg y=lg a + b lg x
Y=C+b Y
kur Y=lg(y), X=lg(x), C=lg(a).

Skaičiavimams naudojame lentelės duomenis. 1.3.
1.3 lentelė

YX YX T 2 x2 y xy-y x(y-yx)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Iš viso12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Vidutiniškai1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Apskaičiuokite C ir b:

C=Y -b X = 1,7605 + 0,298 1,7370 = 2,278126
Gauname tiesinę lygtį: Y=2,278-0,298 X
Jį sustiprinus gauname: y=10 2,278 x -0,298
Faktinių verčių pakeitimas šioje lygtyje X, gauname teorines rezultato vertes. Pagal juos apskaičiuojame rodiklius: jungties sandarumą - koreliacijos indeksą p xy ir vidutinę aproksimacijos paklaidą A .

Galios modelio charakteristikos rodo, kad jis yra šiek tiek geresnis tiesinė funkcija apibūdina santykius.

1c. Prieš sudarant eksponentinės kreivės y \u003d a b x lygtį, atliekama kintamųjų tiesinimo procedūra, kai imamas abiejų lygties dalių logaritmas:
lg y=lg a + x lg b
Y=C+B x
Skaičiavimams naudojame lentelės duomenis.

Yx Yx T 2 x 2y xy-y x(y-yx)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Iš viso12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
trečia zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

Regresijos parametrų reikšmės A ir AT priskiriamas:

A = Y -B x = 1,7605 + 0,0023 54,9 = 1,887
Gaunama tiesinė lygtis: Y=1,887-0,0023x. Mes sustipriname gautą lygtį ir parašome ją įprasta forma:
y x = 10 1,887 10 -0,0023 x = 77,1 0,9947 x
Ryšio tvirtumą įvertiname per koreliacijos indeksą p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Iš viso405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Vidutiniškai57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

Regresinė analizė išmatuotų duomenų modeliavimo ir jų savybių tyrimo metodas. Duomenys susideda iš reikšmių porų priklausomas kintamasis(atsakymo kintamasis) ir nepriklausomas kintamasis(aiškinamasis kintamasis). Regresijos modelis yra nepriklausomo kintamojo ir parametrų su pridėtu atsitiktiniu dydžiu funkcija. Modelio parametrai sukonfigūruoti taip, kad modelis geriausias būdas apytiksliai atitinka duomenis. Aproksimacijos (objektyvios funkcijos) kokybės kriterijus paprastai yra vidutinė kvadratinė paklaida: skirtumo tarp modelio verčių ir priklausomo kintamojo kvadratų suma visoms nepriklausomo kintamojo reikšmėms kaip argumentas. Matematinės statistikos ir mašininio mokymosi regresinės analizės skyrius. Daroma prielaida, kad priklausomasis kintamasis yra tam tikro modelio ir atsitiktinio dydžio reikšmių suma. Dėl šios vertės pasiskirstymo pobūdžio daromos prielaidos, vadinamos duomenų generavimo hipoteze. Norint patvirtinti arba paneigti šią hipotezę, atliekami statistiniai testai, vadinami likučių analize. Tai daroma prielaida, kad nepriklausomas kintamasis neturi klaidų. Regresinė analizė naudojama prognozavimui, laiko eilučių analizei, hipotezių tikrinimui ir paslėptų duomenų sąsajų atradimui.

Regresinės analizės apibrėžimas

Pavyzdys gali būti ne funkcija, o santykis. Pavyzdžiui, regresijos sudarymo duomenys gali būti: . Tokiame pavyzdyje viena kintamojo reikšmė atitinka kelias kintamojo reikšmes.

Tiesinė regresija

Tiesinė regresija daro prielaidą, kad funkcija tiesiškai priklauso nuo parametrų. Šiuo atveju linijinė priklausomybė nuo laisvojo kintamojo yra neprivaloma,

Tuo atveju, kai tiesinės regresijos funkcija turi formą

čia yra vektoriaus komponentai.

Parametrų reikšmės tiesinės regresijos atveju randamos mažiausių kvadratų metodu. Šio metodo naudojimas pateisinamas atsitiktinio dydžio Gauso skirstinio prielaida.

Skirtumai tarp faktinių priklausomo kintamojo verčių ir rekonstruotų yra vadinami regresijos likučiai(likučiai). Sinonimai taip pat vartojami literatūroje: likučiai ir klaidų. Vienas iš svarbių gautos priklausomybės kokybės kriterijaus įverčių yra likučių kvadratų suma:

Čia yra kvadratinių klaidų suma.

Likučių dispersija apskaičiuojama pagal formulę

Čia yra vidutinė kvadrato klaida.

Grafikai rodo pavyzdžius, pažymėtus mėlynais taškais, ir regresijos priklausomybes, pažymėtas ištisomis linijomis. Laisvasis kintamasis brėžiamas išilgai abscisių, o priklausomasis – išilgai ordinačių. Visos trys priklausomybės yra tiesinės parametrų atžvilgiu.

Netiesinė regresija

Netiesinės regresijos modeliai – peržiūrėti modelius

kurio negalima pavaizduoti kaip taškinį sandaugą

kur yra regresijos modelio parametrai, yra laisvasis kintamasis iš erdvės , yra priklausomasis kintamasis, yra atsitiktinis kintamasis ir yra funkcija iš tam tikros duotosios aibės.

Parametrų reikšmės netiesinės regresijos atveju randamos naudojant vieną iš gradiento nusileidimo metodų, pavyzdžiui, Levenbergo-Marquardto algoritmą.

Apie terminus

Terminą „regresija“ sugalvojo Francisas Galtonas XIX amžiaus pabaigoje. Galtonas išsiaiškino, kad aukštų ar žemo ūgio tėvų vaikai paprastai nepaveldi išskirtinio ūgio ir pavadino šį reiškinį „regresija į vidutinybę“. Iš pradžių šis terminas buvo vartojamas tik biologine prasme. Po Karlo Pearsono darbo šis terminas pradėtas vartoti statistikoje.

Statistinėje literatūroje išskiriama regresija, apimanti vieną laisvąjį kintamąjį, ir su keliais laisvaisiais kintamaisiais. vienmatis ir daugiamatis regresija. Daroma prielaida, kad naudojame kelis laisvuosius kintamuosius, tai yra laisvąjį kintamąjį vektorių. Ypatingais atvejais, kai laisvasis kintamasis yra skaliarinis, jis bus žymimas . Išskirti linijinis ir nelinijinis regresija. Jei regresijos modelis nėra linijinis parametrų funkcijų derinys, tada kalbama apie nelinijinę regresiją. Šiuo atveju modelis gali būti savavališka tam tikros aibės funkcijų superpozicija. Netiesiniai modeliai yra eksponentiniai, trigonometriniai ir kiti (pavyzdžiui, radialinės bazinės funkcijos arba Rozenblato perceptronas), kuriuose daroma prielaida, kad ryšys tarp parametrų ir priklausomo kintamojo yra netiesinis.

Išskirti parametrinis ir neparametrinis regresija. Sunku nubrėžti aštrią ribą tarp šių dviejų regresijų tipų. Šiuo metu nėra visuotinai priimto kriterijaus, pagal kurį būtų galima atskirti vieno tipo modelį nuo kito. Pavyzdžiui, tiesiniai modeliai laikomi parametriniais, o modeliai, apimantys priklausomo kintamojo vidurkį per laisvojo kintamojo erdvę, laikomi neparametriniais. Parametrinės regresijos modelio pavyzdys: tiesinis prognozuotojas, daugiasluoksnis perceptronas. Mišrios regresijos modelio pavyzdžiai: Radialinio pagrindo funkcijos. Neparametrinio modelio slenkamasis vidurkis tam tikro pločio lange. Apskritai neparametrinė regresija skiriasi nuo parametrinės regresijos tuo, kad priklausomasis kintamasis priklauso ne nuo vienos laisvojo kintamojo reikšmės, o nuo tam tikros šios reikšmės kaimynystės.

Yra skirtumas tarp terminų: „funkcijos aproksimacija“, „approksimacija“, „interpoliacija“ ir „regresija“. Jį sudaro toliau.

Funkcijų priartinimas. Pateikiama diskretinio arba tęstinio argumento funkcija. Reikia rasti funkciją iš kokios nors parametrinės šeimos, pavyzdžiui, tarp tam tikro laipsnio algebrinių polinomų. Funkcijų parametrai turi užtikrinti minimalias funkcijas, pavyzdžiui,

Terminas aproksimacija termino „funkcijų suderinimas“ sinonimas. Dažniau naudojamas kalbant apie suteikta funkcija, kaip apie diskrečiojo argumento funkciją. Čia taip pat reikia rasti tokią funkciją, kuri eina arčiausiai visų duotosios funkcijos taškų. Tai pristato koncepciją likučiai atstumai tarp tolydžios funkcijos taškų ir atitinkamų diskrečiojo argumento funkcijos taškų.

Interpoliacija veikia specialus aproksimacijos uždavinio atvejis, kai reikalaujama, kad tam tikruose taškuose, vadinamas interpoliacijos mazgai funkcijos ir ją aproksimuojančios funkcijos reikšmės sutapo. Bendresniu atveju kai kurių išvestinių finansinių priemonių vertės yra ribojamos. Tai yra, atsižvelgiant į atskiro argumento funkciją. Būtina rasti funkciją, kuri eina per visus taškus. Šiuo atveju metrika dažniausiai nenaudojama, tačiau dažnai įvedama norimos funkcijos „glotnumo“ sąvoka.

REZULTATAI

8.3a lentelė. Regresijos statistika
Regresijos statistika
Keli R 0,998364
R kvadratas 0,99673
Normalizuotas R kvadratas 0,996321
Standartinė klaida 0,42405
Stebėjimai 10

Pirmiausia pažvelkime į 8.3a lentelėje pateiktų skaičiavimų viršutinę dalį – regresijos statistiką.

R-kvadrato reikšmė, dar vadinama tikrumo matu, apibūdina gautos regresijos linijos kokybę. Ši kokybė išreiškiama pirminių duomenų ir regresijos modelio (apskaičiuotų duomenų) atitikimo laipsniu. Tikrumo matas visada yra intervale .

Daugeliu atvejų R kvadrato reikšmė yra tarp šių reikšmių, vadinamų kraštutinumais, t.y. tarp nulio ir vieneto.

Jei R kvadrato reikšmė yra artima vienetui, tai reiškia, kad sukurtas modelis paaiškina beveik visą atitinkamų kintamųjų kintamumą. Ir atvirkščiai, R kvadrato reikšmė artima nuliui reiškia prastą sukonstruoto modelio kokybę.

Mūsų pavyzdyje tikrumo matas yra 0,99673, o tai rodo labai gerą regresijos linijos atitikimą pradiniams duomenims.

Keli R- koeficientas daugialypė koreliacija R – išreiškia nepriklausomų kintamųjų (X) ir priklausomo kintamojo (Y) priklausomybės laipsnį.

Keli R lygūs kvadratinė šaknis nuo determinacijos koeficiento ši vertė įgauna vertes diapazone nuo nulio iki vieno.

Atliekant paprastą tiesinės regresijos analizę, kartotinis R yra lygus Pirsono koreliacijos koeficientui. Iš tiesų, kartotinis R mūsų atveju yra lygus Pirsono koreliacijos koeficientui iš ankstesnio pavyzdžio (0,998364).

8.3b lentelė. Regresijos koeficientai
Šansai Standartinė klaida t-statistika
Y sankirta 2,694545455 0,33176878 8,121757129
Kintamasis X 1 2,305454545 0,04668634 49,38177965
* Pateikiamas sutrumpintas skaičiavimų variantas

Dabar apsvarstykite vidurinę 8.3b lentelėje pateiktų skaičiavimų dalį. Čia pateikiamas regresijos koeficientas b (2,305454545) ir poslinkis išilgai y ašies, t.y. konstanta a (2,694545455).

Remdamiesi skaičiavimais, regresijos lygtį galime parašyti taip:

Y= x*2,305454545+2,694545455

Ryšio tarp kintamųjų kryptis nustatoma pagal ženklus (neigiamus arba teigiamus) regresijos koeficientai(koeficientas b).

Jei ženklas adresu regresijos koeficientas- teigiamas, priklausomo kintamojo ryšys su nepriklausomu bus teigiamas. Mūsų atveju regresijos koeficiento ženklas yra teigiamas, todėl ir ryšys yra teigiamas.

Jei ženklas adresu regresijos koeficientas- neigiamas, priklausomo ir nepriklausomo kintamojo ryšys yra neigiamas (atvirkštinis).

8.3c lentelėje. pateikiami likučių išvedimo rezultatai. Kad šie rezultatai atsirastų ataskaitoje, paleidžiant įrankį „Regresija“ būtina aktyvuoti varnelę „Likučiai“.

LIKO ATŠALINIMAS

8.3c lentelė. Lieka
Stebėjimas Numatė Y Lieka Standartiniai likučiai
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Naudodamiesi šia ataskaitos dalimi, galime pamatyti kiekvieno taško nuokrypius nuo sukonstruotos regresijos linijos. Didžiausia absoliuti vertė

Regresinė ir koreliacinė analizė – statistinio tyrimo metodai. Tai yra dažniausiai pasitaikantys būdai parodyti parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų.

Žemiau apie konkretų praktinių pavyzdžių Panagrinėkime šias dvi labai populiarias ekonomistų analizes. Taip pat pateiksime pavyzdį, kaip gauti rezultatus, kai jie sujungiami.

Regresinė analizė programoje Excel

Rodo kai kurių reikšmių (nepriklausomų, nepriklausomų) įtaką priklausomam kintamajam. Pavyzdžiui, kaip ekonomiškai aktyvių gyventojų skaičius priklauso nuo įmonių skaičiaus, darbo užmokesčio ir kitų parametrų. Arba: kaip BVP lygį veikia užsienio investicijos, energijos kainos ir pan.

Analizės rezultatas leidžia nustatyti prioritetus. O remiantis pagrindiniais veiksniais numatyti, planuoti prioritetinių sričių plėtrą, priimti valdymo sprendimus.

Regresija vyksta:

  • tiesinis (y = a + bx);
  • parabolinis (y = a + bx + cx 2);
  • eksponentinis (y = a * exp(bx));
  • galia (y = a*x^b);
  • hiperbolinis (y = b/x + a);
  • logaritminis (y = b * 1n(x) + a);
  • eksponentinis (y = a * b^x).

Apsvarstykite regresijos modelio kūrimo Excel programoje ir rezultatų interpretavimo pavyzdį. Paimkime linijinis tipas regresija.

Užduotis. 6 įmonėse buvo analizuojamas vidutinis mėnesinis atlyginimas ir išėjusių darbuotojų skaičius. Būtina nustatyti išėjusių į pensiją darbuotojų skaičiaus priklausomybę nuo vidutinio darbo užmokesčio.

Linijinės regresijos modelis turi tokią formą:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Kur a yra regresijos koeficientai, x yra įtakojantys kintamieji, o k yra veiksnių skaičius.

Mūsų pavyzdyje Y yra pasitraukusių darbuotojų rodiklis. Įtakojantis veiksnys yra darbo užmokestis (x).

„Excel“ turi integruotas funkcijas, kurios gali būti naudojamos tiesinės regresijos modelio parametrams apskaičiuoti. Tačiau „Analysis ToolPak“ priedas tai padarys greičiau.

Suaktyvinkite galingą analizės įrankį:

Kai bus suaktyvintas, priedas bus pasiekiamas skirtuke Duomenys.

Dabar mes tiesiogiai užsiimsime regresine analize.



Pirmiausia atkreipiame dėmesį į R kvadratą ir koeficientus.

R kvadratas yra determinacijos koeficientas. Mūsų pavyzdyje tai yra 0,755 arba 75,5%. Tai reiškia, kad skaičiuojami modelio parametrai ryšį tarp tirtų parametrų paaiškina 75,5 proc. Kuo didesnis determinacijos koeficientas, tuo geresnis modelis. Gerai – virš 0,8. Prastas – mažiau nei 0,5 (tokia analizė vargu ar gali būti laikoma pagrįsta). Mūsų pavyzdyje – „neblogai“.

Koeficientas 64,1428 parodo, koks bus Y, jei visi nagrinėjamo modelio kintamieji yra lygūs 0. Tai yra, kiti faktoriai, kurie modelyje neaprašyti, taip pat turi įtakos analizuojamo parametro reikšmei.

Koeficientas -0,16285 rodo kintamojo X svorį Y. Tai reiškia, kad vidutinis mėnesinis atlyginimas pagal šį modelį įtakoja pasitraukusiųjų skaičių, kurio svoris yra -0,16285 (tai yra nedidelis įtakos laipsnis). „-“ ženklas rodo neigiamą poveikį: kuo didesnis atlyginimas, tuo mažiau mesti. Kas yra sąžininga.



Koreliacijos analizė programoje Excel

Koreliacinė analizė padeda nustatyti, ar yra ryšys tarp rodiklių vienoje ar dviejose imtyse. Pavyzdžiui, tarp mašinos veikimo laiko ir remonto išlaidų, įrangos kainos ir eksploatavimo trukmės, vaikų ūgio ir svorio ir kt.

Jei ryšys yra, tai ar vieno parametro padidėjimas lemia kito padidėjimą (teigiama koreliacija), ar sumažėjimą (neigiamą). Koreliacinė analizė padeda analitikui nustatyti, ar vieno rodiklio reikšmė gali numatyti galimą kito rodiklio reikšmę.

Koreliacijos koeficientas žymimas r. Varijuoja nuo +1 iki -1. Koreliacijų klasifikacija už skirtingos sritys bus kitoks. Kai koeficiento reikšmė yra 0, tarp imčių nėra tiesinio ryšio.

Apsvarstykite, kaip naudoti „Excel“ koreliacijos koeficientui rasti.

Funkcija CORREL naudojama poriniams koeficientams rasti.

Užduotis: Nustatyti, ar yra ryšys tarp tekinimo staklės veikimo laiko ir jos priežiūros išlaidų.

Įveskite žymeklį į bet kurį langelį ir paspauskite fx mygtuką.

  1. Kategorijoje „Statistika“ pasirinkite funkciją CORREL.
  2. Argumentas „1 masyvas“ - pirmasis reikšmių diapazonas - mašinos laikas: A2: A14.
  3. Argumentas „Array 2“ - antrasis verčių diapazonas - remonto kaina: B2:B14. Spustelėkite Gerai.

Norint nustatyti ryšio tipą, reikia pažvelgti į absoliutų koeficiento skaičių (kiekviena veiklos sritis turi savo skalę).

Dėl koreliacinė analizė keli parametrai (daugiau nei 2), patogiau naudoti „Duomenų analizę“ (priedas „Analizės paketas“). Sąraše turite pasirinkti koreliaciją ir nurodyti masyvą. Visi.

Gauti koeficientai bus rodomi koreliacijos matricoje. Kaip šis:

Koreliacinė-regresinė analizė

Praktikoje šie du būdai dažnai naudojami kartu.

Pavyzdys:


Dabar matomi regresinės analizės duomenys.

Statistiniame modeliavime regresinė analizė yra tyrimas, naudojamas santykiams tarp kintamųjų įvertinti. Šis matematinis metodas apima daugybę kitų kelių kintamųjų modeliavimo ir analizės metodų, kai dėmesys sutelkiamas į priklausomo kintamojo ir vieno ar kelių nepriklausomų kintamųjų ryšį. Tiksliau, regresinė analizė padeda suprasti, kaip keičiasi tipinė priklausomo kintamojo vertė, jei pasikeičia vienas iš nepriklausomų kintamųjų, o kiti nepriklausomi kintamieji lieka fiksuoti.

Visais atvejais tikslinis balas yra nepriklausomų kintamųjų funkcija ir vadinamas regresijos funkcija. Atliekant regresinę analizę, taip pat įdomu apibūdinti priklausomo kintamojo pokytį kaip regresijos funkciją, kurią galima apibūdinti naudojant tikimybių skirstinį.

Regresinės analizės uždaviniai

The statistinis metodas tyrimai plačiai naudojami prognozavimui, kur jo naudojimas turi didelį pranašumą, tačiau kartais gali sukelti iliuziją ar klaidingą ryšį, todėl šiame klausime rekomenduojama jį naudoti atsargiai, nes, pavyzdžiui, koreliacija nereiškia priežastinio ryšio. .

Sukurta didelis skaičius regresinės analizės atlikimo metodai, tokie kaip tiesinė ir įprastinė mažiausiųjų kvadratų regresija, kurie yra parametriniai. Jų esmė ta, kad regresijos funkcija apibrėžiama pagal ribotą skaičių nežinomų parametrų, kurie įvertinami iš duomenų. Neparametrinė regresija leidžia jos funkcijai atlikti tam tikrą funkcijų rinkinį, kuris gali būti begalinis.

Regresinė analizė, kaip statistinio tyrimo metodas, praktikoje priklauso nuo duomenų generavimo proceso formos ir nuo to, kaip ji yra susijusi su regresijos metodu. Kadangi tikroji duomenų proceso generavimo forma paprastai yra nežinomas skaičius, duomenų regresinė analizė dažnai tam tikru mastu priklauso nuo proceso prielaidų. Šias prielaidas kartais galima patikrinti, jei yra pakankamai duomenų. Regresijos modeliai dažnai yra naudingi net tada, kai prielaidos yra vidutiniškai pažeidžiamos, nors jie gali neveikti geriausiai.

Siauresne prasme regresija gali konkrečiai reikšti nuolatinių atsako kintamųjų įvertinimą, priešingai nei klasifikuojant naudojami atskiri atsako kintamieji. Nepertraukiamo išvesties kintamojo atvejis taip pat vadinamas metrine regresija, siekiant atskirti jį nuo susijusių problemų.

Istorija

Ankstyviausia regresijos forma yra gerai žinomas mažiausių kvadratų metodas. Jį paskelbė Legendre 1805 m., o Gaussas 1809 m. Legendre ir Gaussas šį metodą taikė astronominių stebėjimų būdu nustatydami kūnų orbitas aplink Saulę (daugiausia kometų, bet vėliau ir naujai atrastų mažųjų planetų). Gaussas paskelbė tolimesnis vystymas mažiausių kvadratų teorija 1821 m., įskaitant Gauso-Markovo teoremos variantą.

Terminą „regresija“ sugalvojo Francisas Galtonas XIX amžiuje apibūdinti biologinis reiškinys. Esmė ta, kad palikuonių augimas nuo protėvių augimo, kaip taisyklė, regresuoja iki normalaus vidurkio. Galtonui regresija turėjo tik šią biologinę reikšmę, tačiau vėliau jo darbą perėmė Udni Yoley ir Karlas Pearsonas ir patraukė į bendresnį statistinį kontekstą. Yule ir Pearson darbuose bendras atsako ir aiškinamųjų kintamųjų pasiskirstymas laikomas Gauso. Šią prielaidą Fischeris atmetė 1922 ir 1925 m. laikraščiuose. Fišeris pasiūlė, kad sąlyginis atsako kintamojo pasiskirstymas yra Gauso, bet jungtinis pasiskirstymas nebūtinai turi būti. Šiuo atžvilgiu Fisherio pasiūlymas yra artimesnis Gauso 1821 m. formuluotei. Iki 1970 m. regresinės analizės rezultato gavimas kartais užtrukdavo iki 24 valandų.

Regresinės analizės metodai ir toliau yra aktyvių tyrimų sritis. Pastaraisiais dešimtmečiais buvo sukurti nauji tvirtos regresijos metodai; regresijos, apimančios koreliuojamus atsakymus; regresijos metodai, kuriuose skirtingi tipai trūkstami duomenys; neparametrinė regresija; Bajeso regresijos metodai; regresijos, kuriose prognozuojamieji kintamieji matuojami su paklaida; regresijos su daugiau prognozių nei stebėjimai ir priežastinės išvados su regresija.

Regresijos modeliai

Regresinės analizės modeliai apima šiuos kintamuosius:

  • Nežinomi parametrai, žymimi kaip beta, kurie gali būti skaliarinis arba vektorius.
  • Nepriklausomi kintamieji, X.
  • Priklausomi kintamieji, Y.

Įvairiose mokslo srityse, kuriose taikoma regresinė analizė, vietoj priklausomų ir nepriklausomų kintamųjų vartojami skirtingi terminai, tačiau visais atvejais regresijos modelis Y sieja su X ir β funkcija.

Aproksimacija paprastai formuluojama kaip E (Y | X) = F (X, β). Norint atlikti regresinę analizę, reikia nustatyti funkcijos f formą. Rečiau jis grindžiamas žiniomis apie Y ir X ryšį, kuris nėra pagrįstas duomenimis. Jeigu tokių žinių nėra, tuomet pasirenkama lanksti arba patogi F forma.

Priklausomas kintamasis Y

Tarkime, kad nežinomų parametrų vektorius β turi ilgį k. Norėdami atlikti regresinę analizę, vartotojas turi pateikti informaciją apie priklausomą kintamąjį Y:

  • Jei stebima N (Y, X) formos duomenų taškų, kur N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jei stebimas tiksliai N = K, o funkcija F yra tiesinė, tai lygtis Y = F(X, β) gali būti išspręsta tiksliai, o ne apytiksliai. Tai reiškia, kad reikia išspręsti N lygčių rinkinį su N nežinomaisiais (β elementais), kurie turi unikalų sprendimą, jei X yra tiesiškai nepriklausomas. Jei F yra netiesinis, sprendimo gali nebūti arba gali būti daug sprendinių.
  • Dažniausiai pasitaiko situacija, kai prie duomenų yra N > taškų. Šiuo atveju duomenyse yra pakankamai informacijos, kad būtų galima įvertinti unikalią β reikšmę, kuri geriausiai atitinka duomenis, o regresijos modelis, taikomas duomenims, gali būti vertinamas kaip nepaisoma β sistema.

Pastaruoju atveju regresinė analizė suteikia priemones, skirtas:

  • Rasti nežinomų parametrų β sprendimą, kuris, pavyzdžiui, sumažins atstumą tarp išmatuotos ir numatomos Y vertės.
  • Esant tam tikroms statistinėms prielaidoms, regresinė analizė naudoja perteklinę informaciją, kad pateiktų statistinę informaciją apie nežinomus parametrus β ir numatomas priklausomo kintamojo Y vertes.

Reikalingas nepriklausomų matavimų skaičius

Apsvarstykite regresijos modelį, kuris turi tris nežinomus parametrus: β 0 , β 1 ir β 2 . Tarkime, kad eksperimentatorius atlieka 10 matavimų toje pačioje nepriklausomo vektoriaus X kintamojo reikšmėje. Šiuo atveju regresinė analizė nepateikia unikalaus reikšmių rinkinio. Geriausia, ką galite padaryti, tai įvertinti priklausomo kintamojo Y vidurkį ir standartinį nuokrypį. Panašiai, išmatuodami dvi skirtingas X reikšmes, galite gauti pakankamai duomenų regresijai su dviem nežinomaisiais, bet ne trimis ar daugiau nežinomųjų.

Jei eksperimentuotojo matavimai buvo atlikti trimis skirtingomis nepriklausomo vektoriaus kintamojo X reikšmėmis, regresinė analizė pateiktų unikalų trijų nežinomų parametrų įverčių rinkinį β.

Bendrosios tiesinės regresijos atveju aukščiau pateiktas teiginys yra lygiavertis reikalavimui, kad matrica X T X būtų apverčiama.

Statistinės prielaidos

Kai matavimų skaičius N yra didesnis už nežinomų parametrų skaičių k ir matavimo paklaidas ε i , tada, kaip taisyklė, matavimuose esančios informacijos perteklius paskirstomas ir naudojamas statistinėms prognozėms dėl nežinomų parametrų. Šis informacijos perteklius vadinamas regresijos laisvės laipsniu.

Pagrindinės prielaidos

Klasikinės regresinės analizės prielaidos yra šios:

  • Mėginių ėmimas reprezentuoja išvadų numatymą.
  • Klaida yra atsitiktinis kintamasis su nuliu vidurkiu, kuris priklauso nuo aiškinamųjų kintamųjų.
  • Nepriklausomi kintamieji matuojami be klaidų.
  • Kaip nepriklausomi kintamieji (prognozatoriai), jie yra tiesiškai nepriklausomi, tai yra, neįmanoma išreikšti jokio prognozuotojo kaip kitų tiesinės kombinacijos.
  • Klaidos yra nekoreliuojamos, tai yra, įstrižainių ir kiekvieno nenulinio elemento paklaidos kovariacijos matrica yra paklaidos dispersija.
  • Klaidos dispersija stebint yra pastovi (homoscedastiškumas). Jei ne, tada galima naudoti svertinius mažiausius kvadratus arba kitus metodus.

Šios pakankamos mažiausiųjų kvadratų įverčio sąlygos turi reikiamas savybes, ypač šios prielaidos reiškia, kad parametrų įvertinimai bus objektyvūs, nuoseklūs ir veiksmingi, ypač kai į juos atsižvelgiama tiesinių įverčių klasėje. Svarbu pažymėti, kad faktiniai duomenys retai tenkina sąlygas. Tai reiškia, kad metodas naudojamas, net jei prielaidos nėra teisingos. Skirtumas nuo prielaidų kartais gali būti naudojamas kaip modelio naudingumo matas. Daugelį šių prielaidų galima sušvelninti naudojant pažangesnius metodus. Ataskaitos Statistinė analizė paprastai apima testų analizę, palyginti su imties duomenimis, ir modelio naudingumo metodiką.

Be to, kai kuriais atvejais kintamieji nurodo reikšmes, išmatuotas taškų vietose. Gali būti kintamųjų erdvinių tendencijų ir erdvinių autokoreliacijų, kurios pažeidžia statistines prielaidas. Geografinė svertinė regresija yra vienintelis metodas, nagrinėjantis tokius duomenis.

Tiesinės regresijos ypatybė yra ta, kad priklausomasis kintamasis, kuris yra Y i , yra tiesinis parametrų derinys. Pavyzdžiui, paprastoje tiesinėje regresijoje n taško modeliavimas naudoja vieną nepriklausomą kintamąjį x i ir du parametrus β 0 ir β 1 .

Daugialypėje tiesinėje regresijoje yra keletas nepriklausomų kintamųjų arba jų funkcijų.

Atsitiktinai atrinkus iš populiacijos, jos parametrai leidžia gauti tiesinės regresijos modelio imtį.

Šiuo aspektu populiariausias yra mažiausių kvadratų metodas. Jame pateikiami parametrų įverčiai, kurie sumažina likučių kvadratų sumą. Dėl tokio šios funkcijos sumažinimo (būdingo tiesinei regresijai) susidaro normaliųjų lygčių rinkinys ir tiesinių lygčių rinkinys su parametrais, kurie išsprendžiami norint gauti parametrų įverčius.

Darant prielaidą, kad populiacijos paklaida paprastai plinta, tyrėjas gali naudoti šiuos standartinių klaidų įverčius, kad sukurtų pasikliautinuosius intervalus ir atliktų hipotezes apie jos parametrus.

Netiesinė regresinė analizė

Pavyzdys, kai funkcija nėra tiesinė parametrų atžvilgiu, rodo, kad kvadratų suma turėtų būti sumažinta naudojant iteracinę procedūrą. Tai sukelia daug komplikacijų, kurios apibrėžia skirtumus tarp tiesinių ir netiesinių mažiausių kvadratų metodų. Vadinasi, regresinės analizės rezultatai, naudojant netiesinį metodą, kartais būna nenuspėjami.

Galios ir imties dydžio apskaičiavimas

Čia, kaip taisyklė, nėra nuoseklių metodų, susijusių su stebėjimų skaičiumi, palyginti su nepriklausomų kintamųjų skaičiumi modelyje. Pirmąją taisyklę pasiūlė Dobra ir Hardinas ir ji atrodo taip: N = t^n, kur N yra imties dydis, n yra aiškinamųjų kintamųjų skaičius, o t yra stebėjimų, kurių reikia norint pasiekti norimą tikslumą, jei modelis turėtų tik vienas aiškinamasis kintamasis. Pavyzdžiui, tyrėjas sukuria tiesinės regresijos modelį naudodamas duomenų rinkinį, kuriame yra 1000 pacientų (N). Jei tyrėjas nusprendžia, kad norint tiksliai nustatyti tiesę (m), reikia atlikti penkis stebėjimus, tai didžiausias modelio palaikomų aiškinamųjų kintamųjų skaičius yra 4.

Kiti metodai

Nors regresijos modelio parametrai dažniausiai įvertinami mažiausiųjų kvadratų metodu, yra ir kitų metodų, kurie naudojami daug rečiau. Pavyzdžiui, tai yra šie metodai:

  • Bajeso metodai (pavyzdžiui, Bajeso tiesinės regresijos metodas).
  • Procentinė regresija, naudojama situacijose, kai manoma, kad tinkamesnis procentų klaidų mažinimas.
  • Mažiausi absoliutūs nuokrypiai, kurie yra patikimesni, kai yra išskirtiniai rodikliai, lemiantys kvantinę regresiją.
  • Neparametrinė regresija, reikalaujanti daugybės stebėjimų ir skaičiavimų.
  • Mokymosi metrikos atstumas, kurio išmokstama ieškant prasmingos atstumo metrikos nurodytoje įvesties erdvėje.

Programinė įranga

Visi pagrindiniai statistinės programinės įrangos paketai atliekami naudojant mažiausių kvadratų regresijos analizę. Kai kuriose skaičiuoklių programose ir kai kuriuose skaičiuotuvuose galima naudoti paprastą tiesinę regresiją ir daugybinę regresijos analizę. Nors daugelis statistinės programinės įrangos paketų gali atlikti įvairaus tipo neparametrinę ir patikimą regresiją, šie metodai yra mažiau standartizuoti; skirtingi programinės įrangos paketai įgyvendina skirtingus metodus. Specializuota regresija programinė įranga buvo sukurtas naudoti tokiose srityse kaip apklausų analizė ir neurovaizdavimas.