Paprasta regresinė analizė. Regresinė analizė yra statistinis metodas, skirtas tirti atsitiktinio dydžio priklausomybę nuo kintamųjų. Analizės rezultatų analizė

Studijų metu studentai labai dažnai susiduria su įvairiomis lygtimis. Viena iš jų – regresijos lygtis – nagrinėjama šiame straipsnyje. Šio tipo lygtys yra naudojamos konkrečiai matematinių parametrų ryšio charakteristikoms apibūdinti. Šis tipas lygybės naudojamos statistikoje ir ekonometrijoje.

Regresijos apibrėžimas

Matematikoje regresija suprantama kaip tam tikras dydis, apibūdinantis duomenų rinkinio vidutinės vertės priklausomybę nuo kito dydžio verčių. Regresijos lygtis, kaip tam tikros ypatybės funkcija, rodo kitos savybės vidutinę reikšmę. Regresijos funkcija yra paprastos lygties y \u003d x forma, kurioje y veikia kaip priklausomas kintamasis, o x yra nepriklausomas (ypatybės faktorius). Tiesą sakant, regresija išreiškiama y = f (x).

Kokie yra ryšių tarp kintamųjų tipai

Apskritai išskiriami du priešingi santykių tipai: koreliacija ir regresija.

Pirmajam būdinga sąlyginių kintamųjų lygybė. AT Ši byla nėra tiksliai žinoma, kuris kintamasis priklauso nuo kito.

Jei tarp kintamųjų nėra lygybės, o sąlygos sako, kuris kintamasis yra aiškinamasis, o kuris priklausomas, tada galime kalbėti apie antrojo tipo ryšio buvimą. Norint sudaryti tiesinės regresijos lygtį, reikės išsiaiškinti, kokio tipo ryšys yra stebimas.

Regresijų rūšys

Iki šiol yra 7 skirtingi regresijos tipai: hiperbolinė, tiesinė, daugkartinė, netiesinė, porinė, atvirkštinė, logaritminė tiesinė.

Hiperbolinė, tiesinė ir logaritminė

Tiesinės regresijos lygtis naudojama statistikoje, siekiant aiškiai paaiškinti lygties parametrus. Atrodo, kad y = c + m * x + E. Hiperbolinė lygtis yra taisyklinga hiperbolė y \u003d c + m / x + E. Logaritmiškai tiesinė lygtis išreiškia ryšį naudojant logaritminę funkciją: In y \u003d In c + m * In x + In E.

Daugialypis ir netiesinis

dar du sudėtingi tipai regresijos yra daugybinės ir netiesinės. Daugialypės regresijos lygtis išreiškiama funkcija y \u003d f (x 1, x 2 ... x c) + E. Šioje situacijoje y yra priklausomas kintamasis, o x yra aiškinamasis kintamasis. Kintamasis E yra stochastinis ir apima kitų lygties veiksnių įtaką. Netiesinės regresijos lygtis yra šiek tiek nenuosekli. Viena vertus, atsižvelgiant į rodiklius, į kuriuos atsižvelgiama, jis nėra tiesinis, o iš kitos pusės, vertinant rodiklius, jis yra linijinis.

Atvirkštinė ir porinė regresija

Atvirkštinė yra tam tikra funkcija, kurią reikia konvertuoti į tiesinę formą. Tradiciškiausiose taikomosiose programose ji turi funkcijos y \u003d 1 / c + m * x + E formą. Suporuota regresijos lygtis rodo ryšį tarp duomenų kaip y = f(x) + E funkciją. Kaip ir kitos lygtys, y priklauso nuo x, o E yra stochastinis parametras.

Koreliacijos samprata

Tai rodiklis, rodantis ryšį tarp dviejų reiškinių ar procesų. Ryšio stiprumas išreiškiamas koreliacijos koeficientu. Jo reikšmė svyruoja intervale [-1;+1]. Neigiamas indikatorius rodo buvimą Atsiliepimas, teigiamas – apie tiesią liniją. Jei koeficientas įgyja reikšmę, lygią 0, tada ryšio nėra. Kuo reikšmė arčiau 1 – tuo stipresnis ryšys tarp parametrų, kuo arčiau 0 – tuo silpnesnis.

Metodai

Koreliacijos parametriniai metodai gali įvertinti ryšio sandarumą. Jie naudojami pasiskirstymo įverčių pagrindu tiriant parametrus, kurie paklūsta normaliojo skirstinio dėsniui.

Tiesinės regresijos lygties parametrai būtini norint nustatyti priklausomybės tipą, regresijos lygties funkciją ir įvertinti pasirinktos ryšio formulės rodiklius. Koreliacijos laukas naudojamas kaip ryšio nustatymo metodas. Norėdami tai padaryti, visi esami duomenys turi būti pavaizduoti grafiškai. Stačiakampėje dvimatėje koordinačių sistemoje visi žinomi duomenys turi būti nubraižyti. Taip susidaro koreliacijos laukas. Aprašomojo koeficiento reikšmė pažymėta išilgai abscisių, o priklausomo koeficiento reikšmės – išilgai ordinatės. Jei tarp parametrų yra funkcinis ryšys, jie išrikiuojami linijos pavidalu.

Jei tokių duomenų koreliacijos koeficientas yra mažesnis nei 30%, galime kalbėti apie beveik visišką ryšio nebuvimą. Jei jis yra nuo 30% iki 70%, tai rodo, kad yra vidutinio sandarumo jungtys. 100% indikatorius rodo funkcinį ryšį.

Netiesinė regresijos lygtis, kaip ir tiesinė, turi būti papildyta koreliacijos indeksu (R).

Daugialypės regresijos koreliacija

Determinacijos koeficientas yra daugialypės koreliacijos kvadrato rodiklis. Jis kalba apie pateikto rodiklių rinkinio santykio su tiriama savybe sandarumą. Taip pat galima kalbėti apie parametrų įtakos rezultatui pobūdį. Daugialypės regresijos lygtis įvertinama naudojant šį rodiklį.

Norint apskaičiuoti daugialypės koreliacijos indeksą, būtina apskaičiuoti jo indeksą.

Mažiausio kvadrato metodas

Šis metodas yra regresijos faktorių įvertinimo būdas. Jo esmė yra sumažinti kvadratinių nuokrypių sumą, gautą dėl faktoriaus priklausomybės nuo funkcijos.

Suporuota tiesinės regresijos lygtis gali būti įvertinta naudojant tokį metodą. Šio tipo lygtys naudojamos nustatant suporuoto tiesinio ryšio rodiklius.

Lygties parinktys

Kiekvienas tiesinės regresijos funkcijos parametras turi tam tikrą reikšmę. Suporuotoje tiesinės regresijos lygtyje yra du parametrai: c ir m. Parametras t rodo vidutinį funkcijos y galutinio rodiklio pokytį, atsižvelgiant į kintamojo x sumažėjimą (padidėjimą) vienu įprastinis vienetas. Jei kintamasis x lygus nuliui, tai funkcija lygi parametrui c. Jei kintamasis x nėra lygus nuliui, tai veiksnys c neturi ekonominės prasmės. Vienintelė įtaka funkcijai yra ženklas prieš veiksnį c. Jei yra minusas, galime pasakyti apie lėtą rezultato pokytį, palyginti su koeficientu. Jei yra pliusas, tai rodo pagreitintą rezultato pasikeitimą.

Kiekvienas parametras, keičiantis regresijos lygties reikšmę, gali būti išreikštas lygtimi. Pavyzdžiui, koeficientas c turi formą c = y - mx.

Sugrupuoti duomenys

Yra tokios užduoties sąlygos, kuriose visa informacija sugrupuojama pagal požymį x, tačiau tuo pačiu tam tikrai grupei nurodomos atitinkamos vidutinės priklausomo rodiklio reikšmės. Šiuo atveju vidutinės reikšmės apibūdina, kaip rodiklis priklauso nuo x. Taigi sugrupuota informacija padeda rasti regresijos lygtį. Jis naudojamas kaip santykių analizė. Tačiau šis metodas turi savo trūkumų. Deja, vidurkiai dažnai priklauso nuo išorinių svyravimų. Šie svyravimai nėra santykių šablonų atspindys, jie tiesiog maskuoja jo „triukšmą“. Vidurkiai rodo santykių modelius daug blogesnius nei tiesinės regresijos lygtis. Tačiau jie gali būti naudojami kaip pagrindas ieškant lygties. Padauginę tam tikros populiacijos dydį iš atitinkamo vidurkio, galite gauti y sumą grupėje. Toliau reikia išmušti visas gautas sumas ir rasti galutinį rodiklį y. Šiek tiek sunkiau atlikti skaičiavimus su sumos rodikliu xy. Tuo atveju, jei intervalai yra maži, rodiklį x galime sąlyginai priimti visiems vienetams (grupėje) vienodai. Padauginkite jį iš y sumos, kad rastumėte x ir y sandaugų sumą. Toliau visos sumos sumušamos ir paaiškėja visas kiekis hu.

Kelių porų lygčių regresija: santykių svarbos įvertinimas

Kaip aptarta anksčiau, daugkartinė regresija turi formos y \u003d f (x 1, x 2, ..., x m) + E funkciją. Dažniausiai tokia lygtis naudojama sprendžiant prekių pasiūlos ir paklausos, palūkanų pajamų už perkamas akcijas problemą, tiriant gamybos kaštų funkcijos priežastis ir tipą. Ji taip pat aktyviai naudojama atliekant įvairius makroekonominius tyrimus ir skaičiavimus, tačiau mikroekonomikos lygmenyje tokia lygtis naudojama kiek rečiau.

Daugialypės regresijos pagrindinis uždavinys – sukurti duomenų modelį, kuriame būtų didžiulis informacijos kiekis, siekiant toliau nustatyti, kokią įtaką kiekvienas veiksnys atskirai ir visumoje turi modeliuojamam rodikliui ir jo koeficientams. Regresijos lygtis gali įgauti įvairias reikšmes. Šiuo atveju ryšiui įvertinti dažniausiai naudojamos dviejų tipų funkcijos: tiesinės ir netiesinės.

Linijinė funkcija pavaizduota tokio ryšio forma: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Šiuo atveju a2, a m laikomi „grynosios“ regresijos koeficientais. Jie reikalingi, norint apibūdinti vidutinį parametro y pokytį, pasikeitus (sumažėjus arba padidėjus) kiekvienam atitinkamam parametrui x vienu vienetu, su sąlyga, kad kitų rodiklių reikšmė yra stabili.

Pavyzdžiui, netiesinės lygtys turi formą galios funkcija y=ax 1 b1 x 2 b2 ...x m bm . Šiuo atveju rodikliai b 1, b 2 ..... b m - vadinami elastingumo koeficientais, jie parodo, kaip pasikeis rezultatas (kiek%), padidėjus (sumažėjus) atitinkamam rodikliui x 1%. ir su stabiliu kitų veiksnių rodikliu.

Į kokius veiksnius reikia atsižvelgti kuriant daugybinę regresiją

Norint teisingai sukonstruoti daugybinę regresiją, būtina išsiaiškinti, į kuriuos veiksnius reikėtų atkreipti ypatingą dėmesį.

Būtina šiek tiek suprasti ekonominių veiksnių ir modeliuojamo ryšio pobūdį. Įtrauktini veiksniai turi atitikti šiuos kriterijus:

  • Turi būti išmatuojamas. Norint panaudoti objekto kokybę apibūdinantį veiksnį, bet kuriuo atveju jam turėtų būti suteikta kiekybinė forma.
  • Neturėtų būti jokių veiksnių tarpusavio koreliacijos ar funkcinių ryšių. Tokie veiksmai dažniausiai sukelia negrįžtamus padarinius – sistemą įprastos lygtys tampa besąlyginis, o tai reiškia jo nepatikimumą ir neaiškius vertinimus.
  • Esant didžiuliam koreliacijos rodikliui, nėra galimybės išsiaiškinti izoliuotos veiksnių įtakos galutiniam rodiklio rezultatui, todėl koeficientai tampa neinterpretuojami.

Statybos metodai

Yra daugybė metodų ir būdų, kaip paaiškinti, kaip pasirinkti lygties veiksnius. Tačiau visi šie metodai yra pagrįsti koeficientų parinkimu naudojant koreliacijos indeksą. Tarp jų yra:

  • Išskyrimo metodas.
  • Įjunkite metodą.
  • Pakopinė regresinė analizė.

Pirmasis metodas apima visų koeficientų atskyrimą iš suvestinės aibės. Antrasis metodas apima daugelio papildomų veiksnių įvedimą. Na, trečiasis yra veiksnių, kurie anksčiau buvo taikomi lygčiai, pašalinimas. Kiekvienas iš šių metodų turi teisę egzistuoti. Jie turi savo pliusų ir minusų, tačiau gali savaip išspręsti nereikalingų rodiklių atrankos klausimą. Paprastai kiekvienu atskiru metodu gauti rezultatai yra gana artimi.

Daugiamatės analizės metodai

Tokie faktorių nustatymo metodai yra pagrįsti atskirų tarpusavyje susijusių požymių derinių svarstymu. Tai apima diskriminacinę analizę, modelio atpažinimą, pagrindinių komponentų analizę ir klasterių analizę. Be to, yra ir faktorinė analizė, tačiau ji atsirado dėl komponentinio metodo kūrimo. Visi jie taikomi tam tikromis aplinkybėmis, esant tam tikroms sąlygoms ir veiksniams.

Kas yra regresija?

Apsvarstykite du nuolatinius kintamuosius x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Padėkime taškus 2D sklaidos diagramoje ir sakykime, kad turime linijinis ryšys jei duomenys aproksimuojami tiesia linija.

Jei manytume, kad y priklauso nuo x, ir pokyčius y kuriuos sukelia pokyčiai x, galime apibrėžti regresijos tiesę (regresiją y ant x), kuris geriausiai apibūdina tiesioginį ryšį tarp šių dviejų kintamųjų.

Statistinis žodžio „regresija“ vartojimas kilęs iš reiškinio, žinomo kaip regresija iki vidurkio, priskiriamo serui Francisui Galtonui (1889).

Jis parodė, kad nors aukšti tėvai dažniausiai turi aukštus sūnus, vidutinis sūnų ūgis yra mažesnis nei jų aukštų tėčių. Vidutinis sūnų ūgis „regresavo“ ir „atsikėlė“ į visų populiacijos tėvų vidutinį ūgį. Taigi vidutiniškai aukšti tėvai turi žemesnius (bet vis tiek aukštesnius) sūnus, o žemo ūgio – aukštesnius (bet vis tiek gana žemo ūgio) sūnus.

regresijos linija

Matematinė lygtis, įvertinanti paprastą (porinę) tiesinės regresijos tiesę:

x vadinamas nepriklausomu kintamuoju arba prognozuotoju.

Y yra priklausomasis arba atsako kintamasis. Tai vertė, kurios mes tikimės y(vidutiniškai), jei žinome vertę x, t.y. yra numatoma vertė y»

  • a- laisvas narys (perėjimas) vertinimo linijoje; šią vertę Y, kada x=0(1 pav.).
  • b- numatomos linijos nuolydis arba nuolydis; tai suma, kuria Y vidutiniškai padidėja, jei didiname x vienam vienetui.
  • a ir b vadinami įvertintos linijos regresijos koeficientais, nors šis terminas dažnai vartojamas tik b.

Porinė tiesinė regresija gali būti išplėsta įtraukiant daugiau nei vieną nepriklausomą kintamąjį; šiuo atveju jis žinomas kaip daugybinė regresija.

1 pav. Tiesinės regresijos linija, rodanti a ir nuolydžio b sankirtą (Y padidėjimo dydis, kai x padidėja vienu vienetu)

Mažiausio kvadrato metodas

Regresinę analizę atliekame naudodami stebėjimų imtį kur a ir b- tikrų (bendrų) parametrų α ir β imties įverčiai, kurie lemia tiesinės regresijos liniją populiacijoje (bendrojoje populiacijoje).

Dauguma paprastas metodas nustatant koeficientus a ir b yra mažiausių kvadratų metodas(MNK).

Tinkamumas įvertinamas atsižvelgiant į likučius (kiekvieno taško vertikalus atstumas nuo linijos, pvz., likutinis = pastebimas y– prognozavo y, Ryžiai. 2).

Geriausiai tinkanti linija parenkama taip, kad likučių kvadratų suma būtų minimali.

Ryžiai. 2. Tiesinės regresijos linija su kiekvieno taško likučiais (vertikaliomis punktyrinėmis linijomis).

Tiesinės regresijos prielaidos

Taigi kiekvienos stebimos reikšmės likutis yra lygus skirtumui ir atitinkamam numatomam.Kiekviena liekana gali būti teigiama arba neigiama.

Galite naudoti likučius, kad patikrintumėte šias tiesinės regresijos prielaidas:

  • Likučiai paprastai pasiskirsto su nuliniu vidurkiu;

Jei tiesiškumo, normalumo ir (arba) pastovios dispersijos prielaidos yra abejotinos, galime transformuoti arba apskaičiuoti nauja linija regresija, kuriai šios prielaidos yra tenkinamos (pavyzdžiui, naudokite logaritminė transformacija ar kiti).

Nenormalios vertės (išskyros) ir įtakos taškai

„Įtakingas“ stebėjimas, jei jis praleistas, pakeičia vieną ar daugiau modelio parametrų įverčių (ty nuolydžio arba pertraukos).

Nukrypimas (pastebėjimas, kuris prieštarauja daugumai duomenų rinkinio verčių) gali būti „įtakingas“ stebėjimas ir gali būti gerai aptiktas vizualiai žiūrint į 2D sklaidos diagramą arba likučių diagramą.

Tiek išskirtiniams, tiek „įtakingiems“ stebėjimams (taškams) naudojami modeliai, tiek su jų įtraukimu, tiek be jų, atkreipkite dėmesį į įverčio (regresijos koeficientų) pokytį.

Atlikdami analizę automatiškai neatmeskite nuokrypių ar įtakos taškų, nes tiesiog jų ignoravimas gali turėti įtakos rezultatams. Visada ištirkite šių nukrypimų priežastis ir jas analizuokite.

Tiesinės regresijos hipotezė

Konstruojant tiesinę regresiją tikrinama nulinė hipotezė, kad bendras regresijos tiesės nuolydis β nulis.

Jei linijos nuolydis lygus nuliui, tiesinio ryšio tarp ir nėra: pokytis įtakos neturi

Norėdami patikrinti nulinę hipotezę, kad tikrasis nuolydis yra nulis, galite naudoti šį algoritmą:

Apskaičiuokite testo statistiką, lygią santykiui , kuris paklūsta pasiskirstymui su laisvės laipsniais, kur koeficiento standartinė paklaida


,

- likučių dispersijos įvertinimas.

Paprastai, jei pasiektas reikšmingumo lygis yra nulinė hipotezė, atmetama.


kur yra pasiskirstymo su laisvės laipsniais procentinis taškas, suteikiantis dvipusio testo tikimybę

Tai yra intervalas, kuriame yra bendras nuolydis su 95% tikimybe.

Tarkime, kad dideliems pavyzdžiams galime apytiksliai apskaičiuoti vertę 1,96 (ty bandymo statistika bus įprastai paskirstyta).

Tiesinės regresijos kokybės įvertinimas: determinacijos koeficientas R 2

Dėl linijinio ryšio ir mes tikimės, kad tai keičiasi kaip pokyčiai , ir tai vadiname variacija, kuri atsiranda dėl regresijos arba ja paaiškinama. Likutinis pokytis turi būti kuo mažesnis.

Jei taip, tai didžioji dalis variacijos bus paaiškinta regresija, o taškai bus arti regresijos tiesės, t.y. linija gerai atitinka duomenis.

Visa dispersijos dalis, kuri paaiškinama regresija, vadinama determinacijos koeficientas, paprastai išreiškiamas procentais ir žymimas R2(porinėje tiesinėje regresijoje tai yra reikšmė r2, koreliacijos koeficiento kvadratas), leidžia subjektyviai įvertinti regresijos lygties kokybę.

Skirtumas yra dispersijos procentas, kurio negalima paaiškinti regresija.

Nėra oficialaus įvertinimo testo, esame priversti pasikliauti subjektyviu sprendimu, kad nustatytų regresijos linijos atitikimo kokybę.

Regresijos linijos taikymas prognozei

Galite naudoti regresijos liniją, norėdami nuspėti reikšmę iš vertės, esančios stebimo diapazono viduje (niekada neekstrapoliuokite už šių ribų).

Mes prognozuojame stebimų objektų, turinčių tam tikrą vertę, vidurkį, pakeisdami šią reikšmę regresijos linijos lygtimi.

Taigi, jei prognozuojama kaip Mes naudojame šią prognozuojamą vertę ir jos standartinę paklaidą, kad įvertintume tikrojo populiacijos vidurkio pasikliautinąjį intervalą.

Kartodami šią procedūrą skirtingoms vertėms, galite sukurti šios eilutės patikimumo ribas. Tai juosta arba sritis, kurioje yra tikroji linija, pavyzdžiui, su 95 % patikimumo lygiu.

Paprasti regresijos planai

Paprastuose regresijos modeliuose yra vienas nenutrūkstamas prognozuotojas. Jei yra 3 atvejai, kurių prognozės reikšmės P , pvz., 7, 4 ir 9, ir dizainas apima pirmosios eilės efektą P , tada projektavimo matrica X bus

a regresijos lygtis naudojant P X1 atrodo taip

Y = b0 + b1 P

Jei paprastoje regresijos konstrukcijoje yra didesnės eilės efektas P , pvz., kvadratinis efektas, tada projektavimo matricos X1 stulpelio reikšmės bus padidintos iki antrojo laipsnio:

ir lygtis įgaus formą

Y = b0 + b1 P2

Sigma apriboti ir per daug parametrizuoti kodavimo metodai netaikomi paprastoms regresijos konstrukcijoms ir kitoms konstrukcijoms, kuriose yra tik tolydžios prognozės (nes kategoriškų prognozių tiesiog nėra). Nepriklausomai nuo pasirinkto kodavimo metodo, nuolatinių kintamųjų reikšmės padidinamos atitinkama galia ir naudojamos kaip X kintamųjų reikšmės. Tokiu atveju konvertavimas neatliekamas. Be to, aprašydami regresijos planus galite neatsižvelgti į plano matricą X ir dirbti tik su regresijos lygtimi.

Pavyzdys: paprasta regresinė analizė

Šiame pavyzdyje naudojami lentelėje pateikti duomenys:

Ryžiai. 3. Pradinių duomenų lentelė.

Duomenys pagrįsti palyginus 1960 ir 1970 m. surašymus 30 atsitiktinai atrinktų apskričių. Apskričių pavadinimai vaizduojami kaip stebėjimo pavadinimai. Informacija apie kiekvieną kintamąjį pateikiama žemiau:

Ryžiai. 4. Kintamųjų specifikacijų lentelė.

Tyrimo tikslas

Šiame pavyzdyje bus analizuojama koreliacija tarp skurdo lygio ir galios, numatančios šeimų, kurios yra žemiau skurdo ribos, procentą. Todėl kintamąjį 3 (Pt_Poor ) laikysime priklausomu kintamuoju.

Galima iškelti hipotezę: gyventojų skaičiaus pokytis ir šeimų procentas žemiau skurdo ribos yra susiję. Atrodo pagrįsta manyti, kad skurdas lemia gyventojų nutekėjimą, taigi būtų neigiama koreliacija tarp žemiau skurdo ribos esančių žmonių procento ir gyventojų skaičiaus kaitos. Todėl 1 kintamąjį (Pop_Chng ) laikysime nuspėjamuoju kintamuoju.

Peržiūrėti rezultatus

Regresijos koeficientai

Ryžiai. 5. Regresijos koeficientai Pt_Poor ant Pop_Chng.

Pop_Chng eilutės ir Param sankirtoje. nestandartizuotas Pt_Poor regresijos koeficientas Pop_Chng yra -0,40374 . Tai reiškia, kad kiekvienam vienetiniam gyventojų skaičiaus mažėjimui skurdo lygis padidėja 0,40374. Viršutinė ir apatinė (numatytoji) 95 % pasikliovimo ribos šiam nestandartizuotam koeficientui neapima nulio, todėl regresijos koeficientas yra reikšmingas p lygiu<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Kintamųjų pasiskirstymas

Koreliacijos koeficientai gali būti gerokai pervertinti arba neįvertinti, jei duomenyse yra didelių nukrypimų. Panagrinėkime priklausomo kintamojo Pt_Poor pasiskirstymą pagal apskritis. Norėdami tai padaryti, sukursime kintamojo Pt_Poor histogramą.

Ryžiai. 6. Pt_Poor kintamojo histograma.

Kaip matote, šio kintamojo pasiskirstymas labai skiriasi nuo normalaus. Tačiau, nors net dviejose apskrityse (dešinės pusės stulpeliai) yra didesnis procentas šeimų, esančių žemiau skurdo ribos, nei tikėtasi esant normaliam pasiskirstymui, atrodo, kad jos yra „ribose“.

Ryžiai. 7. Pt_Poor kintamojo histograma.

Šis sprendimas yra šiek tiek subjektyvus. Nykščio taisyklė yra ta, kad nuokrypius reikia atsižvelgti, jei stebėjimas (ar stebėjimai) nepatenka į intervalą (vidurkis ± 3 kartus didesnis už standartinį nuokrypį). Tokiu atveju verta pakartoti analizę su ir be nuokrypių, kad įsitikintumėte, jog jie neturi rimtos įtakos koreliacijai tarp populiacijos narių.

Taškinė diagrama

Jei viena iš hipotezių a priori yra apie ryšį tarp duotųjų kintamųjų, tai naudinga ją patikrinti atitinkamos sklaidos diagramoje.

Ryžiai. 8. Taškinė diagrama.

Sklaidos diagrama rodo aiškią neigiamą koreliaciją (-.65) tarp dviejų kintamųjų. Tai taip pat rodo 95 % pasikliovimo intervalą regresijos linijai, t. y. su 95 % tikimybe regresijos linija eina tarp dviejų punktyrinių kreivių.

Reikšmingumo kriterijai

Ryžiai. 9. Lentelė su reikšmingumo kriterijais.

Pop_Chng regresijos koeficiento testas patvirtina, kad Pop_Chng yra stipriai susijęs su Pt_Poor , p<.001 .

Rezultatas

Šis pavyzdys parodė, kaip analizuoti paprastą regresijos planą. Taip pat buvo pateikta nestandartinių ir standartizuotų regresijos koeficientų interpretacija. Aptariama priklausomo kintamojo atsako pasiskirstymo tyrimo svarba, demonstruojama santykio tarp prognozuojančiojo ir priklausomo kintamojo krypties ir stiprumo nustatymo technika.

Esant koreliacijai tarp faktoriaus ir gaunamų ženklų, gydytojai dažnai turi nustatyti, kiek vieno ženklo reikšmė gali pasikeisti, kai kitą pakeičia visuotinai priimtas ar paties tyrėjo nustatytas matavimo vienetas.

Pavyzdžiui, kaip pasikeis 1 klasės moksleivių (mergaičių ar berniukų) kūno svoris, jei jų ūgis padidės 1 cm. Tam naudojamas regresinės analizės metodas.

Dažniausiai regresinės analizės metodas taikomas kuriant normatyvines fizinio išsivystymo skales ir standartus.

  1. Regresijos apibrėžimas. Regresija yra funkcija, leidžianti, remiantis vidutine vieno atributo verte, nustatyti kito atributo, susieto su pirmuoju, vidutinę reikšmę.

    Šiuo tikslu naudojamas regresijos koeficientas ir daugybė kitų parametrų. Pavyzdžiui, galite apskaičiuoti vidutinį peršalimo ligų skaičių esant tam tikroms vidutinės mėnesio oro temperatūros vertėms rudens-žiemos laikotarpiu.

  2. Regresijos koeficiento apibrėžimas. Regresijos koeficientas yra absoliuti reikšmė, kuria vieno požymio reikšmė vidutiniškai pasikeičia, kai nustatytas matavimo vienetas pasikeičia kitas su juo susijęs požymis.
  3. Regresijos koeficiento formulė. R y / x \u003d r xy x (σ y / σ x)
    kur R y / x - regresijos koeficientas;
    r xy – koreliacijos koeficientas tarp požymių x ir y;
    (σ y ir σ x) - standartiniai požymių nuokrypiai x ir y.

    Mūsų pavyzdyje;
    σ x = 4,6 (standartinis oro temperatūros nuokrypis rudens-žiemos laikotarpiu;
    σ y = 8,65 (standartinis infekcinių peršalimo ligų skaičiaus nuokrypis).
    Taigi, R y/x yra regresijos koeficientas.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, t.y. sumažėjus vidutinei mėnesio oro temperatūrai (x) 1 laipsniu, vidutinis infekcinių peršalimo ligų skaičius (y) rudens-žiemos laikotarpiu keisis 1,8 atvejo.

  4. Regresijos lygtis. y \u003d M y + R y / x (x - M x)
    čia y yra atributo vidutinė reikšmė, kuri turėtų būti nustatyta pasikeitus kito požymio (x) vidutinei reikšmei;
    x - žinoma vidutinė kitos savybės reikšmė;
    R y/x - regresijos koeficientas;
    M x, M y - žinomos vidutinės savybių x ir y reikšmės.

    Pavyzdžiui, vidutinis infekcinių peršalimo ligų skaičius (y) gali būti nustatytas be specialių matavimų esant bet kokiai vidutinei mėnesio oro temperatūros vidutinei vertei (x). Taigi, jei x \u003d - 9 °, R y / x \u003d 1,8 ligos, M x \u003d -7 °, M y \u003d 20 ligų, tada y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 .6 = 23,6 ligos.
    Ši lygtis taikoma tiesiniam ryšiui tarp dviejų požymių (x ir y).

  5. Regresijos lygties tikslas. Regresijos lygtis naudojama regresijos tiesei braižyti. Pastaroji leidžia be specialių matavimų nustatyti bet kokią vidutinę vieno požymio reikšmę (y), jei pasikeičia kito požymio reikšmė (x). Remiantis šiais duomenimis sudaromas grafikas - regresijos linija, kuris gali būti naudojamas vidutiniam peršalimo ligų skaičiui nustatyti esant bet kokiai vidutinės mėnesio temperatūros vertei intervale tarp apskaičiuotų peršalimo ligų skaičiaus verčių.
  6. Regresijos sigma (formulė).
    kur σ Ru/x - regresijos sigma (standartinis nuokrypis);
    σ y – standartinis požymio y nuokrypis;
    r xy – koreliacijos koeficientas tarp požymių x ir y.

    Taigi, jei σ y yra standartinis peršalimo ligų skaičiaus nuokrypis = 8,65; r xy - koreliacijos koeficientas tarp peršalimo ligų skaičiaus (y) ir vidutinės mėnesio oro temperatūros rudens-žiemos laikotarpiu (x) yra - 0,96, tada

  7. Sigmos regresijos tikslas. Pateikiama gauto požymio įvairovės mato charakteristika (y).

    Pavyzdžiui, tai apibūdina peršalimo ligų skaičiaus įvairovę esant tam tikrai vidutinės mėnesio oro temperatūros vertei rudens-žiemos laikotarpiu. Taigi vidutinis peršalimo atvejų skaičius, kai oro temperatūra yra x 1 \u003d -6 °, gali svyruoti nuo 15,78 ligos iki 20,62 ligos.
    Esant x 2 = -9°, vidutinis peršalimo ligų skaičius gali svyruoti nuo 21,18 ligos iki 26,02 ligos ir kt.

    Regresijos sigma naudojama kuriant regresijos skalę, kuri atspindi efektyvaus požymio verčių nuokrypį nuo jo vidutinės vertės, pavaizduotos regresijos tiesėje.

  8. Duomenys, reikalingi regresijos skalei apskaičiuoti ir brėžti
    • regresijos koeficientas - Ry/x;
    • regresijos lygtis - y \u003d M y + R y / x (x-M x);
    • regresijos sigma – σ Rx/y
  9. Skaičiavimų seka ir regresijos skalės grafinis pavaizdavimas.
    • nustatykite regresijos koeficientą pagal formulę (žr. 3 pastraipą). Pavyzdžiui, reikėtų nustatyti, kiek vidutiniškai pasikeis kūno svoris (tam tikrame amžiuje, priklausomai nuo lyties), jei vidutinis ūgis pasikeis 1 cm.
    • pagal regresijos lygties formulę (žr. 4 pastraipą) nustatykite, koks bus vidutinis, pavyzdžiui, kūno svoris (y, y 2, y 3 ...) * tam tikrai augimo vertei (x, x 2, x 3 ...).
      ________________
      * „y“ vertė turėtų būti skaičiuojama bent trims žinomos vertės"X".

      Tuo pačiu metu yra žinomos vidutinės kūno svorio ir ūgio vertės (M x ir M y) tam tikram amžiui ir lyčiai.

    • apskaičiuokite regresijos sigmą, žinodami atitinkamas σ y ir r xy reikšmes ir pakeisdami jų reikšmes į formulę (žr. 6 pastraipą).
    • remiantis žinomomis reikšmėmis x 1, x 2, x 3 ir jų atitinkamomis vidutinėmis reikšmėmis y 1, y 2 y 3, taip pat mažiausiomis (y - σ ru / x) ir didžiausiomis (y + σ ru / x) reikšmės(y) sudaro regresijos skalę.

      Grafiniam regresijos skalės pavaizdavimui pirmiausia grafike pažymimos reikšmės x, x 2 , x 3 (y ašis), t.y. statoma regresinė linija, pavyzdžiui, kūno svorio (y) priklausomybė nuo ūgio (x).

      Tada atitinkamuose taškuose y 1 , y 2 , y 3 pažymimos regresijos sigmos skaitinės reikšmės, t.y. grafike raskite mažiausią ir didžiausią y 1 , y 2 , y 3 reikšmes.

  10. Praktinis regresijos skalės panaudojimas. Kuriamos norminės skalės ir standartai, ypač fiziniam vystymuisi. Pagal standartinę skalę galima individualiai įvertinti vaikų raidą. Tuo pačiu fizinis vystymasis vertinamas kaip harmoningas, jei, pavyzdžiui, esant tam tikram ūgiui, vaiko kūno svoris yra vienos regresijos sigmos ribose iki vidutinio apskaičiuoto kūno svorio vieneto - (y) tam tikram ūgiui (x) ( y ± 1 σ Ry / x).

    Fizinis vystymasis laikomas neharmoningu pagal kūno svorį, jei vaiko kūno svoris tam tikram ūgiui yra antrosios regresijos sigmos ribose: (y ± 2 σ Ry/x)

    Fizinis vystymasis bus smarkiai neharmoningas tiek dėl perteklinio, tiek dėl nepakankamo kūno svorio, jei kūno svoris tam tikram ūgiui yra trečiosios regresijos sigmos ribose (y ± 3 σ Ry/x).

Remiantis statistinio 5 metų berniukų fizinio išsivystymo tyrimo rezultatais, žinoma, kad jų vidutinis ūgis (x) yra 109 cm, o vidutinis kūno svoris (y) – 19 kg. Ūgio ir kūno svorio koreliacijos koeficientas yra +0,9, standartiniai nuokrypiai pateikti lentelėje.

Reikalinga:

  • apskaičiuoti regresijos koeficientą;
  • naudodamiesi regresijos lygtimi, nustatykite, koks bus numatomas 5 metų berniukų kūno svoris, kai ūgis lygus x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • apskaičiuoti regresijos sigmą, sudaryti regresijos skalę, grafiškai pateikti jos sprendimo rezultatus;
  • padaryti atitinkamas išvadas.

Problemos būklė ir jos sprendimo rezultatai pateikti suvestinėje lentelėje.

1 lentelė

Problemos sąlygos Problemos sprendimo rezultatai
regresijos lygtis sigma regresija regresijos skalė (numatomas kūno svoris (kg))
M σ r xy R y/x X At σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Aukštis (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kūno svoris (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Sprendimas.

Išvada. Taigi, regresijos skalė pagal apskaičiuotas kūno svorio vertes leidžia ją nustatyti pagal bet kokią kitą augimo vertę arba įvertinti individualų vaiko vystymąsi. Norėdami tai padaryti, atkurkite statmeną regresijos tiesei.

  1. Vlasovas V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Visuomenės sveikata ir sveikatos priežiūra. Vadovėlis aukštosioms mokykloms. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medikas V.A., Jurijevas V.K. Visuomenės sveikatos ir sveikatos priežiūros paskaitų kursas: 1 dalis. Visuomenės sveikata. - M.: Medicina, 2003. - 368 p.
  4. Minyajevas V.A., Višniakovas N.I. ir kt.. Socialinės medicinos ir sveikatos priežiūros organizavimas (Vadas 2 tomai). - Sankt Peterburgas, 1998. -528 p.
  5. Kučerenko V.Z., Agarkovas N.M. ir kt.. Socialinė higiena ir sveikatos priežiūros organizavimas (Mokomoji medžiaga) - Maskva, 2000. - 432 p.
  6. S. Glantzas. Medicininė-biologinė statistika. Per iš anglų kalbos. - M., Praktika, 1998. - 459 p.

Regresinė analizė tiria tam tikro dydžio priklausomybę nuo kito kiekio ar kelių kitų dydžių. Regresinė analizė daugiausia naudojama prognozuojant vidutinės trukmės laikotarpį, taip pat atliekant ilgalaikes prognozes. Vidutinės ir ilgalaikės trukmės laikotarpiai leidžia nustatyti verslo aplinkos pokyčius ir atsižvelgti į šių pokyčių įtaką tiriamam rodikliui.

Norint atlikti regresinę analizę, būtina:

    metinių duomenų apie tiriamus rodiklius prieinamumas,

    vienkartinių prognozių prieinamumas, t.y. prognozės, kurios nepagerėja dėl naujų duomenų.

Regresinė analizė dažniausiai atliekama objektams, kurie turi kompleksinį, daugiafaktorinį pobūdį, pavyzdžiui, investicijų apimtis, pelnas, pardavimų apimtys ir kt.

At normatyvinis prognozavimo metodas nustatomi galimų reiškinio būsenų, laikomų tikslu, pasiekimo būdai ir terminai. Kalbame apie norimų reiškinio būsenų pasiekimo prognozavimą remiantis iš anksto nustatytomis normomis, idealais, paskatomis ir tikslais. Tokia prognozė atsako į klausimą: kokiais būdais galima pasiekti norimą? Normatyvinis metodas dažniau naudojamas programinėms arba tikslinėms prognozėms. Naudojama ir kiekybinė standarto išraiška, ir tam tikra vertinimo funkcijos galimybių skalė.

Vartojant kiekybinę išraišką, pavyzdžiui, fiziologines ir racionalias tam tikrų maisto ir ne maisto produktų vartojimo normas, sukurtas specialistų įvairioms gyventojų grupėms, galima nustatyti šių prekių suvartojimo lygį. metus iki nurodytos normos pasiekimo. Tokie skaičiavimai vadinami interpoliacija. Interpoliacija yra būdas apskaičiuoti rodiklius, kurių trūksta reiškinio laiko eilutėje, remiantis nustatytu ryšiu. Atsižvelgiant į faktinę indikatoriaus vertę ir jo standartų vertę kaip kraštutinius dinaminės serijos narius, galima nustatyti šios serijos verčių dydį. Todėl interpoliacija laikoma normatyviniu metodu. Anksčiau pateikta formulė (4), naudojama ekstrapoliacijoje, gali būti naudojama interpoliacijoje, kur y n charakterizuos nebe faktinius duomenis, o rodiklio etaloną.

Jei normatyviniame metode naudojama vertinimo funkcijos galimybių skalė (laukas, spektras), t.y. pirmenybių pasiskirstymo funkcija, nurodoma maždaug tokia gradacija: nepageidaujamas - mažiau pageidautinas - labiau pageidautinas - labiausiai pageidautinas - optimalus ( standartas).

Normatyvinio prognozavimo metodas padeda parengti rekomendacijas, kaip padidinti objektyvumo lygį, taigi ir sprendimų efektyvumą.

Modeliavimas, bene sunkiausias prognozavimo metodas. Matematinis modeliavimas – tai ekonominio reiškinio apibūdinimas naudojant matematines formules, lygtis ir nelygybes. Matematinis aparatas turėtų tiksliai atspindėti prognozuojamą foną, nors gana sunku visiškai atspindėti visą numatomo objekto gylį ir sudėtingumą. Terminas „modelis“ yra kilęs iš lotyniško žodžio modelus, kuris reiškia „matuoti“. Todėl modeliavimą teisingiau būtų laikyti ne prognozavimo, o panašaus reiškinio modelio tyrimo metodu.

Plačiąja prasme modeliai vadinami tiriamojo objekto pakaitalais, kurie yra tokio panašumo su juo, kad leidžia gauti naujų žinių apie objektą. Modelis turėtų būti laikomas matematiniu objekto aprašymu. Šiuo atveju modelis apibrėžiamas kaip reiškinys (objektas, instaliacija), kuris yra tam tikra korespondencija su tiriamu objektu ir gali jį pakeisti tyrimo procese, pateikiant informaciją apie objektą.

Siauriau suprantant modelį, jis laikomas prognozavimo objektu, jo tyrimas leidžia gauti informacijos apie galimas objekto būsenas ateityje ir būdus, kaip šias būsenas pasiekti. Šiuo atveju nuspėjamojo modelio tikslas yra gauti informaciją ne apie objektą apskritai, o tik apie jo būsimas būsenas. Tada kuriant modelį gali būti neįmanoma tiesiogiai patikrinti jo atitikimo objektui, nes modelis vaizduoja tik jo būsimą būseną, o paties objekto šiuo metu gali nebūti arba jis gali egzistuoti kitaip.

Modeliai gali būti materialūs ir idealūs.

Idealūs modeliai naudojami ekonomikoje. Tobuliausias idealus kiekybinio socialinio ir ekonominio (ekonominio) reiškinio aprašymo modelis yra matematinis modelis, kuriame naudojami skaičiai, formulės, lygtys, algoritmai arba grafinis vaizdas. Ekonominių modelių pagalba nustatykite:

    įvairių ekonominių rodiklių ryšys;

    įvairūs rodikliams taikomi apribojimai;

    kriterijus, leidžiančius optimizuoti procesą.

Prasmingas objekto aprašymas gali būti pavaizduotas jo formalizuotos schemos forma, kuri nurodo, kokius parametrus ir pradinę informaciją reikia surinkti norint apskaičiuoti norimas reikšmes. Matematiniame modelyje, skirtingai nei formalizuotoje schemoje, yra specifiniai objektą apibūdinantys skaitiniai duomenys.Matematinio modelio kūrimas labai priklauso nuo prognozuotojo idėjos apie modeliuojamo proceso esmę. Remdamasis savo idėjomis, jis iškelia darbinę hipotezę, kurios pagalba sukuriamas analitinis modelio įrašas formulių, lygčių ir nelygybių pavidalu. Išsprendus lygčių sistemą, gaunami konkretūs funkcijos parametrai, kurie apibūdina norimų kintamųjų kitimą laikui bėgant.

Darbų, kaip prognozavimo organizavimo elemento, tvarka ir seka nustatoma priklausomai nuo naudojamo prognozavimo metodo. Paprastai šis darbas atliekamas keliais etapais.

1 etapas – nuspėjamoji retrospekcija, t.y. prognozavimo objekto ir prognozės fono nustatymas. Pirmajame etape darbas atliekamas tokia seka:

    objekto aprašymo formavimas praeityje, apimantis išankstinę objekto prognozę, jo parametrų, jų reikšmės ir tarpusavio santykių įvertinimą,

    informacijos šaltinių nustatymas ir įvertinimas, darbo su jais tvarka ir organizavimas, retrospektyvinės informacijos rinkimas ir talpinimas;

    nustatant tyrimo tikslus.

Atlikdami nuspėjamosios retrospektyvos užduotis, sinoptikai tiria objekto raidos istoriją ir prognozės foną, kad gautų sistemingą jų aprašymą.

2 etapas – prognozinė diagnostika, kurios metu tiriamas sistemingas prognozavimo objekto aprašymas ir prognozės fonas, siekiant nustatyti jų raidos tendencijas ir parinkti prognozavimo modelius bei metodus. Darbai atliekami tokia seka:

    prognozuojamo objekto modelio kūrimas, įskaitant formalizuotą objekto aprašymą, modelio tinkamumo objektui laipsnio tikrinimas;

    prognozavimo metodų (pagrindinių ir pagalbinių) parinkimas, algoritmo ir darbo programų kūrimas.

3 etapas – protegavimas, tai yra plataus prognozės rengimo procesas, apimantis: 1) numatomų parametrų apskaičiavimą tam tikram laikotarpiui; 2) atskirų prognozės komponentų sintezė.

4 etapas – prognozės įvertinimas, įskaitant jos patikrinimą, t.y., patikimumo, tikslumo ir pagrįstumo laipsnio nustatymas.

Atliekant žvalgybą ir vertinimą, remiantis ankstesniais etapais, sprendžiamos prognozavimo užduotys ir jos įvertinimas.

Nurodytas etapas yra apytikslis ir priklauso nuo pagrindinio prognozavimo metodo.

Prognozės rezultatai surašomi pažymos, ataskaitos ar kitos medžiagos pavidalu ir pateikiami užsakovui.

Prognozuojant galima nurodyti prognozės nukrypimą nuo faktinės objekto būklės, kuri vadinama prognozės paklaida, kuri apskaičiuojama pagal formulę:

;
;
. (9.3)

Prognozavimo klaidų šaltiniai

Pagrindiniai šaltiniai gali būti:

1. Paprastas duomenų iš praeities perkėlimas (ekstrapoliacija) į ateitį (pavyzdžiui, įmonė neturi kitų prognozės variantų, išskyrus 10% pardavimų padidėjimą).

2. Nesugebėjimas tiksliai nustatyti įvykio tikimybės ir jo įtakos tiriamam objektui.

3. Nenumatyti sunkumai (trukdantys įvykiai), turintys įtakos plano įgyvendinimui, pavyzdžiui, staigus pardavimo skyriaus vadovo atleidimas.

Apskritai, prognozavimo tikslumas didėja kaupiant prognozavimo patirtį ir tobulinant jo metodus.

Regresinė analizė yra daugelio ekonometrinių modelių kūrimo pagrindas, tarp kurių turėtų būti ir sąnaudų įvertinimo modeliai. Kuriant vertinimo modelius, šis metodas gali būti naudojamas, jei analogų (palyginamų objektų) ir sąnaudų faktorių (lyginimo elementų) skaičius koreliuoja vienas su kitu taip: P> (5 -g-10) x į, tie. analogų turėtų būti 5-10 kartų daugiau nei sąnaudų faktorių. Tas pats reikalavimas dėl duomenų kiekio ir veiksnių skaičiaus santykio galioja ir kitiems uždaviniams: nustatyti objekto kainos ir vartotojų parametrų ryšį; korekcinių indeksų apskaičiavimo tvarkos pagrindimas; kainų tendencijų išaiškinimas; nustatyti ryšį tarp nusidėvėjimo ir įtaką darančių veiksnių pokyčių; sąnaudų standartų skaičiavimo priklausomybių gavimas ir kt. Šio reikalavimo įvykdymas būtinas siekiant sumažinti tikimybę dirbti su duomenų imtimi, kuri neatitinka normaliojo atsitiktinių dydžių pasiskirstymo reikalavimo.

Regresijos ryšys atspindi tik vidutinę gauto kintamojo, pavyzdžiui, sąnaudų, tendenciją nuo vieno ar kelių faktorių kintamųjų pokyčių, pavyzdžiui, vietos, kambarių skaičiaus, ploto, aukšto ir kt. Tai yra skirtumas tarp regresijos ir funkcinio ryšio, kai gauto kintamojo reikšmė yra griežtai apibrėžta tam tikrai faktorių kintamųjų vertei.

Regresinio ryšio buvimas / tarp gautų adresu ir faktoriniai kintamieji x p ..., x k(veiksniai) nurodo, kad šį ryšį lemia ne tik pasirinktų faktorių kintamųjų įtaka, bet ir kintamųjų įtaka, kai kurie iš jų apskritai nežinomi, kiti negali būti įvertinti ir į juos atsižvelgti:

Neįskaitytų kintamųjų įtaka žymima antruoju šios lygties nariu ?, kuri vadinama aproksimacijos paklaida.

Yra šie regresijos priklausomybių tipai:

  • ? porinė regresija – ryšys tarp dviejų kintamųjų (rezultatinio ir faktorinio);
  • ? daugkartinė regresija – priklausomybė nuo vieno gauto kintamojo ir dviejų ar daugiau į tyrimą įtrauktų faktorių kintamųjų.

Pagrindinis regresinės analizės uždavinys – kiekybiškai įvertinti kintamųjų (porinėje regresijoje) ir kelių kintamųjų (daugybinėje regresijoje) ryšio glaudumą. Ryšio tvirtumas kiekybiškai įvertinamas koreliacijos koeficientu.

Regresinės analizės naudojimas leidžia nustatyti pagrindinių veiksnių (hedoninių charakteristikų) įtakos tiriamam rodikliui modelį tiek jų visuma, tiek kiekvienas atskirai. Regresinės analizės, kaip matematinės statistikos metodo, pagalba galima, pirma, rasti ir apibūdinti gaunamo (geidžiamo) kintamojo analitinės priklausomybės nuo faktorinių formą ir, antra, įvertinti kintamojo sandarumą. ši priklausomybė.

Išsprendus pirmąjį uždavinį, gaunamas matematinės regresijos modelis, kurio pagalba vėliau apskaičiuojamas norimas rodiklis duotoms faktorių reikšmėms. Antrosios problemos sprendimas leidžia nustatyti apskaičiuoto rezultato patikimumą.

Taigi regresinę analizę galima apibrėžti kaip formalių (matematinių) procedūrų rinkinį, skirtą išmatuoti gaunamų ir faktorinių kintamųjų ryšio formos sandarumą, kryptį ir analitinę išraišką, t.y. Tokios analizės rezultatas turėtų būti struktūriškai ir kiekybiškai apibrėžtas formos statistinis modelis:

kur y - gauto kintamojo (norimo rodiklio, pvz., savikaina, nuoma, kapitalizacijos norma) vidutinė vertė P jos pastebėjimai; x – faktoriaus kintamojo reikšmė (/-oji sąnaudų faktorius); į - faktorių kintamųjų skaičius.

Funkcija f(x l ,...,x lc), nusakanti gauto kintamojo priklausomybę nuo faktorinių vadinama regresijos lygtimi (funkcija). Sąvoka „regresija“ (regresija (lot.) – atsitraukti, sugrįžti prie kažko) siejama su vienos iš konkrečių užduočių, išspręstų metodo formavimo etape, specifika ir šiuo metu neatspindi visos metodo esmės. metodas, tačiau jis ir toliau naudojamas.

Regresijos analizė paprastai apima šiuos veiksmus:

  • ? vienarūšių objektų imties formavimas ir pirminės informacijos apie šiuos objektus rinkimas;
  • ? pagrindinių veiksnių, turinčių įtakos gaunamam kintamajam, parinkimas;
  • ? tikrinant mėginio normalumą naudojant X 2 arba dvinario kriterijus;
  • ? hipotezės apie bendravimo formą priėmimas;
  • ? matematinis duomenų apdorojimas;
  • ? gauti regresijos modelį;
  • ? jos statistinių rodiklių vertinimas;
  • ? patikros skaičiavimai naudojant regresijos modelį;
  • ? rezultatų analizė.

Nurodyta operacijų seka vyksta tiriant porų ryšį tarp faktoriaus kintamojo ir vieno gauto kintamojo, ir daugialypį ryšį tarp gaunamo kintamojo ir kelių faktoriaus kintamųjų.

Regresinės analizės naudojimas kelia tam tikrus reikalavimus pradinei informacijai:

  • ? statistinė objektų imtis turi būti vienalytė funkciniu ir konstruktyviu-technologiniu požiūriu;
  • ? gana daug;
  • ? tiriamas kaštų rodiklis – gaunamas kintamasis (kaina, savikaina, sąnaudos) – turi būti sumažintas iki vienodų jo skaičiavimo sąlygų visiems imties objektams;
  • ? faktorių kintamieji turi būti išmatuoti pakankamai tiksliai;
  • ? faktorių kintamieji turi būti nepriklausomi arba minimaliai priklausomi.

Imties vienalytiškumo ir išsamumo reikalavimai prieštarauja: kuo griežčiau atrenkami objektai pagal jų vienarūšiškumą, tuo gaunama mažesnė imtis, ir atvirkščiai, norint padidinti imtį, reikia įtraukti objektus. kurie nėra labai panašūs vienas į kitą.

Surinkus duomenis apie vienarūšių objektų grupę, jie analizuojami, siekiant nustatyti ryšio tarp gaunamų ir faktorinių kintamųjų formą teorinės regresijos linijos pavidalu. Teorinės regresijos tiesės radimo procesą sudaro pagrįstas aproksimacinės kreivės pasirinkimas ir jos lygties koeficientų apskaičiavimas. Regresijos linija yra lygi kreivė (konkrečiu atveju – tiesė), kuri matematinės funkcijos pagalba nusako bendrą tiriamos priklausomybės tendenciją ir išlygina netaisyklingus, atsitiktinius iškrypimus nuo šalutinių veiksnių įtakos.

Norint parodyti porines regresijos priklausomybes vertinimo užduotyse, dažniausiai naudojamos šios funkcijos: tiesinė - y – 0 + ars + s galia - y - aj&i + c demonstratyvus - y - tiesinis eksponentinis - y - a 0 + ar * + s.Čia - e aproksimacijos paklaida dėl neatsižvelgtų atsitiktinių veiksnių veikimo.

Šiose funkcijose y yra gaunamas kintamasis; x - faktorius kintamasis (faktorius); a 0 , a r a 2 - regresijos modelio parametrai, regresijos koeficientai.

Tiesinis eksponentinis modelis priklauso vadinamųjų hibridinių modelių klasei:

kur

kur x (i = 1, /) - veiksnių reikšmės;

b t (i = 0, /) yra regresijos lygties koeficientai.

Šioje lygtyje komponentai A, B ir Z atitinka atskirų vertinamo turto sudedamųjų dalių kainą, pavyzdžiui, žemės sklypo kainą ir pagerinimo išlaidas bei parametrą K yra dažnas. Jis skirtas koreguoti visų vertinamo turto komponentų vertę pagal bendrą įtakos veiksnį, pvz., vietą.

Veiksnių reikšmės, kurios yra atitinkamų koeficientų laipsnyje, yra dvejetainiai kintamieji (0 arba 1). Veiksniai, kurie yra laipsnio pagrindu, yra diskretūs arba nuolatiniai kintamieji.

Veiksniai, susiję su daugybos ženklų koeficientais, taip pat yra tęstiniai arba diskretūs.

Specifikacija paprastai atliekama taikant empirinį metodą ir apima du etapus:

  • ? regresijos lauko taškų braižymas grafike;
  • ? grafinė (vaizdinė) galimos aproksimacinės kreivės tipo analizė.

Regresijos kreivės tipą ne visada galima pasirinkti iš karto. Jai nustatyti pirmiausia pagal pradinius duomenis grafike atvaizduojami regresijos lauko taškai. Tada išilgai taškų padėties vizualiai nubrėžiama linija, bandant išsiaiškinti kokybinį ryšio modelį: vienodas augimas arba vienodas mažėjimas, augimas (sumažėjimas) didėjant (sumažėjus) dinamikos greičiui, sklandus požiūris į tam tikras lygis.

Šis empirinis požiūris yra papildytas logine analize, pradedant nuo jau žinomų idėjų apie tiriamų veiksnių ekonominį ir fizinį pobūdį bei jų tarpusavio įtaką.

Pavyzdžiui, žinoma, kad gautų kintamųjų – ekonominių rodiklių (kainų, nuomos mokesčio) priklausomybės nuo daugelio faktorių kintamųjų – kainą formuojančių veiksnių (atstumo nuo gyvenvietės centro, ploto ir kt.) yra netiesinės. , ir juos gana griežtai galima apibūdinti galios, eksponentinės ar kvadratinės funkcijos . Tačiau esant nedideliam veiksnių diapazonui, priimtinus rezultatus galima gauti ir naudojant tiesinę funkciją.

Jei vis tiek neįmanoma iš karto patikimai pasirinkti kurios nors funkcijos, tada parenkamos dvi ar trys funkcijos, apskaičiuojami jų parametrai, o tada, naudojant atitinkamus jungties sandarumo kriterijus, galiausiai pasirenkama funkcija.

Teoriškai vadinamas kreivės formos radimo regresijos procesas specifikacija modelis ir jo koeficientai - kalibravimas modeliai.

Jei nustatoma, kad gautas kintamasis y priklauso nuo kelių faktorinių kintamųjų (veiksnių) x ( , x 2 , ..., x k, tada jie imasi kelių regresijos modelio kūrimo. Paprastai naudojamos trys daugialypio ryšio formos: linijinis - y - a 0 + a x x x + a^x 2 + ... + a k x k, demonstratyvus - y - a 0 a*i a x t- a x b, galia - y – a 0 x x ix 2 a 2. .x^ arba jų deriniai.

Eksponentinės ir eksponentinės funkcijos yra universalesnės, nes apytiksliai atitinka nelinijinius ryšius, kurie yra dauguma vertinime tirtų priklausomybių. Be to, jie gali būti naudojami vertinant objektus ir statistinio modeliavimo metodu masiniam vertinimui bei tiesioginio palyginimo metodu individualiame vertinime nustatant pataisos koeficientus.

Kalibravimo etape regresijos modelio parametrai apskaičiuojami mažiausių kvadratų metodu, kurio esmė ta, kad gauto kintamojo apskaičiuotų verčių kvadratinių nuokrypių suma. adresu., t.y. skaičiuojant pagal pasirinktą santykio lygtį, nuo faktinių verčių turi būti minimalios:

Reikšmės j) (. ir y.žinoma, todėl K yra tik lygties koeficientų funkcija. Norėdami rasti minimumą S imti dalinius išvestinius K pagal lygties koeficientus ir prilyginkite juos nuliui:

Dėl to gauname normaliųjų lygčių sistemą, kurios skaičius lygus norimos regresijos lygties nustatytų koeficientų skaičiui.

Tarkime, kad turime rasti tiesinės lygties koeficientus y - a 0 + ars. Nukrypimų kvadratu suma yra tokia:

/=1

Atskirkite funkciją K pagal nežinomus koeficientus a 0 ir dalines išvestines prilyginkite nuliui:

Po transformacijų gauname:

kur P - pradinių faktinių verčių skaičius adresu juos (analogų skaičių).

Aukščiau pateikta regresijos lygties koeficientų skaičiavimo procedūra taikytina ir netiesinėms priklausomybėms, jeigu šias priklausomybes galima tiesinti, t.y. suvesti į tiesinę formą, naudojant kintamųjų pasikeitimą. Galios ir eksponentinės funkcijos paėmus logaritmą ir atitinkamą kintamųjų pasikeitimą įgauna tiesinę formą. Pavyzdžiui, galios funkcija paėmus logaritmą yra tokia: In y \u003d 1n 0 +a x 1 val. Pasikeitus kintamiesiems Y-Į y, L 0 -Į ir Nr. X- Iš x gauname tiesinę funkciją

Y = A0 + cijX, kurių koeficientai randami kaip aprašyta aukščiau.

Mažiausių kvadratų metodas taip pat naudojamas daugkartinės regresijos modelio koeficientams apskaičiuoti. Taigi, normaliųjų lygčių sistema, skirta apskaičiuoti tiesinę funkciją su dviem kintamaisiais Xj ir x 2 po daugybės transformacijų atrodo taip:

Paprastai ši lygčių sistema sprendžiama naudojant tiesinės algebros metodus. Kelių galių funkcija įvedama į tiesinę formą, imant logaritmus ir keičiant kintamuosius taip pat, kaip ir suporuota galios funkcija.

Naudojant hibridinius modelius, naudojant nuosekliųjų aproksimacijų metodo skaitmenines procedūras, randami daugybiniai regresijos koeficientai.

Norint galutinai pasirinkti iš kelių regresijos lygčių, būtina patikrinti kiekvienos lygties ryšio sandarumą, kuris matuojamas koreliacijos koeficientu, dispersija ir variacijos koeficientu. Vertindami taip pat galite naudoti Studento ir Fisherio kriterijus. Kuo didesnis jungties sandarumas atskleidžia kreivę, tuo ji geriau, kai visi kiti dalykai yra vienodi.

Jei sprendžiama tokios klasės problema, kai reikia nustatyti kaštų rodiklio priklausomybę nuo kaštų faktorių, tai noras atsižvelgti į kuo daugiau įtakos faktorių ir taip sukurti tikslesnį dauginės regresijos modelį. suprantamas. Tačiau du objektyvūs apribojimai trukdo plėsti veiksnių skaičių. Pirma, norint sukurti daugialypės regresijos modelį, reikia daug didesnės objektų imties, nei kuriant suporuotą modelį. Visuotinai pripažįstama, kad objektų skaičius imtyje turi viršyti skaičių P veiksnių, bent 5-10 kartų. Iš to išplaukia, kad norint sukurti modelį su trimis įtakojančiais veiksniais, reikia surinkti apie 20 objektų imtį su skirtingomis faktorių reikšmėmis. Antra, modeliui pasirinkti veiksniai, turintys įtakos vertės rodikliui, turėtų būti pakankamai nepriklausomi vienas nuo kito. Tai nėra lengva užtikrinti, nes pavyzdyje paprastai sujungiami tai pačiai šeimai priklausantys objektai, kuriuose vyksta reguliarus daugelio veiksnių pasikeitimas nuo objekto iki objekto.

Kokybė regresijos modeliai, kaip taisyklė, patikrinkite naudodami šią statistiką.

Regresijos lygties paklaidos standartinis nuokrypis (įvertinimo paklaida):

kur P - imties dydis (analogų skaičius);

į - veiksnių skaičius (išlaidų veiksniai);

Regresijos lygties nepaaiškinta klaida (3.2 pav.);

y. - tikroji gauto kintamojo vertė (pavyzdžiui, savikaina); y t - apskaičiuota gauto kintamojo reikšmė.

Šis rodiklis taip pat vadinamas standartinė įvertinimo paklaida (RMS klaida). Paveiksle taškai nurodo konkrečias mėginio reikšmes, simbolis nurodo vidutinių imties reikšmių liniją, pasvirusi brūkšniu pažymėta linija yra regresijos linija.


Ryžiai. 3.2.

Standartinis įvertinimo paklaidos nuokrypis matuoja faktinių y verčių nuokrypio nuo atitinkamų apskaičiuotų verčių dydį. adresu( , gautas naudojant regresijos modelį. Jei imčiai, ant kurios sukurtas modelis, galioja normalaus skirstinio dėsnis, tai galima teigti, kad 68 proc. adresu yra diapazone adresu ± &e nuo regresijos tiesės, o 95% – intervale adresu ± 2d e. Šis rodiklis yra patogus, nes matavimo vienetai ką nors? sutampa su matavimo vienetais adresu,. Šiuo atžvilgiu jis gali būti naudojamas norint nurodyti vertinimo procese gauto rezultato tikslumą. Pavyzdžiui, vertės sertifikate galite nurodyti, kad rinkos vertės vertė, gauta naudojant regresijos modelį V su 95% tikimybe yra intervale nuo (V-2d,.) prieš (at + 2ds).

Gauto kintamojo variacijos koeficientas:

kur y - gauto kintamojo vidutinė reikšmė (3.2 pav.).

Atliekant regresinę analizę, variacijos koeficientas var yra standartinis rezultato nuokrypis, išreikštas rezultato kintamojo vidurkio procentais. Variacijos koeficientas gali būti naudojamas kaip gauto regresijos modelio nuspėjamųjų savybių kriterijus: kuo mažesnė reikšmė var, tuo aukštesnės modelio nuspėjamosios savybės. Variacijos koeficientą geriau naudoti nei eksponentą &e, nes jis yra santykinis rodiklis. Praktiškai naudojant šį rodiklį, galima rekomenduoti nenaudoti modelio, kurio variacijos koeficientas viršija 33%, kadangi šiuo atveju negalima teigti, kad šioms imtims galioja normalaus skirstinio dėsnis.

Determinacijos koeficientas (daugkartinis koreliacijos koeficientas kvadratu):

Šis rodiklis naudojamas analizuojant bendrą gauto regresijos modelio kokybę. Tai rodo, kiek procentų gauto kintamojo kitimo lemia visų į modelį įtrauktų faktorių kintamųjų įtaka. Nustatymo koeficientas visada yra intervale nuo nulio iki vieneto. Kuo determinacijos koeficiento reikšmė arčiau vieneto, tuo modelis geriau aprašo pradines duomenų eilutes. Determinacijos koeficientas gali būti pavaizduotas kitu būdu:

Štai klaida, paaiškinta regresijos modeliu,

a - klaida nepaaiškinama

regresijos modelis. Ekonominiu požiūriu šis kriterijus leidžia spręsti, kiek procentų kainų kitimo paaiškina regresijos lygtis.

Tiksli indikatoriaus priėmimo riba R2 neįmanoma nurodyti visais atvejais. Reikia atsižvelgti ir į imties dydį, ir į prasmingą lygties aiškinimą. Paprastai tiriant duomenis apie to paties tipo objektus, gautus maždaug tuo pačiu metu, reikšmė R2 neviršija 0,6-0,7 lygio. Jei visos numatymo paklaidos lygios nuliui, t.y. kai ryšys tarp gaunamų ir faktorinių kintamųjų yra funkcinis, tada R2 =1.

Koreguotas determinacijos koeficientas:

Būtinybė įvesti pakoreguotą determinacijos koeficientą paaiškinama tuo, kad didėjant veiksnių skaičiui įįprastas determinacijos koeficientas beveik visada didėja, tačiau laisvės laipsnių skaičius mažėja (n-k- vienas). Įvestas koregavimas visada sumažina vertę R2, nes (P - 1) > (p-to- vienas). Dėl to vertė R 2 CKOf) gali tapti net neigiamu. Tai reiškia, kad vertė R2 prieš koregavimą buvo artimas nuliui, o dispersijos dalis paaiškinta kintamojo regresijos lygtimi adresu labai mažas.

Iš dviejų regresijos modelių variantų, kurie skiriasi koreguoto determinacijos koeficiento reikšme, bet turi vienodai gerus kitus kokybės kriterijus, pirmenybė teikiama variantui su didele pakoreguoto determinacijos koeficiento verte. Determinacijos koeficientas nekoreguojamas, jei (n - k): k> 20.

Fisher santykis:

Šis kriterijus naudojamas determinacijos koeficiento reikšmingumui įvertinti. Likutinė kvadratų suma yra prognozės paklaidos matas, naudojant žinomų išlaidų verčių regresiją adresu.. Jo palyginimas su regresijos kvadratų suma parodo, kiek kartų regresijos priklausomybė numato rezultatą geriau nei vidurkis adresu. Yra kritinių verčių lentelė F R Fišerio koeficientas, priklausantis nuo skaitiklio laisvės laipsnių skaičiaus - į, vardiklis v 2 = p - k- 1 ir reikšmingumo lygis a. Jei apskaičiuota Fišerio kriterijaus reikšmė F R yra didesnė už lentelės reikšmę, tuomet keliama determinacijos koeficiento nereikšmingumo hipotezė, t.y. apie regresijos lygtyje įterptų ir realiai egzistuojančių ryšių neatitikimą, su tikimybe p = 1 – a atmetamas.

Vidutinė apytikslė paklaida(vidutinis procentinis nuokrypis) apskaičiuojamas kaip vidutinis santykinis skirtumas, išreikštas procentais, tarp faktinės ir apskaičiuotos gauto kintamojo verčių:

Kaip mažesnė vertė duotas rodiklis, tuo geresnė modelio nuspėjamoji kokybė. Kai šio rodiklio reikšmė ne didesnė kaip 7%, jie rodo didelį modelio tikslumą. Jeigu 8 > 15%, rodo nepatenkinamą modelio tikslumą.

Standartinė regresijos koeficiento paklaida:

kur (/I) -1 .- įstrižainės matricos elementas (X G X) ~ 1 iki - veiksnių skaičius;

X- faktorių kintamųjų verčių matrica:

X7- perkelta faktorinių kintamųjų reikšmių matrica;

(JL) _| yra matrica, atvirkštinė matricai.

Kuo mažesni kiekvieno regresijos koeficiento balai, tuo patikimesnis atitinkamo regresijos koeficiento įvertinimas.

Studento testas (t-statistika):

Šis kriterijus leidžia išmatuoti ryšio patikimumo (reikšmingumo) laipsnį dėl nurodyto regresijos koeficiento. Jei apskaičiuota vertė t. didesnė už lentelės vertę

t av , kur v - p - k - 1 yra laisvės laipsnių skaičius, tada hipotezė, kad šis koeficientas yra statistiškai nereikšmingas, atmetama su (100 - a)% tikimybe. Yra specialios /-skirstymo lentelės, leidžiančios nustatyti kriterijaus kritinę reikšmę pagal nurodytą reikšmingumo lygį a ir laisvės laipsnių skaičių v. Dažniausiai naudojama a reikšmė yra 5%.

Daugiakolinisiškumas, t.y. faktorių kintamųjų tarpusavio ryšių poveikis lemia poreikį pasitenkinti ribotu jų skaičiumi. Jei į tai neatsižvelgiama, galite gauti nelogišką regresijos modelį. Siekiant išvengti neigiamo daugiakolineariškumo efekto, prieš sudarant daugialypės regresijos modelį, apskaičiuojami porų koreliacijos koeficientai rxjxj tarp pasirinktų kintamųjų X. ir X

Čia XjX; - dviejų faktorinių kintamųjų sandaugos vidutinė vertė;

XjXj- dviejų faktorių kintamųjų vidutinių verčių sandauga;

Veiksnio kintamojo x dispersijos įvertinimas..

Du kintamieji laikomi regresyviai susijusiais (ty kolineariniais), jei jų porinės koreliacijos koeficientas yra griežtai didesnis nei 0,8 absoliučia verte. Šiuo atveju bet kuris iš šių kintamųjų neturėtų būti svarstomas.

Siekiant išplėsti gautų regresijos modelių ekonominės analizės galimybes, naudojami vidurkiai elastingumo koeficientai, nustatoma pagal formulę:

kur Xj- atitinkamo faktoriaus kintamojo vidutinė reikšmė;

y - gauto kintamojo vidutinė reikšmė; a aš - atitinkamo faktoriaus kintamojo regresijos koeficientas.

Elastingumo koeficientas parodo, kiek procentų vidutiniškai pasikeis gauto kintamojo reikšmė, kai veiksnio kintamasis pasikeis 1%, t.y. kaip gaunamas kintamasis reaguoja į faktoriaus kintamojo pasikeitimą. Pavyzdžiui, kaip kainuoja kv. m ploto butą atokiau nuo miesto centro.

Naudingas konkretaus regresijos koeficiento reikšmingumo analizės požiūriu yra įvertis privatus determinacijos koeficientas:

Čia pateikiamas rezultato dispersijos įvertinimas

kintamasis. Šis koeficientas parodo, kiek procentų gauto kintamojo kitimas paaiškinamas /-ojo faktoriaus kintamojo, įtraukto į regresijos lygtį, kitimas.

  • Hedoninės charakteristikos suprantamos kaip objekto savybės, atspindinčios jo naudingas (vertingas) savybes pirkėjų ir pardavėjų požiūriu.