Egyszerű regressziós elemzés. A regresszióanalízis egy statisztikai módszer egy valószínűségi változó változóktól való függésének tanulmányozására. Elemzési eredmények elemzése

Tanulmányaik során a hallgatók nagyon gyakran találkoznak különféle egyenletekkel. Ezek egyikét - a regressziós egyenletet - tárgyaljuk ebben a cikkben. Ezt a fajta egyenletet kifejezetten a matematikai paraméterek közötti kapcsolat jellemzőinek leírására használják. Ez a típus az egyenlőségeket a statisztikában és az ökonometriában használják.

A regresszió definíciója

A matematikában a regresszió egy bizonyos mennyiség, amely leírja egy adathalmaz átlagos értékének egy másik mennyiség értékétől való függőségét. A regressziós egyenlet egy adott jellemző függvényében egy másik jellemző átlagos értékét mutatja. A regressziós függvény egy egyszerű y \u003d x egyenlet, amelyben y függő változóként működik, x pedig független változó (jellemző tényező). Valójában a regressziót a következőképpen fejezzük ki: y = f (x).

Milyen típusú kapcsolatok vannak a változók között

Általában két ellentétes típusú kapcsolat különböztethető meg: a korreláció és a regresszió.

Az elsőt a feltételes változók egyenlősége jellemzi. NÁL NÉL ez az eset nem tudni biztosan, hogy melyik változó függ a másiktól.

Ha a változók között nincs egyenlőség, és a feltételek azt mondják, hogy melyik változó magyarázó és melyik függő, akkor beszélhetünk a második típusú kapcsolat meglétéről. A lineáris regressziós egyenlet felépítéséhez meg kell találni, hogy milyen típusú összefüggést figyelünk meg.

A regresszió típusai

A mai napig 7 különböző típusú regresszió létezik: hiperbolikus, lineáris, többszörös, nemlineáris, páros, inverz, logaritmikusan lineáris.

Hiperbolikus, lineáris és logaritmikus

A lineáris regressziós egyenletet a statisztikában az egyenlet paramétereinek egyértelmű magyarázatára használják. Úgy néz ki, hogy y = c + m * x + E. A hiperbolikus egyenlet alakja szabályos hiperbola y \u003d c + m / x + E. A logaritmikusan lineáris egyenlet a kapcsolatot a logaritmikus függvény segítségével fejezi ki: In y \u003d In c + m * In x + In E.

Többszörös és nemlineáris

még kettő összetett típusok a regresszió többszörös és nemlineáris. A többszörös regressziós egyenletet az y \u003d f (x 1, x 2 ... x c) + E függvény fejezi ki. Ebben a helyzetben y a függő változó és x a magyarázó változó. Az E változó sztochasztikus, és más tényezők hatását is magában foglalja az egyenletben. A nemlineáris regressziós egyenlet kissé inkonzisztens. Egyrészt a figyelembe vett mutatók tekintetében nem lineáris, másrészt az indikátorokat értékelő szerepében lineáris.

Inverz és páros regressziók

Az inverz egyfajta függvény, amelyet lineáris formává kell konvertálni. A leghagyományosabb alkalmazási programokban y \u003d 1 / c + m * x + E függvény alakja van. A páronkénti regressziós egyenlet az adatok közötti kapcsolatot az y = f(x) + E függvényében mutatja. Csakúgy, mint a többi egyenlet, y függ x-től, E pedig sztochasztikus paraméter.

A korreláció fogalma

Ez egy olyan mutató, amely két jelenség vagy folyamat közötti kapcsolat meglétét mutatja. A kapcsolat erősségét korrelációs együtthatóval fejezzük ki. Értéke a [-1;+1] intervallumon belül ingadozik. A negatív jelző jelzi a jelenlétét Visszacsatolás, pozitív - körülbelül egy egyenes. Ha az együttható értéke 0, akkor nincs kapcsolat. Minél közelebb van az érték az 1-hez, annál erősebb a kapcsolat a paraméterek között, minél közelebb van a 0-hoz, annál gyengébb.

Mód

A korrelációs paraméteres módszerekkel meg lehet becsülni a kapcsolat szorosságát. Eloszlásbecslések alapján használják azokat a paramétereket, amelyek megfelelnek a normál eloszlási törvénynek.

A lineáris regressziós egyenlet paraméterei a függőség típusának, a regressziós egyenlet függvényének azonosításához és a választott kapcsolati képlet mutatóinak értékeléséhez szükségesek. A korrelációs mező a kapcsolat azonosításának módszere. Ehhez az összes létező adatot grafikusan kell ábrázolni. Egy téglalap alakú kétdimenziós koordinátarendszerben minden ismert adatot ábrázolni kell. Így jön létre a korrelációs mező. A leíró tényező értéke az abszcissza mentén, míg a függő tényező értéke az ordináta mentén van jelölve. Ha a paraméterek között funkcionális kapcsolat van, akkor sor formájában sorakoznak fel.

Ha az ilyen adatok korrelációs együtthatója kisebb, mint 30%, akkor szinte teljes kapcsolathiányról beszélhetünk. Ha 30% és 70% között van, akkor ez közepes szorosságú kapcsolatok jelenlétét jelzi. A 100%-os jelző a működőképes kapcsolat bizonyítéka.

A nemlineáris regressziós egyenletet, akárcsak a lineárist, ki kell egészíteni egy korrelációs indexszel (R).

Korreláció többszörös regresszióhoz

A determinációs együttható a többszörös korreláció négyzetének mutatója. A bemutatott indikátorkészlet és a vizsgált tulajdonság közötti kapcsolat szorosságáról beszél. Beszélhet a paraméterek eredményre gyakorolt ​​hatásának természetéről is. A többszörös regressziós egyenletet ezzel az indikátorral értékeljük ki.

A többszörös korrelációs index kiszámításához ki kell számítani az indexét.

Legkisebb négyzet alakú módszer

Ez a módszer a regressziós faktorok becslésének egyik módja. Lényege, hogy minimalizálja a faktor függvénytől való függése miatt kapott négyzetes eltérések összegét.

Egy páros lineáris regressziós egyenlet megbecsülhető ilyen módszerrel. Ezt a fajta egyenletet a páros lineáris kapcsolat indikátorai közötti detektálás esetén alkalmazzuk.

Egyenlet opciók

A lineáris regressziós függvény minden paramétere sajátos jelentéssel bír. A páros lineáris regressziós egyenlet két paramétert tartalmaz: c és m. A t paraméter az y függvény végső mutatójának átlagos változását mutatja, az x változó eggyel történő csökkenésének (növekedésének) függvényében. hagyományos egység. Ha az x változó nulla, akkor a függvény egyenlő a c paraméterrel. Ha az x változó nem nulla, akkor a c tényezőnek nincs közgazdasági értelme. A függvényt csak a c faktor előtti jel befolyásolja. Ha van mínusz, akkor a faktorhoz képest lassú eredményváltozásról beszélhetünk. Ha van plusz, akkor ez az eredmény felgyorsult változását jelzi.

Minden olyan paraméter, amely megváltoztatja a regressziós egyenlet értékét, kifejezhető egyenletben. Például a c tényező alakja c = y - mx.

Csoportosított adatok

A feladatnak vannak olyan feltételei, amelyekben minden információ az x attribútum szerint van csoportosítva, ugyanakkor egy bizonyos csoporthoz a függő mutató megfelelő átlagértékei vannak feltüntetve. Ebben az esetben az átlagértékek azt jellemzik, hogy a mutató hogyan függ x-től. Így a csoportosított információ segít megtalálni a regressziós egyenletet. Kapcsolatelemzésként használják. Ennek a módszernek azonban megvannak a maga hátrányai. Sajnos az átlagok gyakran külső ingadozásoknak vannak kitéve. Ezek az ingadozások nem tükrözik a kapcsolat mintáit, csak elfedik a „zajt”. Az átlagok sokkal rosszabb összefüggéseket mutatnak, mint a lineáris regressziós egyenlet. Ezek azonban alapul szolgálhatnak egy egyenlet megtalálásához. Ha egy adott populáció méretét megszorozzuk a megfelelő átlaggal, megkaphatjuk a csoporton belüli y összegét. Ezután ki kell ütnie az összes kapott összeget, és meg kell találnia az y végső mutatót. Az xy összegmutatóval kicsit nehezebb a számítások elvégzése. Abban az esetben, ha az intervallumok kicsik, feltételesen vehetjük az x mutatót minden egységre (a csoporton belül) azonosnak. Szorozzuk meg y összegével, hogy megkapjuk x és y szorzatának összegét. Továbbá az összes összeget összeütik, és kiderül teljes összeg HU.

Többpáros egyenlet regresszió: kapcsolat fontosságának felmérése

Amint azt korábban tárgyaltuk, a többszörös regresszió függvénye y \u003d f (x 1, x 2, ..., x m) + E. Leggyakrabban egy ilyen egyenletet egy termék kereslet-kínálatának, a visszavásárolt részvények kamatjövedelmének problémájának megoldására, a termelési költségfüggvény okainak és típusának tanulmányozására használnak. Aktívan használják sokféle makrogazdasági tanulmányban és számításban is, de a mikroökonómia szintjén egy ilyen egyenletet kissé ritkábban használnak.

A többszörös regresszió fő feladata egy hatalmas mennyiségű információt tartalmazó adatmodell felépítése annak érdekében, hogy tovább meghatározzuk, hogy az egyes tényezők külön-külön és összességében milyen hatással vannak a modellezendő mutatóra és annak együtthatóira. A regressziós egyenlet sokféle értéket vehet fel. Ebben az esetben általában kétféle függvényt használnak a kapcsolat értékelésére: lineáris és nemlineáris.

Egy lineáris függvényt egy ilyen összefüggés formájában ábrázolunk: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Ebben az esetben a2, a m a "tiszta" regresszió együtthatóinak tekinthető. Szükségesek az y paraméter átlagos változásának jellemzésére minden megfelelő x paraméter egy egységnyi változásával (csökkenésével vagy növekedésével), más mutatók stabil értékének feltételével.

A nemlineáris egyenleteknek például van alakja teljesítmény funkció y=ax 1 b1 x 2 b2 ...x m bm . Ebben az esetben a b 1, b 2 ..... b m - mutatókat rugalmassági együtthatóknak nevezzük, ezek azt mutatják meg, hogy az eredmény hogyan változik (mennyivel) a megfelelő x mutató 1%-os növekedésével (csökkenésével). és egyéb tényezők stabil mutatójával.

Milyen tényezőket kell figyelembe venni a többszörös regresszió felépítésénél

A többszörös regresszió helyes felépítéséhez ki kell deríteni, hogy mely tényezőkre kell különös figyelmet fordítani.

Szükséges némi megértése a gazdasági tényezők és a modellezett közötti kapcsolat természetének. A beillesztendő tényezőknek meg kell felelniük a következő kritériumoknak:

  • Mérhetőnek kell lennie. Ahhoz, hogy egy tárgy minőségét leíró tényezőt használjunk, mindenképpen mennyiségi formát kell adni.
  • Tényezők közötti korrelációnak vagy funkcionális kapcsolatnak nem szabad lennie. Az ilyen cselekvések leggyakrabban visszafordíthatatlan következményekkel járnak - a rendszer közönséges egyenletek feltétel nélkülivé válik, ami megbízhatatlanságával és homályos értékelésével jár.
  • Hatalmas korrelációs mutató esetén nincs mód a mutató végeredményére gyakorolt ​​tényezők elszigetelt hatásának megállapítására, ezért az együtthatók értelmezhetetlenné válnak.

Építési módszerek

Rengeteg módszer és mód létezik annak magyarázatára, hogyan választhatja ki az egyenlethez tartozó tényezőket. Mindezek a módszerek azonban az együtthatók kiválasztásán alapulnak a korrelációs index segítségével. Ezek közé tartozik:

  • Kizárási módszer.
  • Kapcsolja be a módszert.
  • Lépésenkénti regressziós elemzés.

Az első módszer az összes együttható kiszűrését jelenti az összesített halmazból. A második módszer számos további tényező bevezetésével jár. Nos, a harmadik a korábban az egyenletre alkalmazott tényezők kiküszöbölése. Ezen módszerek mindegyikének joga van létezni. Vannak előnyei és hátrányai, de a felesleges indikátorok kiszűrését a maguk módján meg tudják oldani. Általában az egyes módszerekkel kapott eredmények meglehetősen közel állnak egymáshoz.

A többváltozós elemzés módszerei

Az ilyen tényezők meghatározására szolgáló módszerek az egymással összefüggő jellemzők egyedi kombinációinak figyelembevételén alapulnak. Ide tartozik a megkülönböztető elemzés, a mintafelismerés, a főkomponens-elemzés és a klaszteranalízis. Ezen kívül létezik faktoranalízis is, azonban ez a komponensmódszer fejlesztésének eredményeként jelent meg. Mindegyiket bizonyos körülmények között, bizonyos feltételek és tényezők mellett alkalmazzák.

Mi a regresszió?

Vegyünk két folytonos változót x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Helyezzük el a pontokat egy 2D szórásdiagramon, és mondjuk, hogy megvan lineáris kapcsolat ha az adatokat egyenessel közelítjük.

Ha azt feltételezzük y attól függ xés a változásokat y változásai okozzák x, definiálhatunk egy regressziós egyenest (regresszió y a x), amely a legjobban írja le a két változó közötti egyenes kapcsolatot.

A "regresszió" szó statisztikai használata egy olyan jelenségből származik, amelyet Sir Francis Galtonnak (1889) tulajdonítanak, mint regresszió az átlaghoz.

Kimutatta, hogy míg a magas apáknak általában magas fiai vannak, a fiak átlagos magassága kisebb, mint a magas apáké. A fiúgyermekek átlagos magassága "visszafejlődött" és "visszaköltözött" a népesség összes apjának átlagmagasságára. Így átlagosan a magas apáknak alacsonyabbak (de még mindig magasak), az alacsony apáknak pedig magasabbak (de még mindig meglehetősen alacsonyak).

regressziós egyenes

Egy egyszerű (páronkénti) lineáris regressziós egyenest kiértékelő matematikai egyenlet:

x független változónak vagy prediktornak nevezzük.

Y a függő vagy válaszváltozó. Ezt az értéket várjuk y(átlagosan), ha ismerjük az értéket x, azaz az előre jelzett érték y»

  • a- az értékelési vonal szabad tagja (átlépése); ezt az értéket Y, mikor x=0(1. ábra).
  • b- a becsült vonal lejtése vagy meredeksége; az az összeg, amellyel Yátlagosan nő, ha növeljük x egy egységre.
  • aés b a becsült egyenes regressziós együtthatóinak nevezik, bár ezt a kifejezést gyakran csak erre használják b.

A páronkénti lineáris regresszió kiterjeszthető egynél több független változóra; ebben az esetben úgy ismert többszörös regresszió.

1. ábra. Lineáris regressziós egyenes, amely az a és a b meredekség metszéspontját mutatja (az Y növekedésének mértéke, ha x növekszik egy egységgel)

Legkisebb négyzet alakú módszer

Regressziós elemzést végzünk megfigyelések mintájának felhasználásával, ahol aés b- minta becslések a valódi (általános) paraméterekre, α és β , amelyek meghatározzák a lineáris regresszió vonalát a sokaságban (általános sokaság).

A legtöbb egyszerű módszer együtthatók meghatározása aés b van legkisebb négyzetes módszer(MNK).

Az illeszkedést a maradékok figyelembevételével értékeljük (az egyes pontok függőleges távolsága az egyenestől, pl. maradék = megfigyelhető y- jósolta y, rizs. 2).

A legjobb illeszkedési vonalat úgy választjuk meg, hogy a maradékok négyzetösszege minimális legyen.

Rizs. 2. Lineáris regressziós egyenes ábrázolt maradékokkal (függőleges pontozott vonalak) minden ponthoz.

Lineáris regressziós feltevések

Tehát minden megfigyelt értéknél a reziduum egyenlő a különbséggel és a megfelelő előrejelzett értékkel.Minden reziduum lehet pozitív vagy negatív.

A maradékok segítségével tesztelheti a lineáris regresszió mögötti következő feltevéseket:

  • A maradékok normál eloszlásúak nulla átlaggal;

Ha a linearitás, a normalitás és/vagy a konstans variancia feltételezése megkérdőjelezhető, akkor transzformálhatunk vagy és számíthatunk új sor regresszió, amelyre ezek a feltételezések teljesülnek (például használja logaritmikus transzformáció vagy mások).

Rendellenes értékek (outliers) és hatáspontok

Egy „befolyásos” megfigyelés, ha kihagyjuk, megváltoztat egy vagy több modellparaméter-becslést (azaz meredekséget vagy metszéspontot).

Egy kiugró érték (olyan megfigyelés, amely ellentmond az adatkészlet legtöbb értékének) „befolyásos” megfigyelés lehet, és vizuálisan jól észlelhető 2D szórásdiagram vagy maradék diagram megtekintésekor.

Mind a kiugró értékekre, mind a "befolyásoló" megfigyelésekre (pontokra) modelleket használnak, azok beépítésével és azok nélkül is, ügyelve a becslés (regressziós együtthatók) változására.

Elemzés közben ne dobja el automatikusan a kiugró vagy befolyásoló pontokat, mivel ezek egyszerűen figyelmen kívül hagyása befolyásolhatja az eredményeket. Mindig tanulmányozza ezeknek a kiugró értékeknek az okait, és elemezze őket.

Lineáris regressziós hipotézis

Lineáris regresszió megalkotásakor azt a nullhipotézist ellenőrizzük, hogy a β regressziós egyenes általános meredeksége nulla.

Ha az egyenes meredeksége nulla, nincs lineáris kapcsolat a és között: a változás nem érinti

Annak a nullhipotézisnek a teszteléséhez, hogy a valódi meredekség nulla, a következő algoritmust használhatja:

Számítsa ki a teszt statisztikáját, amely megegyezik az aránnyal, amely engedelmeskedik egy szabadságfokú eloszlásnak, ahol az együttható standard hibája


,

- a maradékok szórásának becslése.

Általában, ha az elért szignifikancia szint a nullhipotézis elutasításra kerül.


ahol a szabadságfokokkal való eloszlás azon százalékpontja, amely a kétirányú teszt valószínűségét adja meg

Ez az az intervallum, amely 95%-os valószínűséggel tartalmazza az általános meredekséget.

Tegyük fel, hogy nagy minták esetén közelíthetünk 1,96-os értékkel (vagyis a tesztstatisztika általában normális eloszlású)

A lineáris regresszió minőségének értékelése: R 2 determinációs együttható

A lineáris kapcsolat miatt, és azt várjuk, hogy változásként változik , és ezt nevezzük a regressziónak köszönhető vagy azzal magyarázható variációnak. A maradék eltérésnek a lehető legkisebbnek kell lennie.

Ha igen, akkor az eltérések nagy részét a regresszió magyarázza, és a pontok a regressziós egyenes közelében helyezkednek el, azaz. a sor jól illeszkedik az adatokhoz.

A teljes variancia regresszióval magyarázható hányadát nevezzük determinációs együttható, általában százalékban fejezik ki és jelölik R2(páros lineáris regresszióban ez az érték r2, a korrelációs együttható négyzete), lehetővé teszi a regressziós egyenlet minőségének szubjektív értékelését.

A különbség a regresszióval nem magyarázható variancia százalék.

Mivel nincs értékelhető formális teszt, kénytelenek vagyunk szubjektív megítélésre hagyatkozni a regressziós egyenes illeszkedésének minőségének meghatározásához.

Regressziós egyenes alkalmazása előrejelzésre

A regressziós egyenes segítségével megjósolhat egy értéket a megfigyelt tartományon belüli értékből (soha ne extrapoláljon ezeken a határokon túl).

Megjósoljuk az átlagot azokra a megfigyelésekre, amelyeknek van egy bizonyos értéke, ha ezt az értéket behelyettesítjük a regressziós egyenes egyenletbe.

Tehát, ha az előrejelzést úgy végezzük, hogy ezt a megjósolt értéket és annak standard hibáját használjuk a valódi populáció átlagának konfidenciaintervallumának becslésére.

Ennek az eljárásnak a különböző értékekre történő megismétlése lehetővé teszi, hogy megbízhatósági határokat állítson fel erre a sorra. Ez egy olyan sáv vagy terület, amely például valódi vonalat tartalmaz, 95%-os megbízhatósági szinttel.

Egyszerű regressziós tervek

Az egyszerű regressziós tervek egy folytonos előrejelzőt tartalmaznak. Ha 3 eset van P prediktor értékkel, például 7, 4 és 9, és a terv tartalmaz egy elsőrendű P hatást, akkor az X tervezési mátrix

a regressziós egyenletígy néz ki a P használata X1-hez

Y = b0 + b1 P

Ha egy egyszerű regressziós terv magasabb rendű hatást tartalmaz P-re, például másodfokú hatást, akkor a tervezési mátrix X1 oszlopában lévő értékek a második hatványra emelkednek:

és az egyenlet alakját veszi fel

Y = b0 + b1 P2

A szigma-korlátozott és túlparaméterezett kódolási módszerek nem alkalmazhatók egyszerű regressziós tervekre és más, csak folytonos prediktorokat tartalmazó tervekre (mert egyszerűen nincsenek kategorikus prediktorok). A választott kódolási módszertől függetlenül a folytonos változók értékeit a megfelelő hatványokkal növeljük, és az X változók értékeként használják. Ebben az esetben nem történik átalakítás. Ezenkívül a regressziós tervek leírásánál elhagyhatja az X tervmátrix figyelembevételét, és csak a regressziós egyenlettel dolgozhat.

Példa: Egyszerű regressziós elemzés

Ez a példa a táblázatban megadott adatokat használja:

Rizs. 3. Kiindulási adatok táblázata.

Az adatok 30 véletlenszerűen kiválasztott megye 1960-as és 1970-es népszámlálásainak összehasonlításán alapulnak. A megyenevek megfigyelési névként szerepelnek. Az egyes változókra vonatkozó információk az alábbiakban találhatók:

Rizs. 4. Változó specifikációs táblázat.

Kutatási cél

Ebben a példában a szegénységi ráta és a szegénységi küszöb alatti családok százalékos arányát előrejelző erő közötti összefüggést elemezzük. Ezért a 3. változót (Pt_Poor ) függő változóként fogjuk kezelni.

Fel lehet állítani egy hipotézist: a népességszám változása és a szegénységi küszöb alatti családok aránya összefügg. Ésszerűnek tűnik azt feltételezni, hogy a szegénység népességkiáramláshoz vezet, így negatív korreláció lenne a szegénységi küszöb alatt élők aránya és a népességváltozás között. Ezért az 1. változót (Pop_Chng ) prediktor változóként fogjuk kezelni.

Eredmények megtekintése

Regressziós együtthatók

Rizs. 5. Regressziós együtthatók Pt_Poor on Pop_Chng.

A Pop_Chng sor és a Param metszéspontjában. a Pt_Poor regressziójának nem standardizált együtthatója Pop_Chng-on -0,40374. Ez azt jelenti, hogy minden egységnyi népességcsökkenés után 0,40374-gyel nő a szegénységi ráta. Ennek a nem szabványosított együtthatónak a felső és alsó (alapértelmezett) 95%-os megbízhatósági határa nem tartalmaz nullát, így a regressziós együttható p szinten szignifikáns.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

A változók megoszlása

A korrelációs együtthatók jelentősen túl- vagy alulbecsültté válhatnak, ha az adatokban nagy kiugró értékek vannak. Vizsgáljuk meg a Pt_Poor függő változó megyék szerinti megoszlását. Ehhez elkészítjük a Pt_Poor változó hisztogramját.

Rizs. 6. A Pt_Poor változó hisztogramja.

Mint látható, ennek a változónak az eloszlása ​​jelentősen eltér a normál eloszlástól. Bár még két megyében is (a jobb oldali két oszlopban) a normál eloszlásban vártnál magasabb a szegénységi küszöb alatti családok aránya, úgy tűnik, hogy „a tartományon belül vannak”.

Rizs. 7. A Pt_Poor változó hisztogramja.

Ez az ítélet némileg szubjektív. A hüvelykujjszabály az, hogy a kiugró értékeket figyelembe kell venni, ha egy megfigyelés (vagy megfigyelések) nem esik az intervallumba (átlag ± 3-szorosa a szórásnak). Ebben az esetben érdemes megismételni az elemzést kiugró értékekkel és anélkül, hogy megbizonyosodjunk arról, hogy azok nincsenek-e komoly hatással a populáció tagjai közötti összefüggésre.

Szórványdiagram

Ha az egyik hipotézis a priori az adott változók közötti kapcsolatra vonatkozik, akkor célszerű azt a megfelelő szórásdiagram diagramján ellenőrizni.

Rizs. 8. Szórásdiagram.

A szórásdiagram egyértelmű negatív korrelációt (-,65) mutat a két változó között. A regressziós egyenes 95%-os konfidencia intervallumát is mutatja, azaz 95%-os valószínűséggel a regressziós egyenes átmegy a két szaggatott görbe között.

Jelentősségi kritériumok

Rizs. 9. A szignifikancia kritériumait tartalmazó táblázat.

A Pop_Chng regressziós együttható tesztje megerősíti, hogy a Pop_Chng szorosan összefügg a Pt_Poor, p<.001 .

Eredmény

Ez a példa bemutatta, hogyan kell elemezni egy egyszerű regressziós tervet. A nem standardizált és standardizált regressziós együtthatók értelmezése is bemutatásra került. Megtárgyaljuk a függő változó válaszeloszlásának tanulmányozásának fontosságát, és bemutatunk egy technikát a prediktor és a függő változó közötti kapcsolat irányának és erősségének meghatározására.

A faktor és az eredő jelek közötti összefüggés jelenlétében az orvosoknak gyakran meg kell határozniuk, hogy egy jel értéke mennyivel változhat, ha egy másikat egy általánosan elfogadott vagy maga a kutató által megállapított mértékegység módosít.

Például hogyan változik az 1. osztályos iskolások (lányok vagy fiúk) testtömege, ha magasságuk 1 cm-rel nő, erre a regressziós analízis módszerét alkalmazzuk.

Leggyakrabban a regresszióanalízis módszerét alkalmazzák a fizikai fejlődés normatív skáláinak és standardjainak kidolgozására.

  1. A regresszió definíciója. A regresszió egy olyan függvény, amely lehetővé teszi egy attribútum átlagos értéke alapján egy másik attribútum átlagos értékének meghatározását, amely korrelál az elsővel.

    Erre a célra a regressziós együtthatót és számos egyéb paramétert használnak. Például kiszámíthatja a megfázások átlagos számát az átlagos havi levegőhőmérséklet bizonyos értékeinél az őszi-téli időszakban.

  2. A regressziós együttható definíciója. A regressziós együttható az az abszolút érték, amellyel az egyik attribútum értéke átlagosan megváltozik, amikor egy másik attribútum, amely hozzá van rendelve, egy meghatározott mértékegységgel változik.
  3. Regressziós együttható képlete. R y / x \u003d r xy x (σ y / σ x)
    ahol R y / x - regressziós együttható;
    r xy - az x és y jellemzők közötti korrelációs együttható;
    (σ y és σ x) - az x és y jellemzők szórása.

    Példánkban ;
    σ x = 4,6 (a levegő hőmérsékletének szórása az őszi-téli időszakban;
    σ y = 8,65 (a fertőző megfázások számának szórása).
    Így R y/x a regressziós együttható.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, azaz a havi átlagos léghőmérséklet (x) 1 fokkal csökkenésével az őszi-téli időszakban a fertőző megfázások (y) átlagos száma 1,8 esettel változik.

  4. Regressziós egyenlet. y \u003d M y + R y / x (x - M x)
    ahol y az attribútum átlagos értéke, amelyet akkor kell meghatározni, amikor egy másik attribútum (x) átlagértéke megváltozik;
    x - egy másik jellemző ismert átlagértéke;
    R y/x - regressziós együttható;
    M x, M y - az x és y jellemzők ismert átlagértékei.

    Például a fertőző megfázások átlagos száma (y) speciális mérések nélkül meghatározható a havi átlagos levegőhőmérséklet (x) bármely átlagértékénél. Tehát, ha x \u003d - 9 °, R y / x \u003d 1,8 betegségek, M x \u003d -7 °, M y \u003d 20 betegség, akkor y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 .6 = 23,6 betegségek.
    Ezt az egyenletet két jellemző (x és y) közötti egyenes kapcsolat esetén használjuk.

  5. A regressziós egyenlet célja. A regressziós egyenlet a regressziós egyenes ábrázolására szolgál. Ez utóbbi speciális mérések nélkül lehetővé teszi egy attribútum bármely átlagos értékének (y) meghatározását, ha egy másik attribútum értéke (x) megváltozik. Ezen adatok alapján egy grafikont készítünk, regressziós egyenes, amellyel a megfázások számának számított értékei közötti tartományon belül a havi átlaghőmérséklet bármely értékénél meghatározható a megfázások átlagos száma.
  6. Regressziós szigma (képlet).
    ahol σ Ru/x - a regresszió szigmája (szórása);
    σ y az y jellemző szórása;
    r xy - az x és y jellemzők közötti korrelációs együttható.

    Tehát, ha σ y a megfázások számának szórása = 8,65; r xy - a megfázások száma (y) és az őszi-téli időszak (x) havi átlagos levegőhőmérséklete közötti korrelációs együttható - 0,96, akkor

  7. A szigma regresszió célja. Megadja az eredményül kapott jellemző diverzitásának mértékének karakterisztikáját (y).

    Például az őszi-téli időszakban a megfázások számának sokféleségét jellemzi a havi átlagos levegőhőmérséklet egy bizonyos értékénél. Tehát a megfázások átlagos száma x 1 \u003d -6 ° levegőhőmérsékleten 15,78 betegségtől 20,62 betegségig terjedhet.
    x 2 = -9°-nál a megfázások átlagos száma 21,18-tól 26,02-ig terjedhet, stb.

    A regressziós szigmát egy regressziós skála felépítésében használják, amely tükrözi az effektív attribútum értékeinek eltérését a regressziós egyenesen ábrázolt átlagos értékétől.

  8. A regressziós skála kiszámításához és ábrázolásához szükséges adatok
    • regressziós együttható - Ry/x;
    • regressziós egyenlet - y \u003d M y + R y / x (x-M x);
    • regressziós szigma - σ Rx/y
  9. A regressziós skála számítási sorrendje és grafikus ábrázolása.
    • képlettel határozzuk meg a regressziós együtthatót (lásd a 3. bekezdést). Például meg kell határozni, hogy átlagosan mennyit fog változni a testsúly (egy bizonyos életkorban nemtől függően), ha az átlagos magasság 1 cm-rel változik.
    • a regressziós egyenlet képlete szerint (lásd a 4. bekezdést) határozza meg, mi lesz az átlagos, például a testtömeg (y, y 2, y 3 ...) * egy bizonyos növekedési értékhez (x, x 2, x 3 ...) .
      ________________
      * Az "y" értékét legalább háromra kell kiszámítani ismert értékek"X".

      Ugyanakkor ismertek a testtömeg és magasság (M x és M y) átlagos értékei egy bizonyos életkor és nem esetében

    • számítsa ki a regresszió szigmáját, ismerve σ y és r xy megfelelő értékét, és behelyettesítse értékeiket a képletbe (lásd 6. bekezdés).
    • az ismert x 1, x 2, x 3 értékek és a hozzájuk tartozó y 1, y 2 y 3 átlagértékek, valamint a legkisebb (y - σ ru / x) és a legnagyobb (y + σ ru) alapján / x) értékek (y) egy regressziós skálát alkotnak.

      A regressziós skála grafikus ábrázolásához először az x, x 2 , x 3 (y tengely) értékeket jelöljük a grafikonon, azaz. regressziós egyenest építünk, például a testtömeg (y) magasságtól (x) való függését.

      Ezután a megfelelő y 1 , y 2 , y 3 pontokban a regressziós szigma számértékeit jelöljük, pl. a grafikonon keresse meg y 1 , y 2 , y 3 legkisebb és legnagyobb értékét.

  10. A regressziós skála gyakorlati alkalmazása. Normatív skálák és szabványok kialakítása folyamatban van, különösen a fizikai fejlődéshez. A standard skála szerint lehetőség van a gyermekek fejlettségének egyéni értékelésére. Ugyanakkor a testi fejlődést harmonikusnak értékeljük, ha például egy bizonyos testmagasságnál a gyermek testtömege egy regressziós szigmán belül van az átlagos számított testtömeg-egységhez - (y) adott magassághoz (x) ( y ± 1 σ Ry / x).

    A testi fejlődést akkor tekintjük diszharmonikusnak a testsúly szempontjából, ha a gyermek testtömege egy bizonyos magassághoz a második regressziós szigmán belül van: (y ± 2 σ Ry/x)

    A fizikai fejlődés élesen diszharmonikus lesz mind a túlsúly, mind az elégtelen testsúly miatt, ha a testsúly egy bizonyos magassághoz a regresszió harmadik szigmáján belül van (y ± 3 σ Ry/x).

Az 5 éves fiúk testi fejlettségének statisztikai vizsgálatának eredményei szerint ismert, hogy átlagos testmagasságuk (x) 109 cm, átlagos testsúlyuk (y) 19 kg. A magasság és a testsúly közötti korrelációs együttható +0,9, a szórásokat a táblázat tartalmazza.

Kívánt:

  • kiszámítja a regressziós együtthatót;
  • a regressziós egyenlet segítségével határozza meg, hogy mekkora lesz az 5 éves fiúk várható testtömege x1 = 100 cm, x2 = 110 cm, x3 = 120 cm magassággal;
  • regressziós szigmát számítani, regressziós skálát felépíteni, megoldásának eredményeit grafikusan bemutatni;
  • vonja le a megfelelő következtetéseket.

A probléma feltételét és megoldásának eredményeit az összefoglaló táblázat tartalmazza.

Asztal 1

A probléma körülményei Problémamegoldási eredmények
regressziós egyenlet szigma regresszió regressziós skála (várható testtömeg (kg-ban))
M σ r xy R y/x x Nál nél σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Magasság (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Testtömeg (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Megoldás.

Következtetés.Így a testtömeg számított értékein belüli regressziós skála lehetővé teszi bármely más növekedési érték meghatározását vagy a gyermek egyéni fejlődésének felmérését. Ehhez állítsa vissza a regressziós egyenes merőlegesét.

  1. Vlaszov V.V. Járványtan. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Közegészségügy és egészségügy. Tankönyv középiskoláknak. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Jurij V.K. Népegészségügy és egészségügy témájú előadások: 1. rész. Népegészségügy. - M.: Orvostudomány, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. és mások Szociális orvostudomány és egészségügyi szervezet (Útmutató 2 kötetben). - Szentpétervár, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. és mások Szociális higiénia és az egészségügyi ellátás szervezése (oktatóanyag) - Moszkva, 2000. - 432 p.
  6. S. Glantz. Orvosbiológiai statisztika. Per angolból. - M., Gyakorlat, 1998. - 459 p.

A regressziós elemzés egy bizonyos mennyiségnek egy másik mennyiségtől vagy több más mennyiségtől való függőségét vizsgálja. A regressziós elemzést elsősorban középtávú előrejelzésben, valamint hosszú távú előrejelzésben alkalmazzák. A közép- és hosszú távú időszakok lehetővé teszik az üzleti környezet változásainak megállapítását, és ezeknek a változásoknak a vizsgált mutatóra gyakorolt ​​hatásának figyelembevételét.

A regressziós elemzés elvégzéséhez szükséges:

    a vizsgált mutatókra vonatkozó éves adatok elérhetősége,

    egyszeri előrejelzések elérhetősége, pl. előrejelzések, amelyek nem javulnak az új adatokkal.

A regressziós elemzést általában olyan objektumok esetében végezzük, amelyek összetett, többtényezős jellegűek, mint például a befektetések volumene, a nyereség, az értékesítési volumen stb.

Nál nél normatív előrejelzési módszer meghatározzák a jelenség célnak vett lehetséges állapotainak elérésének módjait és feltételeit. Arról beszélünk, hogy előre meghatározott normák, ideálok, ösztönzők és célok alapján előre jelezzük a jelenség kívánt állapotainak elérését. Egy ilyen előrejelzés választ ad arra a kérdésre: milyen módokon érhető el a kívánt? A normatív módszert gyakrabban használják programozott vagy célzott előrejelzéseknél. Mind a standard mennyiségi kifejezését, mind az értékelési funkció lehetőségeinek egy bizonyos skáláját alkalmazzák.

Ha mennyiségi kifejezést használunk, például bizonyos élelmiszerek és nem élelmiszertermékek fogyasztására vonatkozó fiziológiai és racionális normákat, amelyeket szakemberek dolgoztak ki a lakosság különböző csoportjai számára, meg lehet határozni ezen áruk fogyasztási szintjét. a meghatározott norma elérését megelőző évek. Az ilyen számításokat interpolációnak nevezzük. Az interpoláció a jelenség idősorából hiányzó mutatók kiszámításának egyik módja egy megállapított kapcsolat alapján. Ha a mutató tényleges értékét és a standardjainak értékét a dinamikus sorozat szélső tagjainak vesszük, akkor ezen a sorozaton belül meg lehet határozni az értékek nagyságát. Ezért az interpolációt normatív módszernek tekintik. A korábban megadott, extrapolációban használt (4) képlet interpolációban használható, ahol y n már nem a tényleges adatokat, hanem a mutató színvonalát fogja jellemezni.

Ha a normatív módszerben az értékelési függvény lehetőségeinek skáláját (mezőjét, spektrumát), azaz a preferencia-eloszlási függvényt alkalmazzuk, akkor hozzávetőlegesen a következő fokozatot jelezzük: nem kívánatos - kevésbé kívánatos - kívánatosabb - legkívánatosabb - optimális ( normatív).

A normatív előrejelzési módszer segít ajánlások kidolgozásában az objektivitás szintjének, és ezáltal a döntések hatékonyságának növelésére.

Modellezés, talán a legnehezebb előrejelzési módszer. A matematikai modellezés egy gazdasági jelenség leírását jelenti matematikai képletek, egyenletek és egyenlőtlenségek segítségével. A matematikai apparátusnak pontosan tükröznie kell az előrejelzés hátterét, bár meglehetősen nehéz teljes mértékben tükrözni az előrejelzett objektum teljes mélységét és összetettségét. A „modell” kifejezés a latin modelus szóból származik, ami „mérést” jelent. Ezért helyesebb lenne a modellezést nem előrejelzési módszernek tekinteni, hanem egy hasonló jelenség modellen történő tanulmányozásának módszereként.

Tág értelemben a modelleket a vizsgált tárgy helyettesítőinek nevezik, amelyek olyan hasonlóságban vannak vele, hogy lehetővé teszik új ismeretek megszerzését az objektumról. A modellt az objektum matematikai leírásának kell tekinteni. Ebben az esetben a modellt olyan jelenségként (objektumként, installációként) definiáljuk, amely valamilyen összefüggésben van a vizsgált tárggyal, és helyettesítheti azt a kutatási folyamatban, információt szolgáltatva az objektumról.

A modell szűkebb értelmezésével az előrejelzés tárgyának tekintjük, tanulmányozása lehetővé teszi az objektum jövőbeni lehetséges állapotairól és ezek elérésének módjairól való információszerzést. Ebben az esetben a prediktív modell célja nem általában az objektumról, hanem csak annak jövőbeli állapotairól szerezni információkat. Ekkor egy modell felépítése során előfordulhat, hogy nem lehet közvetlenül ellenőrizni az objektumnak való megfelelését, mivel a modell csak a jövőbeli állapotát ábrázolja, és maga az objektum jelen pillanatban hiányozhat, vagy más létezése van.

A modellek lehetnek anyagiak és ideálisak.

Az ideális modelleket a közgazdaságtanban használják. A legtökéletesebb ideális modell egy társadalmi-gazdasági (gazdasági) jelenség kvantitatív leírására a számokat, képleteket, egyenleteket, algoritmusokat vagy grafikus ábrázolást használó matematikai modell. Gazdasági modellek segítségével határozzuk meg:

    a különböző gazdasági mutatók közötti kapcsolat;

    a mutatókra vonatkozó különféle korlátozások;

    kritériumok a folyamat optimalizálásához.

Egy objektum értelmes leírása a formalizált séma formájában ábrázolható, amely jelzi, hogy mely paramétereket és kiindulási információkat kell összegyűjteni a szükséges értékek kiszámításához. A matematikai modell, ellentétben a formalizált sémával, specifikus numerikus adatokat tartalmaz, amelyek egy objektumot jellemzik. A matematikai modell kidolgozása nagymértékben függ az előrejelző elképzelésétől a modellezett folyamat lényegéről. Elképzelései alapján munkahipotézist állít fel, melynek segítségével képletek, egyenletek és egyenlőtlenségek formájában analitikus rekordot készít a modellről. Az egyenletrendszer megoldása eredményeként a függvény konkrét paramétereit kapjuk, amelyek leírják a kívánt változók időbeli változását.

A munkavégzés sorrendjét és sorrendjét, mint az előrejelzés megszervezésének elemét, az alkalmazott előrejelzési módszertől függően határozzák meg. Általában ezt a munkát több szakaszban végzik.

1. szakasz - prediktív visszatekintés, azaz az előrejelző objektum és az előrejelzési háttér létrehozása. Az első szakaszban végzett munka a következő sorrendben történik:

    egy múltbeli objektum leírásának kialakítása, amely magában foglalja az objektum előrejelzési elemzését, paramétereinek, jelentőségének és kölcsönös kapcsolatainak felmérését,

    az információforrások azonosítása, értékelése, az ezekkel való munka rendje és megszervezése, a visszamenőleges információk gyűjtése és elhelyezése;

    kutatási célok kitűzése.

A prediktív visszatekintés feladatait ellátva az előrejelzők tanulmányozzák az objektum fejlődéstörténetét és az előrejelzés hátterét, hogy azok szisztematikus leírását megkapják.

2. szakasz - prediktív diagnózis, amelynek során az előrejelzés tárgyának és az előrejelzés hátterének szisztematikus leírását tanulmányozzák, hogy azonosítsák fejlődésük tendenciáit, és válasszanak ki az előrejelzési modelleket és módszereket. A munka a következő sorrendben történik:

    előrejelzett objektummodell kidolgozása, beleértve az objektum formalizált leírását, a modell objektumhoz való megfelelőségének mértékének ellenőrzése;

    előrejelzési módszerek (fő és segéd) megválasztása, algoritmus és munkaprogramok kidolgozása.

3. szakasz - mecenatúra, azaz az előrejelzés kiterjedt fejlesztésének folyamata, amely magában foglalja: 1) az előrejelzett paraméterek kiszámítását egy adott átfutási időszakra; 2) az előrejelzés egyes összetevőinek szintézise.

4. szakasz - az előrejelzés értékelése, beleértve annak ellenőrzését, azaz a megbízhatóság, a pontosság és az érvényesség mértékének meghatározása.

A kutatás és értékelés során az előrejelzési feladatokat és annak értékelését az előző szakaszok alapján oldják meg.

A megadott ütemezés hozzávetőleges, és a fő előrejelzési módszertől függ.

Az előrejelzés eredményeit tanúsítvány, jelentés vagy egyéb anyag formájában állítják össze, és bemutatják az ügyfélnek.

Az előrejelzésben jelezhető az előrejelzés eltérése az objektum tényleges állapotától, amit előrejelzési hibának nevezünk, amelyet a következő képlettel számítanak ki:

;
;
. (9.3)

Hibaforrások az előrejelzésben

A fő források a következők lehetnek:

1. Az adatok egyszerű átvitele (extrapolálása) a múltból a jövőbe (például a cégnek nincs más előrejelzési lehetősége, kivéve 10%-os árbevétel-növekedést).

2. Képtelenség pontosan meghatározni egy esemény valószínűségét és annak a vizsgált objektumra gyakorolt ​​hatását.

3. A terv megvalósítását befolyásoló előre nem látható nehézségek (zavaró események), például az értékesítési osztály vezetőjének hirtelen elbocsátása.

Általánosságban elmondható, hogy az előrejelzés pontossága az előrejelzés terén szerzett tapasztalatok felhalmozásával és módszereinek fejlesztésével nő.

A legtöbb ökonometriai modell megalkotásának hátterében a regressziós analízis áll, amelyek között szerepelnie kell a költségbecslési modelleknek is. Értékelési modellek felépítéséhez ez a módszer akkor használható, ha az analógok (összehasonlítható objektumok) és a költségtényezők (összehasonlító elemek) száma az alábbiak szerint korrelál egymással: P> (5 -g-10) x nak nek, azok. 5-10-szer több analógnak kell lennie, mint a költségtényezőknek. Ugyanez az adatmennyiség és a tényezők számának arányára vonatkozó követelmény vonatkozik más feladatokra is: kapcsolat megállapítása egy objektum költsége és fogyasztói paraméterei között; a korrekciós indexek számítási eljárásának megalapozása; az ártrendek tisztázása; kapcsolat megállapítása a kopás és a befolyásoló tényezők változása között; függőségek megszerzése költségstandardok kiszámításához stb. Ennek a követelménynek a teljesítése azért szükséges, hogy csökkenjen annak a valószínűsége, hogy olyan adatmintával dolgozzunk, amely nem felel meg a valószínűségi változók normális eloszlásának követelményének.

A regressziós összefüggés csak az eredményül kapott változó – például költség – átlagos trendjét tükrözi egy vagy több tényezőváltozó változásaiból, mint például a hely, a szobák száma, a terület, az emelet stb. Ez a különbség a regressziós kapcsolat és a funkcionális kapcsolat között, amelyben a kapott változó értéke szigorúan meghatározott faktorváltozók adott értékére.

Regressziós kapcsolat jelenléte / az eredő között nál nélés faktorváltozók x p ..., x k(tényezők) azt jelzi, hogy ezt az összefüggést nemcsak a kiválasztott faktorváltozók hatása határozza meg, hanem olyan változók hatása is, amelyek egy része általában ismeretlen, mások nem értékelhetők és nem vehetők figyelembe:

Az el nem számolt változók hatását ennek az egyenletnek a második tagja jelöli ?, amit közelítési hibának nevezünk.

A következő típusú regressziós függőségek léteznek:

  • ? páros regresszió - két változó közötti kapcsolat (eredményes és faktoriális);
  • ? többszörös regresszió - egy eredményváltozó és két vagy több, a vizsgálatban szereplő faktorváltozó függősége.

A regresszióanalízis fő feladata a változók (páros regresszióban) és többváltozós (többszörös regresszióban) közötti kapcsolat szorosságának számszerűsítése. A kapcsolat szorosságát a korrelációs együttható számszerűsíti.

A regressziós elemzés lehetővé teszi, hogy megállapítsa a fő tényezők (hedonikus jellemzők) hatásának mintázatát a vizsgált indikátorra, mind összességükben, mind pedig mindegyik külön-külön. A regresszióanalízis, mint a matematikai statisztika módszere segítségével egyrészt meg lehet találni és leírni az eredményül kapott (kívánt) változó analitikus függésének formáját a faktoriális változóktól, másrészt megbecsülni a változók közelségét. ezt a függőséget.

Az első feladat megoldásával egy matematikai regressziós modellt kapunk, melynek segítségével adott faktorértékekre számítjuk ki a kívánt mutatót. A második feladat megoldása lehetővé teszi a számított eredmény megbízhatóságának megállapítását.

A regresszióanalízis tehát olyan formális (matematikai) eljárások összességeként definiálható, amelyek célja a kapott és a faktorváltozók közötti kapcsolat szorosságának, irányának és formájának analitikus kifejezésének mérése, azaz az ún. egy ilyen elemzés eredménye egy strukturálisan és mennyiségileg meghatározott statisztikai modell a következő formában:

ahol y - az eredményül kapott változó (a kívánt mutató, pl. költség, bérleti díj, kapitalizációs ráta) átlagértéke felett P megfigyelései; x a tényezőváltozó értéke (/-edik költségtényező); nak nek - faktorváltozók száma.

Funkció f(x l ,...,x lc), az eredményül kapott változó faktoriálisoktól való függését leíró regressziós egyenletnek (függvénynek) nevezzük. A "regresszió" kifejezés (regresszió (lat.) - visszavonulás, visszatérés valamihez) a módszer kialakításának szakaszában megoldott konkrét feladatok egyikének sajátosságaihoz kapcsolódik, és jelenleg nem tükrözi a módszer teljes lényegét. , de továbbra is használatban van.

A regressziós elemzés általában a következő lépéseket tartalmazza:

  • ? minta kialakítása homogén objektumokból és kiindulási információk gyűjtése ezekről az objektumokról;
  • ? a kapott változót befolyásoló fő tényezők kiválasztása;
  • ? a minta normálságának ellenőrzése segítségével x 2 vagy binomiális kritérium;
  • ? a kommunikáció formájára vonatkozó hipotézis elfogadása;
  • ? matematikai adatfeldolgozás;
  • ? regressziós modell megszerzése;
  • ? statisztikai mutatóinak értékelése;
  • ? verifikációs számítások regressziós modell segítségével;
  • ? eredmények elemzése.

A meghatározott műveletsor egy faktorváltozó és egy eredő változó közötti párkapcsolat, valamint az eredményváltozó és több faktorváltozó közötti többszörös kapcsolat vizsgálatakor történik meg.

A regressziós elemzés használata bizonyos követelményeket támaszt a kezdeti információkkal szemben:

  • ? az objektumok statisztikai mintájának funkcionális és konstruktív-technológiai szempontból homogénnek kell lennie;
  • ? elég sok;
  • ? a vizsgált költségmutatót - az eredményül kapott változót (ár, költség, költségek) - a mintában szereplő összes objektum kiszámításához azonos feltételekre kell csökkenteni;
  • ? a faktorváltozókat kellően pontosan kell mérni;
  • ? a faktorváltozóknak függetlennek vagy minimálisan függőnek kell lenniük.

A minta homogenitására és teljességére vonatkozó követelmények ellentmondanak egymásnak: minél szigorúbban választják ki az objektumokat homogenitásuk szerint, annál kisebb a minta, és fordítva, a minta bővítéséhez olyan objektumokat kell tartalmazni, amelyek nem nagyon hasonlítanak egymásra.

A homogén objektumok csoportjára vonatkozó adatok összegyűjtése után azokat elemzik, hogy elméleti regressziós egyenes formájában megállapítsák a kapott és a faktorváltozók közötti kapcsolat formáját. Az elméleti regressziós egyenes megtalálásának folyamata egy közelítő görbe ésszerű megválasztásából és az egyenlet együtthatóinak kiszámításából áll. A regressziós egyenes egy sima görbe (adott esetben egyenes), amely matematikai függvény segítségével írja le a vizsgált függőség általános trendjét, és kisimítja a melléktényezők hatásából a szabálytalan, véletlenszerű kiugró értékeket.

Az értékelési feladatokban a páros regressziós függőségek megjelenítéséhez leggyakrabban a következő függvényeket használják: lineáris - y - a 0 + ars + s erő - y - aj&i + c demonstratív - y - lineáris exponenciális - y - a 0 + ar * + s. Itt - e közelítési hiba az el nem számolt véletlenszerű tényezők hatására.

Ezekben a függvényekben y a kapott változó; x - faktorváltozó (faktor); a 0 , a r a 2 - regressziós modell paraméterei, regressziós együtthatók.

A lineáris exponenciális modell az úgynevezett hibrid modellek osztályába tartozik a következő formában:

ahol

ahol x (i = 1, /) - tényezők értékei;

b t (i = 0, /) a regressziós egyenlet együtthatói.

Ebben az egyenletben a komponensek A, Bés Z megfelelnek az értékelendő eszköz egyes összetevőinek költségének, például egy telek költségének és a fejlesztések költségének, valamint a paraméternek K gyakori. Úgy tervezték, hogy az értékelendő eszköz összes összetevőjének értékét egy közös befolyásoló tényezőhöz, például a helyhez igazítsa.

Azok a tényezők, amelyek a megfelelő együtthatók mértékében vannak, bináris változók (0 vagy 1). A fokozat alapját képező tényezők diszkrét vagy folytonos változók.

A szorzójel együtthatókhoz kapcsolódó tényezők szintén folytonosak vagy diszkrétek.

A specifikációt általában empirikus megközelítéssel hajtják végre, és két szakaszból áll:

  • ? a regressziós mező pontjainak ábrázolása a grafikonon;
  • ? egy lehetséges közelítő görbe típusának grafikus (vizuális) elemzése.

A regressziós görbe típusa nem mindig választható ki azonnal. Meghatározásához először a regressziós mező pontjait ábrázoljuk a grafikonon a kiindulási adatok szerint. Ezután vizuálisan rajzolunk egy vonalat a pontok helyzete mentén, megpróbálva kideríteni a kapcsolat minőségi mintáját: egyenletes növekedés vagy egyenletes csökkenés, növekedés (csökkenés) a dinamika sebességének növekedésével (csökkenésével), zökkenőmentes megközelítés egy bizonyos szint.

Ezt az empirikus megközelítést logikai elemzés egészíti ki, amely a vizsgált tényezők közgazdasági és fizikai természetére, illetve egymásra gyakorolt ​​hatására vonatkozó, már ismert elképzelésekből indul ki.

Ismeretes például, hogy a kapott változók - gazdasági mutatók (árak, bérleti díj) számos tényezőváltozótól - árképző tényezők (a település központjától való távolság, terület stb.) függése nem lineáris. , és meglehetősen szigorúan leírhatók hatvány-, exponenciális vagy másodfokú függvénnyel. De a tényezők kis tartományával elfogadható eredményeket lehet elérni lineáris függvény használatával.

Ha még mindig nem lehet azonnal magabiztosan választani valamelyik funkciót, akkor kiválasztunk két vagy három függvényt, kiszámítjuk a paramétereiket, majd a kapcsolat szorosságának megfelelő kritériumok alapján végül kiválasztjuk a funkciót.

Elméletileg a görbe alakjának megtalálásának regressziós folyamatát ún leírás modell és együtthatói - kalibráció modellek.

Ha azt találjuk, hogy az eredményül kapott y változó több faktorváltozótól (tényezőtől) függ, x ( , x 2 , ..., x k, akkor többszörös regressziós modell felépítéséhez folyamodnak. Általában a többszörös kommunikáció három formáját használják: lineáris - y - a 0 + a x x x + a^x 2 + ... + a k x k, demonstratív - y - a 0 a*én a x t- a x b, erő - y - a 0 x x ix 2 a 2. .x^ vagy ezek kombinációi.

Az exponenciális és az exponenciális függvények univerzálisabbak, mivel nemlineáris összefüggéseket közelítenek, amelyek az értékelés során vizsgált függőségek többsége. Ezen túlmenően használhatók az objektumok értékelésében és a tömegértékelés statisztikai modellezési módszerében, valamint a közvetlen összehasonlítás módszerében az egyéni értékelésben a korrekciós tényezők megállapításánál.

A kalibrálási szakaszban a regressziós modell paramétereit a legkisebb négyzetek módszerével számítják ki, amelynek lényege, hogy az eredményül kapott változó számított értékeinek négyzetes eltéréseinek összege. nál nél., azaz a kiválasztott relációs egyenlet szerint számítva, a tényleges értékekből minimálisnak kell lennie:

j) (. és y. ismert tehát K csak az egyenlet együtthatóinak függvénye. Megtalálni a minimumot S vegyen részleges származékokat K az egyenlet együtthatóival, és egyenlővé tegye őket nullával:

Ennek eredményeként egy normális egyenletrendszert kapunk, amelynek száma megegyezik a kívánt regressziós egyenlet meghatározott együtthatóinak számával.

Tegyük fel, hogy meg kell találnunk a lineáris egyenlet együtthatóit y - a 0 + ars. Az eltérések négyzetes összege:

/=1

Megkülönböztetni egy függvényt K ismeretlen együtthatókkal egy 0és a parciális deriváltokat nullával egyenlővé kell tenni:

Az átalakítások után a következőket kapjuk:

ahol P - eredeti tényleges értékek száma nál nél(az analógok száma).

A fenti eljárás a regressziós egyenlet együtthatóinak kiszámítására nemlineáris függőségekre is alkalmazható, ha ezek a függőségek linearizálhatók, pl. változók változtatásával lineáris formába hozzuk. A hatvány- és exponenciális függvények a logaritmus és a változók megfelelő változása után lineáris formát kapnak. Például egy hatványfüggvény a logaritmus felvétele után a következő alakot ölti: In y \u003d 1n 0 +a x 1ph. A változók változása után Y- Ban ben y, L 0 - Ban ben és X- sz. x-ben egy lineáris függvényt kapunk

Y=A0 + cijX, amelyek együtthatói a fent leírtak szerint találhatók.

A legkisebb négyzetek módszerét is alkalmazzák a többszörös regressziós modell együtthatóinak kiszámításához. Tehát a normálegyenletrendszer két változós lineáris függvény kiszámításához Xjés x 2átalakítások sorozata után így néz ki:

Általában ezt az egyenletrendszert lineáris algebrai módszerekkel oldják meg. A többszörös exponenciális függvényeket úgy hozzuk lineáris alakra, hogy logaritmusokat veszünk és változókat változtatunk, ugyanúgy, mint egy páros exponenciális függvényt.

Hibrid modellek használatakor többszörös regressziós együtthatókat találunk az egymást követő közelítések módszerének numerikus eljárásaival.

A több regressziós egyenlet közül a végső választáshoz minden egyenletben tesztelni kell a kapcsolat szorosságát, amelyet a korrelációs együtthatóval, a variancia és a variációs együtthatóval mérünk. Az értékeléshez használhatja a Student és Fisher kritériumait is. Minél nagyobb a kapcsolat szorossága mutatja a görbét, annál előnyösebb, ha minden más egyenlő.

Ha egy ilyen osztály problémáját kell megoldani, amikor egy költségmutató költségtényezőktől való függőségét kell megállapítani, akkor az a vágy, hogy minél több befolyásoló tényezőt vegyünk figyelembe, és ezáltal pontosabb többszörös regressziós modellt hozzunk létre. érthető. Két objektív korlát azonban gátolja a tényezők számának bővülését. Először is, egy többszörös regressziós modell felépítéséhez sokkal nagyobb objektummintára van szükség, mint egy páros modell felépítéséhez. Általánosan elfogadott, hogy a mintában lévő objektumok számának meg kell haladnia a számot P tényezők, legalább 5-10 alkalommal. Ebből következik, hogy egy három befolyásoló tényezővel rendelkező modell felépítéséhez hozzávetőlegesen 20 objektumból álló mintát kell gyűjteni különböző faktorértékkészletekkel. Másodszor, a modellhez kiválasztott tényezők az értékmutatóra gyakorolt ​​hatásukban kellően függetlenek legyenek egymástól. Ezt nem könnyű biztosítani, mivel a minta általában egy családba tartozó objektumokat kombinál, amelyekben számos tényező rendszeres változása történik objektumról objektumra.

Minőség regressziós modellek, általában ellenőrizze a következő statisztikák segítségével.

A regressziós egyenlet hibájának szórása (becslési hiba):

ahol P - mintanagyság (analógok száma);

nak nek - tényezők száma (költségtényezők);

A regressziós egyenlet által megmagyarázhatatlan hiba (3.2. ábra);

y. - az eredményül kapott változó tényleges értéke (például költség); y t - az eredményül kapott változó számított értéke.

Ezt a mutatót más néven standard becslési hiba (RMS hiba). Az ábrán a pontok a minta adott értékeit jelzik, a szimbólum a minta átlagértékeinek vonalát, a ferde szaggatott vonal a regressziós egyenes.


Rizs. 3.2.

A becslési hiba szórása azt méri, hogy a tényleges y értékek mennyire térnek el a megfelelő számított értékektől. nál nél( , amelyet a regressziós modell segítségével kaptunk. Ha a minta, amelyre a modell épül, a normál eloszlási törvény hatálya alá tartozik, akkor azt állíthatjuk, hogy a valós értékek 68%-a nál nél tartományban vannak nál nél ± &e a regressziós egyenesből, és 95% - a tartományban nál nél ± 2d e. Ez a mutató kényelmes, mert a mértékegységek vmit? egyeztesse a mértékegységekkel nál nél,. Ezzel kapcsolatban az értékelési folyamat során kapott eredmény pontosságának jelzésére használható. Például egy értékbizonyítványban jelezheti, hogy a regressziós modell segítségével kapott piaci érték értéke V 95%-os valószínűséggel tól tartományba esik (V-2d,.) előtt (nál nél + 2ds).

Az eredményül kapott változó variációs együtthatója:

ahol y - a kapott változó átlagértéke (3.2. ábra).

A regressziós elemzésben a var variációs együttható az eredmény szórása, az eredményváltozó átlagának százalékában kifejezve. A variációs együttható a kapott regressziós modell prediktív tulajdonságainak kritériumaként szolgálhat: minél kisebb az érték var, annál magasabbak a modell prediktív tulajdonságai. A variációs együttható használata előnyösebb, mint az &e kitevő, mivel ez egy relatív kitevő. Ennek a mutatónak a gyakorlati felhasználása során javasolható, hogy ne használjunk olyan modellt, amelynek variációs együtthatója meghaladja a 33%-ot, mivel ebben az esetben nem mondható el, hogy ezek a minták a normál eloszlási törvény hatálya alá tartoznak.

Meghatározási együttható (többszörös korrelációs együttható négyzetével):

Ez a mutató a kapott regressziós modell általános minőségének elemzésére szolgál. Megmutatja, hogy az eredményül kapott változó változásának hány százaléka köszönhető a modellben szereplő összes faktorváltozó hatásának. A meghatározási együttható mindig a nullától egyig terjedő tartományban van. Minél közelebb van a determinációs együttható értéke az egységhez, annál jobban leírja a modell az eredeti adatsort. A determinációs együttható más módon is ábrázolható:

Itt van a regressziós modell által magyarázott hiba,

a - megmagyarázhatatlan hiba

regressziós modell. Közgazdasági szempontból ez a kritérium lehetővé teszi annak megítélését, hogy az áringadozás hány százalékát magyarázza a regressziós egyenlet.

Az indikátor pontos elfogadási határa R2 lehetetlen minden esetre meghatározni. Figyelembe kell venni mind a minta nagyságát, mind az egyenlet értelmes értelmezését. Általános szabály, hogy az azonos típusú objektumok adatainak tanulmányozásakor, körülbelül egy időben, az érték R2 nem haladja meg a 0,6-0,7 szintet. Ha minden előrejelzési hiba nulla, pl. amikor a kapott és a faktorváltozók közötti kapcsolat funkcionális, akkor R2 =1.

Korrigált meghatározási együttható:

A korrigált determinációs együttható bevezetésének szükségességét az magyarázza, hogy a tényezők számának növekedésével nak nek a szokásos determinációs együttható szinte mindig növekszik, de a szabadságfokok száma csökken (n-k- egy). A beírt korrekció mindig csökkenti az értéket R2, mert a (P - 1) > (n-től - egy). Ennek eredményeként az érték R 2 CKOf) akár negatívvá is válhat. Ez azt jelenti, hogy az érték R2 közel nulla volt a korrekció előtt, és a variancia arányát a változó regressziós egyenlete magyarázza nál nél nagyon kicsi.

A korrigált determinációs együttható értékében eltérő, de más minőségi kritériumokkal egyformán jó regressziós modellváltozat közül a korrigált determinációs együttható nagy értékű változatát részesítjük előnyben. A determinációs együtthatót nem korrigáljuk, ha (n - k): k> 20.

Fisher arány:

Ez a kritérium a determinációs együttható szignifikanciájának értékelésére szolgál. Maradék négyzetösszeg az előrejelzési hiba mértéke az ismert költségértékek regressziójával nál nél..Összehasonlítása a regressziós négyzetösszeggel megmutatja, hogy a regressziós függés hányszor jósolja meg jobban az eredményt, mint az átlag nál nél. Van egy táblázat a kritikus értékekről F R Fisher-együttható a számláló szabadságfokainak számától függően - nak nek, nevező v 2 = p - k- 1 és szignifikancia szint a. Ha a Fisher-kritérium számított értéke F R nagyobb, mint a táblázat értéke, akkor a determinációs együttható jelentéktelenségének hipotézise, ​​azaz. a regressziós egyenletbe ágyazott és a valóban létező kapcsolatok közötti eltérésről, p = 1 - a valószínűséggel elvetjük.

Átlagos közelítési hiba(átlagos százalékos eltérés) az eredményül kapott változó tényleges és számított értéke közötti átlagos relatív különbség, százalékban kifejezve:

Hogyan kisebb érték adott mutató, annál jobb a modell prediktív minősége. Ha ennek a mutatónak az értéke nem haladja meg a 7%-ot, akkor a modell nagy pontosságát jelzik. Ha egy 8 > 15%, a modell nem kielégítő pontosságát jelzi.

A regressziós együttható standard hibája:

ahol (/I) -1 .- a mátrix átlós eleme (X G X) ~ 1-től - tényezők száma;

X- faktorváltozók értékmátrixa:

X7- faktorváltozók értékeinek transzponált mátrixa;

(JL) _| egy mátrix inverze a mátrixszal.

Minél kisebbek ezek a pontszámok az egyes regressziós együtthatók esetében, annál megbízhatóbb a megfelelő regressziós együttható becslése.

Hallgatói teszt (t-statisztika):

Ez a kritérium lehetővé teszi a kapcsolat megbízhatóságának (szignifikancia) mértékének mérését egy adott regressziós együttható miatt. Ha a számított érték t. nagyobb, mint a táblázat értéke

t av , hol v - p - k - 1 a szabadságfokok száma, akkor azt a hipotézist, hogy ez az együttható statisztikailag jelentéktelen, (100 - a)% valószínűséggel elvetjük. A /-eloszlásnak vannak speciális táblázatai, amelyek lehetővé teszik a kritérium kritikus értékének meghatározását adott a szignifikanciaszint és a v szabadsági fokok számával. A leggyakrabban használt a értéke 5%.

Multikollinearitás, azaz a faktorváltozók közötti kölcsönös kapcsolatok hatása ahhoz vezet, hogy meg kell elégedni korlátozott számukkal. Ha ezt nem vesszük figyelembe, akkor logikátlan regressziós modellt kaphatunk. A multikollinearitás negatív hatásának elkerülése érdekében a többszörös regressziós modell felépítése előtt a pár korrelációs együtthatókat számítjuk ki. rxjxj a kiválasztott változók között X.és x

Itt XjX; - két faktoriális változó szorzatának középértéke;

XjXj- két tényezőváltozó átlagértékének szorzata;

Az x faktorváltozó szórásának kiértékelése..

Két változót akkor tekintünk regresszíven összefüggőnek (azaz kollineárisnak), ha páronkénti korrelációs együtthatója abszolút értékben szigorúan nagyobb, mint 0,8. Ebben az esetben ezen változók bármelyikét ki kell zárni a számításból.

Az így kapott regressziós modellek közgazdasági elemzési lehetőségeinek bővítése érdekében átlagokat alkalmazunk rugalmassági együtthatók, képlet határozza meg:

ahol Xj- a megfelelő faktorváltozó középértéke;

y - az eredményül kapott változó középértéke; egy én - regressziós együttható a megfelelő faktorváltozóhoz.

A rugalmassági együttható azt mutatja meg, hogy a faktorváltozó 1%-os változása esetén átlagosan hány százalékkal fog változni a kapott változó értéke, azaz 1%-kal. hogyan reagál a kapott változó a faktorváltozó változására. Például hogyan alakul a négyzetméter ára? m alapterületű lakás a városközponttól távol.

Egy adott regressziós együttható jelentőségének elemzése szempontjából hasznos a becslés privát determinációs együttható:

Itt van az eredmény szórásának becslése

változó. Ez az együttható megmutatja, hogy az eredményül kapott változó variációját hány százalék magyarázza a regressziós egyenletben szereplő /-edik faktorváltozó változása.

  • A hedonikus jellemzők alatt egy tárgy azon jellemzőit értjük, amelyek a vevők és az eladók szempontjából hasznos (értékes) tulajdonságait tükrözik.