Прост регресионен анализ. Регресионният анализ е статистически метод за изследване на зависимостта на случайна променлива от променливи. Анализ на резултатите от анализа

По време на обучението си студентите много често се сблъскват с различни уравнения. Едно от тях - регресионното уравнение - се разглежда в тази статия. Този тип уравнение се използва специално за описание на характеристиките на връзката между математическите параметри. Този видравенствата се използват в статистиката и иконометрията.

Определение за регресия

В математиката регресията се разбира като определено количество, което описва зависимостта на средната стойност на набор от данни от стойностите на друго количество. Регресионното уравнение показва, като функция на определена характеристика, средната стойност на друга характеристика. Регресионната функция има формата на просто уравнение y \u003d x, в което y действа като зависима променлива, а x е независима променлива (фактор на характеристиките). Всъщност регресията се изразява като y = f (x).

Какви са видовете връзки между променливите

Като цяло се разграничават два противоположни типа връзка: корелация и регресия.

Първият се характеризира с равенство на условните променливи. AT този случайне е известно със сигурност коя променлива зависи от другата.

Ако няма равенство между променливите и условията казват коя променлива е обяснителна и коя е зависима, тогава можем да говорим за наличие на връзка от втори тип. За да се изгради уравнение на линейна регресия, ще е необходимо да се установи какъв тип връзка се наблюдава.

Видове регресии

Към днешна дата има 7 различни вида регресия: хиперболична, линейна, множествена, нелинейна, двойна, обратна, логаритмично линейна.

Хиперболични, линейни и логаритмични

Уравнението на линейната регресия се използва в статистиката за ясно обяснение на параметрите на уравнението. Изглежда като y = c + m * x + E. Хиперболичното уравнение има формата на правилна хипербола y \u003d c + m / x + E. Логаритмично линейното уравнение изразява връзката с помощта на логаритмичната функция: In y \u003d In c + m * In x + In E.

Множествени и нелинейни

още две сложни типоверегресиите са множествени и нелинейни. Уравнението на множествената регресия се изразява чрез функцията y \u003d f (x 1, x 2 ... x c) + E. В тази ситуация y е зависимата променлива, а x е обяснителната променлива. Променливата E е стохастична и включва влиянието на други фактори в уравнението. Уравнението на нелинейната регресия е малко непоследователно. От една страна, по отношение на взетите под внимание показатели, тя не е линейна, а от друга страна, в ролята на оценяващи показатели, е линейна.

Обратни и регресии по двойки

Обратната функция е вид функция, която трябва да бъде преобразувана в линейна форма. В най-традиционните приложни програми той има формата на функция y \u003d 1 / c + m * x + E. Уравнението на двойната регресия показва връзката между данните като функция на y = f(x) + E. Точно както другите уравнения, y зависи от x и E е стохастичен параметър.

Концепцията за корелация

Това е индикатор, който показва наличието на връзка между две явления или процеси. Силата на връзката се изразява като корелационен коефициент. Стойността му варира в интервала [-1;+1]. Отрицателен индикатор показва наличието обратна връзка, положителен - за права линия. Ако коефициентът приеме стойност, равна на 0, тогава няма връзка. Колкото по-близо е стойността до 1 - толкова по-силна е връзката между параметрите, колкото по-близо до 0 - толкова по-слаба.

Методи

Корелационните параметрични методи могат да оценят плътността на връзката. Те се използват въз основа на оценки на разпределението за изследване на параметри, които се подчиняват на нормалния закон за разпределение.

Параметрите на уравнението на линейната регресия са необходими за идентифициране на вида на зависимостта, функцията на уравнението на регресията и оценка на показателите на избраната формула за връзка. Корелационното поле се използва като метод за идентифициране на връзка. За да направите това, всички съществуващи данни трябва да бъдат представени графично. В правоъгълна двумерна координатна система всички известни данни трябва да бъдат нанесени. Така се формира корелационното поле. Стойността на описващия фактор е отбелязана по абсцисата, докато стойностите на зависимия фактор са отбелязани по ординатата. Ако има функционална връзка между параметрите, те се подреждат под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за почти пълна липса на връзка. Ако е между 30% и 70%, това показва наличието на връзки със средна плътност. 100% индикатор е доказателство за функционална връзка.

Нелинейното регресионно уравнение, също като линейното, трябва да бъде допълнено с корелационен индекс (R).

Корелация за множествена регресия

Коефициентът на детерминация е показател на квадрата на множествената корелация. Той говори за тясната връзка на представения набор от показатели с изследваната черта. Може да се говори и за естеството на влиянието на параметрите върху резултата. Уравнението на множествената регресия се оценява с помощта на този индикатор.

За да се изчисли индексът на множествената корелация, е необходимо да се изчисли неговият индекс.

Метод на най-малките квадрати

Този метод е начин за оценка на регресионните фактори. Същността му се състои в минимизиране на сумата от квадратните отклонения, получени поради зависимостта на фактора от функцията.

Сдвоено уравнение на линейна регресия може да бъде изчислено с помощта на такъв метод. Този тип уравнения се използват в случай на откриване между индикаторите на сдвоена линейна връзка.

Опции за уравнение

Всеки параметър на линейната регресионна функция има специфично значение. Сдвоеното уравнение на линейна регресия съдържа два параметъра: c и m. Параметърът t показва средната промяна в крайния показател на функцията y, при намаление (увеличение) на променливата x с единица конвенционална единица. Ако променливата x е нула, тогава функцията е равна на параметъра c. Ако променливата x не е нула, тогава факторът c няма икономически смисъл. Единственото влияние върху функцията е знакът пред фактора c. Ако има минус, тогава можем да кажем за бавна промяна в резултата в сравнение с фактора. Ако има плюс, това означава ускорена промяна в резултата.

Всеки параметър, който променя стойността на регресионното уравнение, може да бъде изразен чрез уравнение. Например коефициентът c има формата c = y - mx.

Групирани данни

Има такива условия на задачата, при които цялата информация е групирана според атрибута x, но в същото време за определена група са посочени съответните средни стойности на зависимия индикатор. В този случай средните стойности характеризират как индикаторът зависи от x. Така групираната информация помага да се намери регресионното уравнение. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните стойности често са обект на външни колебания. Тези колебания не са отражение на моделите на връзката, те просто маскират нейния "шум". Средните стойности показват модели на връзка много по-лоши от уравнение на линейна регресия. Те обаче могат да се използват като основа за намиране на уравнение. Като умножите размера на определена популация по съответната средна стойност, можете да получите сумата от y в рамките на групата. След това трябва да избиете всички получени суми и да намерите крайния индикатор y. Малко по-трудно е да се правят изчисления с индикатора за сума xy. В случай, че интервалите са малки, можем условно да приемем показателя x за всички единици (в групата) еднакъв. Умножете го със сумата от y, за да намерите сумата от произведенията на x и y. Освен това всички суми се съчетават и се оказва обща сумаху.

Регресия на множество двойки уравнения: Оценяване на важността на връзката

Както беше обсъдено по-рано, множествената регресия има функция от формата y \u003d f (x 1, x 2, ..., x m) + E. Най-често такова уравнение се използва за решаване на проблема с търсенето и предлагането на даден продукт, доходите от лихви върху обратно изкупени акции, изучаване на причините и вида на функцията на производствените разходи. Също така се използва активно в голямо разнообразие от макроикономически изследвания и изчисления, но на ниво микроикономика такова уравнение се използва малко по-рядко.

Основната задача на множествената регресия е да се изгради модел на данни, съдържащ огромно количество информация, за да се определи допълнително какъв ефект има всеки от факторите поотделно и в тяхната съвкупност върху моделирания показател и неговите коефициенти. Регресионното уравнение може да приема различни стойности. В този случай обикновено се използват два вида функции за оценка на връзката: линейни и нелинейни.

Линейна функция е изобразена под формата на такава връзка: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. В този случай a2, a m се считат за коефициенти на "чиста" регресия. Те са необходими за характеризиране на средната промяна на параметъра y с промяна (намаляване или увеличаване) на всеки съответен параметър x с една единица, при условие на стабилна стойност на други показатели.

Нелинейните уравнения имат например формата степенна функция y=ax 1 b1 x 2 b2 ...x m bm . В този случай показателите b 1, b 2 ..... b m - се наричат ​​коефициенти на еластичност, те показват как ще се промени резултатът (с колко%) с увеличение (намаляване) на съответния показател x с 1% и със стабилен показател на други фактори.

Какви фактори трябва да се имат предвид при изграждането на множествена регресия

За да се изгради правилно множествена регресия, е необходимо да се установи на кои фактори трябва да се обърне специално внимание.

Необходимо е да има известно разбиране за естеството на връзката между икономическите фактори и моделираните. Факторите, които трябва да бъдат включени, трябва да отговарят на следните критерии:

  • Трябва да е измеримо. За да се използва фактор, описващ качеството на даден обект, във всеки случай трябва да му се даде количествена форма.
  • Не трябва да има факторна взаимовръзка или функционална връзка. Такива действия най-често водят до необратими последици – системата обикновени уравнениястава безусловна, а това води до нейната недостоверност и неясни оценки.
  • В случай на огромен индикатор за корелация, няма начин да се установи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите стават неинтерпретируеми.

Методи на изграждане

Има огромен брой методи и начини да обясните как можете да изберете факторите за уравнението. Всички тези методи обаче се основават на избора на коефициенти с помощта на индекса на корелация. Сред тях са:

  • Метод на изключване.
  • Включете метода.
  • Поетапен регресионен анализ.

Първият метод включва отсяване на всички коефициенти от сборния набор. Вторият метод включва въвеждането на много допълнителни фактори. Е, третото е елиминирането на факторите, които преди са били приложени към уравнението. Всеки от тези методи има право на съществуване. Те имат своите плюсове и минуси, но всеки по свой начин може да реши проблема с отсяването на ненужни индикатори. По правило резултатите, получени от всеки отделен метод, са доста близки.

Методи за многомерен анализ

Такива методи за определяне на фактори се основават на разглеждането на индивидуални комбинации от взаимосвързани характеристики. Те включват дискриминантен анализ, разпознаване на образи, анализ на главните компоненти и клъстерен анализ. Освен това има и факторен анализ, но той се появи в резултат на развитието на компонентния метод. Всички те се прилагат при определени обстоятелства, при определени условия и фактори.

Какво е регресия?

Разгледайте две непрекъснати променливи x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Нека поставим точките върху 2D точкова диаграма и да кажем, че имаме линейна зависимостако данните са апроксимирани с права линия.

Ако приемем, че гзависи от х, и промените в гпричинени от промени в х, можем да дефинираме регресионна линия (регресия гна х), което най-добре описва праволинейната връзка между тези две променливи.

Статистическата употреба на думата „регресия“ идва от феномен, известен като регресия към средната стойност, приписван на сър Франсис Галтън (1889).

Той показа, че докато високите бащи са склонни да имат високи синове, средният ръст на синовете е по-нисък от този на техните високи бащи. Средният ръст на синовете „регресира“ и „се върна“ до средния ръст на всички бащи в популацията. Така средно високите бащи имат по-ниски (но все още високи) синове, а ниските бащи имат по-високи (но все още доста ниски) синове.

регресионна линия

Математическо уравнение, което оценява проста (по двойки) линия на линейна регресия:

хнаречена независима променлива или предиктор.

Yе зависимата или отговорна променлива. Това е стойността, която очакваме г(средно), ако знаем стойността х, т.е. е предвидената стойност г»

  • а- свободен член (пресичане) на линията за оценка; тази стойност Y, кога х=0(Фиг. 1).
  • b- наклон или градиент на прогнозната линия; това е сумата, с която Yсе увеличава средно, ако увеличим хза една единица.
  • аи bсе наричат ​​регресионни коефициенти на оценената линия, въпреки че този термин често се използва само за b.

Линейната регресия по двойки може да бъде разширена, за да включва повече от една независима променлива; в този случай е известен като множествена регресия.

Фиг. 1. Линия на линейна регресия, показваща пресечната точка на a и наклона b (степента на увеличение на Y, когато x се увеличи с една единица)

Метод на най-малките квадрати

Извършваме регресионен анализ, използвайки извадка от наблюдения, където аи b- извадкови оценки на истинските (общи) параметри, α и β , които определят линията на линейна регресия в популацията (генерална популация).

Повечето прост методопределящи коефициенти аи bе метод на най-малките квадрати(MNK).

Напасването се оценява чрез отчитане на остатъците (вертикалното разстояние на всяка точка от линията, напр. остатък = видимо г- предсказано г, Ориз. 2).

Линията на най-добро прилягане е избрана така, че сумата от квадратите на остатъците да е минимална.

Ориз. 2. Линия на линейна регресия с изобразени остатъци (вертикални пунктирани линии) за всяка точка.

Предположения за линейна регресия

Така че за всяка наблюдавана стойност остатъкът е равен на разликата и съответната прогнозирана.Всеки остатък може да бъде положителен или отрицателен.

Можете да използвате остатъци, за да тествате следните допускания зад линейната регресия:

  • Остатъците обикновено се разпределят с нулева средна стойност;

Ако предположенията за линейност, нормалност и/или постоянна дисперсия са съмнителни, можем да трансформираме или и изчислим нова линиярегресия, за която тези предположения са изпълнени (например използване логаритмична трансформацияили други).

Ненормални стойности (отклонения) и точки на влияние

„Влиятелно“ наблюдение, ако е пропуснато, променя една или повече оценки на параметрите на модела (т.е. наклон или пресечна точка).

Отклонение (наблюдение, което е в конфликт с повечето от стойностите в набора от данни) може да бъде „влиятелно“ наблюдение и може да бъде добре открито визуално, когато се разглежда 2D диаграма на разсейване или диаграма на остатъци.

Както за отклонения, така и за "влиятелни" наблюдения (точки) се използват модели, както с тяхното включване, така и без тях, обърнете внимание на промяната в оценката (регресионни коефициенти).

Не отхвърляйте автоматично отклоненията или точките на влияние, когато правите анализ, тъй като простото им игнориране може да повлияе на резултатите. Винаги изучавайте причините за тези отклонения и ги анализирайте.

Хипотеза за линейна регресия

При конструирането на линейна регресия се проверява нулевата хипотеза, че общият наклон на регресионната линия β нула.

Ако наклонът на линията е нула, няма линейна връзка между и: промяната не засяга

За да тествате нулевата хипотеза, че истинският наклон е нула, можете да използвате следния алгоритъм:

Изчислете тестовата статистика, равна на съотношението , което се подчинява на разпределение със степени на свобода, където стандартната грешка на коефициента


,

- оценка на дисперсията на остатъците.

Обикновено, ако достигнатото ниво на значимост е нулевата хипотеза се отхвърля.


където е процентната точка на разпределението със степени на свобода, което дава вероятността за двустранен тест

Това е интервалът, който съдържа общия наклон с вероятност от 95%.

За големи извадки, да кажем, че можем да приближим със стойност от 1,96 (т.е. тестовата статистика ще има тенденция да бъде нормално разпределена)

Оценка на качеството на линейната регресия: коефициент на детерминация R 2

Поради линейната връзка и ние очакваме това да се променя с промените и ние наричаме това вариацията, която се дължи или се обяснява с регресията. Остатъчната вариация трябва да бъде възможно най-малка.

Ако е така, тогава по-голямата част от вариацията ще се обясни с регресията и точките ще лежат близо до линията на регресия, т.е. линията пасва добре на данните.

Пропорцията на общата дисперсия, която се обяснява с регресията, се нарича коефициент на детерминация, обикновено изразен като процент и означен R2(при сдвоена линейна регресия това е стойността r2, квадрат на корелационния коефициент), ви позволява субективно да оцените качеството на регресионното уравнение.

Разликата е процентът на дисперсията, който не може да се обясни с регресия.

Без официален тест за оценка, ние сме принудени да разчитаме на субективна преценка, за да определим качеството на съответствие на регресионната линия.

Прилагане на регресионна линия към прогноза

Можете да използвате регресионна линия, за да предвидите стойност от стойност в рамките на наблюдавания диапазон (никога не екстраполирайте извън тези граници).

Ние предвиждаме средната стойност за наблюдаеми, които имат определена стойност, като заместваме тази стойност в уравнението на регресионната линия.

Така че, ако прогнозираме като Ние използваме тази прогнозирана стойност и нейната стандартна грешка, за да оценим доверителния интервал за истинската средна съвкупност.

Повтарянето на тази процедура за различни стойности ви позволява да изградите граници на доверие за този ред. Това е лента или област, която съдържа истинска линия, например, с 95% ниво на сигурност.

Прости планове за регресия

Простите регресионни проекти съдържат един непрекъснат предиктор. Ако има 3 случая с предикторни стойности P, като 7, 4 и 9, и дизайнът включва ефект от първи ред P, тогава проектната матрица X ще бъде

а регресионно уравнениеизползването на P за X1 изглежда така

Y = b0 + b1 P

Ако един прост регресионен дизайн съдържа ефект от по-висок порядък върху P, като например квадратичен ефект, тогава стойностите в колона X1 в проектната матрица ще бъдат повишени на втора степен:

и уравнението ще приеме формата

Y = b0 + b1 P2

Сигма-ограничените и свръхпараметризираните методи за кодиране не се прилагат за прости регресионни дизайни и други дизайни, съдържащи само непрекъснати предиктори (защото просто няма категорични предиктори). Независимо от избрания метод на кодиране, стойностите на непрекъснатите променливи се увеличават с подходящата мощност и се използват като стойности за X променливите. В този случай не се извършва преобразуване. Освен това, когато описвате регресионни планове, можете да пропуснете разглеждането на плановата матрица X и да работите само с регресионното уравнение.

Пример: Прост регресионен анализ

Този пример използва данните, предоставени в таблицата:

Ориз. 3. Таблица с изходни данни.

Данните се основават на сравнение на преброяванията от 1960 г. и 1970 г. в 30 произволно избрани окръга. Имената на окръгите са представени като имена на наблюдения. Информацията за всяка променлива е представена по-долу:

Ориз. 4. Таблица със спецификации на променливи.

Цел на изследването

За този пример ще бъде анализирана връзката между нивото на бедност и силата, която прогнозира процента на семействата, които са под прага на бедността. Следователно ще третираме променлива 3 (Pt_Poor ) като зависима променлива.

Може да се изложи една хипотеза: изменението на населението и процента на семействата, които са под прага на бедността, са свързани. Изглежда разумно да се очаква, че бедността води до изтичане на населението, следователно би имало отрицателна корелация между процента на хората под прага на бедността и изменението на населението. Следователно ще третираме променлива 1 (Pop_Chng) като променлива за прогнозиране.

Вижте резултатите

Коефициенти на регресия

Ориз. 5. Коефициенти на регресия Pt_Poor върху Pop_Chng.

В пресечната точка на реда Pop_Chng и Param. нестандартизираният коефициент за регресията на Pt_Poor върху Pop_Chng е -0,40374. Това означава, че за всяка единица намаление на населението има увеличение на нивото на бедност от 0,40374. Горната и долната (по подразбиране) 95% доверителни граници за този нестандартизиран коефициент не включват нула, така че регресионният коефициент е значим на ниво p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Разпределение на променливите

Коефициентите на корелация могат да станат значително надценени или подценени, ако има големи отклонения в данните. Нека разгледаме разпределението на зависимата променлива Pt_Poor по окръг. За да направим това, ще изградим хистограма на променливата Pt_Poor.

Ориз. 6. Хистограма на променливата Pt_Poor.

Както можете да видите, разпределението на тази променлива се различава значително от нормалното разпределение. Въпреки това, въпреки че дори два окръга (дясните две колони) имат по-висок процент семейства, които са под прага на бедността, отколкото се очаква при нормално разпределение, те изглеждат „в рамките на диапазона“.

Ориз. 7. Хистограма на променливата Pt_Poor.

Тази преценка е донякъде субективна. Основното правило е, че отклоненията трябва да се вземат предвид, ако едно наблюдение (или наблюдения) не попадат в интервала (средно ± 3 пъти стандартното отклонение). В този случай си струва да повторите анализа със и без отклонения, за да сте сигурни, че те нямат сериозен ефект върху корелацията между членовете на популацията.

Точкова диаграма

Ако една от хипотезите е a priori за връзката между дадените променливи, тогава е полезно да я проверите върху диаграмата на съответната точечна диаграма.

Ориз. 8. Точкова диаграма.

Точковата диаграма показва ясна отрицателна корелация (-.65) между двете променливи. Той също така показва 95% доверителен интервал за регресионната линия, т.е. с 95% вероятност регресионната линия минава между двете пунктирани криви.

Критерии за значимост

Ориз. 9. Таблица, съдържаща критериите за значимост.

Тестът за регресионния коефициент Pop_Chng потвърждава, че Pop_Chng е тясно свързан с Pt_Poor, p<.001 .

Резултат

Този пример показа как да се анализира прост регресионен план. Представена е и интерпретация на нестандартизирани и стандартизирани регресионни коефициенти. Обсъжда се значението на изучаването на разпределението на отговора на зависимата променлива и се демонстрира техника за определяне на посоката и силата на връзката между предиктора и зависимата променлива.

При наличие на корелация между фактора и резултантните признаци, лекарите често трябва да определят с каква стойност може да се промени стойността на един признак, когато друг се промени от мерна единица, общоприета или установена от самия изследовател.

Например, как ще се промени телесното тегло на учениците от 1-ви клас (момичета или момчета), ако височината им се увеличи с 1 см. За тази цел се използва методът на регресионен анализ.

Най-често методът на регресионния анализ се използва за разработване на нормативни скали и стандарти за физическо развитие.

  1. Определение за регресия. Регресията е функция, която позволява, въз основа на средната стойност на един атрибут, да се определи средната стойност на друг атрибут, който е в корелация с първия.

    За тази цел се използва коефициентът на регресия и редица други параметри. Например, можете да изчислите средния брой настинки при определени стойности на средната месечна температура на въздуха през есенно-зимния период.

  2. Определяне на регресионния коефициент. Коефициентът на регресия е абсолютната стойност, с която стойността на един атрибут се променя средно, когато друг атрибут, свързан с него, се променя с определена мерна единица.
  3. Формула за коефициент на регресия. R y / x \u003d r xy x (σ y / σ x)
    където R y / x - коефициент на регресия;
    r xy - коефициент на корелация между признаците x и y;
    (σ y и σ x) - стандартни отклонения на характеристиките x и y.

    В нашия пример;
    σ x = 4,6 (стандартно отклонение на температурата на въздуха през есенно-зимния период;
    σ y = 8,65 (стандартно отклонение на броя на инфекциозните настинки).
    Следователно R y/x е регресионният коефициент.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, т.е. при понижаване на средната месечна температура на въздуха (x) с 1 градус средният брой инфекциозни настинки (y) през есенно-зимния период ще се промени с 1,8 случая.

  4. Регресионно уравнение. y \u003d M y + R y / x (x - M x)
    където y е средната стойност на атрибута, която трябва да се определи, когато се промени средната стойност на друг атрибут (x);
    x - известна средна стойност на друг признак;
    R y/x - коефициент на регресия;
    M x, M y - известни средни стойности на характеристиките x и y.

    Например, средният брой инфекциозни настинки (y) може да се определи без специални измервания при всяка средна стойност на средната месечна температура на въздуха (x). Така че, ако x = - 9 °, R y / x = 1,8 заболявания, M x = -7 °, M y = 20 заболявания, тогава y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 заболявания.
    Това уравнение се прилага в случай на праволинейна връзка между две характеристики (x и y).

  5. Предназначение на регресионното уравнение. Регресионното уравнение се използва за начертаване на регресионната линия. Последното позволява, без специални измервания, да се определи всяка средна стойност (y) на един атрибут, ако стойността (x) на друг атрибут се промени. Въз основа на тези данни се изгражда графика - регресионна линия, който може да се използва за определяне на средния брой настинки при всяка стойност на средната месечна температура в диапазона между изчислените стойности на броя на настинките.
  6. Регресионна сигма (формула).
    където σ Ru/x - сигма (стандартно отклонение) на регресията;
    σ y е стандартното отклонение на характеристиката y;
    r xy - коефициент на корелация между признаците x и y.

    Така че, ако σ y е стандартното отклонение на броя на настинките = 8,65; r xy - коефициентът на корелация между броя на простудните заболявания (y) и средната месечна температура на въздуха през есенно-зимния период (x) е - 0,96, тогава

  7. Целта на сигма регресията. Дава характеристика на мярката на разнообразието на получената характеристика (y).

    Например, той характеризира разнообразието на броя на простудните заболявания при определена стойност на средната месечна температура на въздуха през есенно-зимния период. Така средният брой на настинки при температура на въздуха x 1 \u003d -6 ° може да варира от 15,78 заболявания до 20,62 заболявания.
    При x 2 = -9°, средният брой на настинки може да варира от 21,18 заболявания до 26,02 заболявания и т.н.

    Регресионната сигма се използва при изграждането на регресионна скала, която отразява отклонението на стойностите на ефективния атрибут от средната му стойност, нанесена на линията на регресия.

  8. Данни, необходими за изчисляване и начертаване на регресионната скала
    • коефициент на регресия - Ry/x;
    • регресионно уравнение - y \u003d M y + R y / x (x-M x);
    • регресионна сигма - σ Rx/y
  9. Последователността на изчисленията и графично представяне на регресионната скала.
    • определете коефициента на регресия по формулата (вижте параграф 3). Например, трябва да се определи колко средно ще се промени телесното тегло (на определена възраст в зависимост от пола), ако средната височина се промени с 1 см.
    • според формулата на регресионното уравнение (вижте параграф 4), определете какво ще бъде средното, например телесно тегло (y, y 2, y 3 ...) * за определена стойност на растеж (x, x 2, х 3 ...).
      ________________
      * Стойността на "y" трябва да бъде изчислена за поне три известни стойности"Х".

      В същото време са известни средните стойности на телесното тегло и височината (M x и M y) за определена възраст и пол

    • изчислете сигмата на регресията, като знаете съответните стойности на σ y и r xy и замените техните стойности във формулата (вижте параграф 6).
    • въз основа на известните стойности x 1, x 2, x 3 и съответните им средни стойности y 1, y 2 y 3, както и най-малките (y - σ ru / x) и най-големите (y + σ ru / x) стойностите \u200b\u200b(y) конструират регресионна скала.

      За графично представяне на регресионната скала, стойностите x, x 2, x 3 (ос y) първо се маркират на графиката, т.е. изгражда се регресионна линия, например зависимостта на телесното тегло (y) от височината (x).

      След това в съответните точки y 1 , y 2 , y 3 се отбелязват числените стойности на регресионната сигма, т.е. на графиката намерете най-малката и най-голямата стойност на y 1 , y 2 , y 3 .

  10. Практическо използване на регресионната скала. Разработват се нормативни скали и стандарти, по-специално за физическо развитие. Според стандартната скала е възможно да се даде индивидуална оценка на развитието на децата. В същото време физическото развитие се оценява като хармонично, ако например при определена височина телесното тегло на детето е в рамките на една регресионна сигма към средната изчислена единица телесно тегло - (y) за дадена височина (x) ( y ± 1 σ Ry / x).

    Физическото развитие се счита за дисхармонично по отношение на телесното тегло, ако телесното тегло на детето за определен ръст е в рамките на втората регресионна сигма: (y ± 2 σ Ry/x)

    Физическото развитие ще бъде рязко дисхармонично както поради наднормено, така и поради недостатъчно телесно тегло, ако телесното тегло за определен ръст е в рамките на третата сигма на регресията (y ± 3 σ Ry/x).

Според резултатите от статистическо изследване на физическото развитие на 5-годишни момчета е известно, че средният им ръст (x) е 109 cm, а средното телесно тегло (y) е 19 kg. Коефициентът на корелация между височината и телесното тегло е +0,9, стандартните отклонения са представени в таблицата.

Задължително:

  • изчисляване на коефициента на регресия;
  • използвайки регресионното уравнение, определете какво ще бъде очакваното телесно тегло на 5-годишни момчета с височина, равна на x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • изчислява регресионната сигма, изгражда регресионна скала, представя резултатите от нейното решение графично;
  • направи съответните заключения.

Условието на задачата и резултатите от нейното решение са представени в обобщената таблица.

маса 1

Условия на проблема Резултати от решението на проблема
регресионно уравнение сигма регресия регресионна скала (очаквано телесно тегло (в kg))
М σ r xy R y/x х При σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Височина (x) 109 см ± 4,4 см +0,9 0,16 100см 17.56 кг ± 0,35 кг 17,21 кг 17.91 кг
Телесно тегло (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18.81 кг 19,51 кг
120 см 20.76 кг 20.41 кг 21,11 кг

Решение.

Заключение.По този начин регресионната скала в рамките на изчислените стойности на телесното тегло ви позволява да я определите за всяка друга стойност на растежа или да оцените индивидуалното развитие на детето. За да направите това, възстановете перпендикуляра на регресионната линия.

  1. Власов В.В. Епидемиология. - М.: ГЕОТАР-МЕД, 2004. - 464 с.
  2. Лисицин Ю.П. Обществено здраве и здравеопазване. Учебник за средните училища. - М.: ГЕОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юриев В.К. Курс лекции по обществено здраве и здравеопазване: Част 1. Обществено здраве. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др.. Социална медицина и организация на здравеопазването (Ръководство в 2 тома). - Санкт Петербург, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.. Социална хигиена и организация на здравеопазването (Урок) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологична статистика. По от английски. - М., Практика, 1998. - 459 с.

Регресионният анализ изследва зависимостта на определено количество от друго количество или няколко други количества. Регресионният анализ се използва главно в средносрочното прогнозиране, както и в дългосрочното прогнозиране. Средносрочните и дългосрочните периоди позволяват да се установят промени в бизнес средата и да се отчете влиянието на тези промени върху изследвания показател.

За извършване на регресионен анализ е необходимо:

    наличие на годишни данни по изследваните показатели,

    наличие на еднократни прогнози, т.е. прогнози, които не се подобряват с нови данни.

Регресионният анализ обикновено се извършва за обекти, които имат сложен, многофакторен характер, като обем на инвестициите, печалби, обеми на продажби и др.

При нормативен метод за прогнозиранеопределят се начините и сроковете за постигане на възможните състояния на явлението, взето за цел. Говорим за прогнозиране на постигането на желаните състояния на феномена на базата на предварително определени норми, идеали, стимули и цели. Такава прогноза отговаря на въпроса: по какви начини може да се постигне желаното? Нормативният метод се използва по-често за програмни или целеви прогнози. Използва се както количествено изражение на стандарта, така и определена скала на възможностите на оценъчната функция.

В случай на използване на количествен израз, например физиологични и рационални норми за потребление на определени хранителни и нехранителни продукти, разработени от специалисти за различни групи от населението, е възможно да се определи нивото на потребление на тези стоки за годините, предхождащи постигането на определената норма. Такива изчисления се наричат ​​интерполация. Интерполацията е начин за изчисляване на индикатори, които липсват във времевия ред на дадено явление, въз основа на установена връзка. Вземайки действителната стойност на индикатора и стойността на неговите стандарти като екстремни членове на динамичната серия, е възможно да се определи величината на стойностите в тази серия. Следователно интерполацията се счита за нормативен метод. Дадената по-горе формула (4), използвана при екстраполация, може да се използва при интерполация, където y n вече няма да характеризира действителните данни, а стандарта на индикатора.

Ако в нормативния метод се използва скала (поле, спектър) на възможностите на функцията за оценка, т.е. функцията за разпределение на предпочитанията, се посочва приблизително следната градация: нежелателно - по-малко желателно - по-желателно - най-желателно - оптимално ( стандарт).

Методът на нормативното прогнозиране помага да се разработят препоръки за повишаване нивото на обективност, а оттам и ефективността на решенията.

Моделиране, може би най-трудният метод за прогнозиране. Математическото моделиране означава описание на икономическо явление чрез математически формули, уравнения и неравенства. Математическият апарат трябва точно да отразява фона на прогнозата, въпреки че е доста трудно да се отрази напълно цялата дълбочина и сложност на прогнозирания обект. Терминът "модел" произлиза от латинската дума modelus, което означава "мярка". Следователно би било по-правилно моделирането да се разглежда не като метод за прогнозиране, а като метод за изследване на подобно явление на модел.

В широк смисъл моделите се наричат ​​заместители на обекта на изследване, които са в такова сходство с него, което ви позволява да получите нови знания за обекта. Моделът трябва да се разглежда като математическо описание на обекта. В този случай моделът се определя като явление (обект, инсталация), което е в някаква кореспонденция с изследвания обект и може да го замени в процеса на изследване, представяйки информация за обекта.

При по-тясно разбиране на модела той се разглежда като обект на прогнозиране, неговото изследване позволява получаване на информация за възможните състояния на обекта в бъдеще и начините за постигане на тези състояния. В този случай целта на прогнозния модел е да получи информация не за обекта като цяло, а само за бъдещите му състояния. След това, когато се изгражда модел, може да е невъзможно директно да се провери съответствието му с обекта, тъй като моделът представлява само неговото бъдещо състояние, а самият обект може в момента да отсъства или да има различно съществуване.

Моделите могат да бъдат материални и идеални.

Идеалните модели се използват в икономиката. Най-съвършеният идеален модел за количествено описание на социално-икономическо (икономическо) явление е математически модел, който използва числа, формули, уравнения, алгоритми или графично представяне. С помощта на икономически модели определете:

    връзката между различните икономически показатели;

    различни видове ограничения, наложени върху индикаторите;

    критерии за оптимизиране на процеса.

Смислено описание на даден обект може да бъде представено под формата на неговата формализирана схема, която показва какви параметри и първоначална информация трябва да бъдат събрани, за да се изчислят необходимите стойности. Математическият модел, за разлика от формализираната схема, съдържа специфични числени данни, характеризиращи даден обект.Разработването на математически модел до голяма степен зависи от представата на прогнозиста за същността на моделирания процес. Въз основа на идеите си той излага работна хипотеза, с помощта на която се създава аналитичен запис на модела под формата на формули, уравнения и неравенства. В резултат на решаването на системата от уравнения се получават конкретни параметри на функцията, които описват изменението на желаните променливи във времето.

Редът и последователността на работата като елемент от организацията на прогнозирането се определя в зависимост от използвания метод за прогнозиране. Обикновено тази работа се извършва на няколко етапа.

Етап 1 - прогнозна ретроспекция, т.е. установяване на обекта на прогнозиране и фона на прогнозата. Работата на първия етап се извършва в следната последователност:

    формиране на описание на обект в миналото, което включва предпрогнозен анализ на обекта, оценка на неговите параметри, тяхната значимост и взаимовръзки,

    идентифициране и оценка на източниците на информация, процедурата и организацията на работа с тях, събирането и разполагането на ретроспективна информация;

    поставяне на изследователски цели.

Изпълнявайки задачите на прогнозната ретроспекция, прогнозистите изучават историята на развитието на обекта и прогнозния фон, за да получат тяхното систематично описание.

Етап 2 - прогнозна диагностика, по време на която се изучава систематично описание на обекта на прогнозиране и прогнозния фон, за да се идентифицират тенденциите в тяхното развитие и да се изберат модели и методи за прогнозиране. Работата се извършва в следната последователност:

    разработване на модел на прогнозен обект, включващ формализирано описание на обекта, проверка на степента на адекватност на модела към обекта;

    избор на методи за прогнозиране (основни и спомагателни), разработване на алгоритъм и работни програми.

3-ти етап - патронаж, т.е. процесът на екстензивно развитие на прогнозата, включващ: 1) изчисляване на прогнозираните параметри за даден предварителен период; 2) синтез на отделни компоненти на прогнозата.

4-ти етап - оценка на прогнозата, включително нейната проверка, т.е. определяне на степента на надеждност, точност и валидност.

В хода на търсенето и оценката, задачите за прогнозиране и неговата оценка се решават въз основа на предходните етапи.

Посоченото фазиране е приблизително и зависи от основния метод за прогнозиране.

Резултатите от прогнозата се оформят под формата на сертификат, доклад или друг материал и се представят на клиента.

При прогнозирането може да се посочи отклонението на прогнозата от действителното състояние на обекта, което се нарича грешка на прогнозата, която се изчислява по формулата:

;
;
. (9.3)

Източници на грешки при прогнозирането

Основните източници могат да бъдат:

1. Просто прехвърляне (екстраполация) на данни от миналото към бъдещето (например компанията няма други възможности за прогноза, освен 10% увеличение на продажбите).

2. Невъзможността за точно определяне на вероятността от събитие и неговото въздействие върху обекта на изследване.

3. Непредвидени трудности (разрушителни събития), засягащи изпълнението на плана, например внезапно уволнение на ръководителя на отдел продажби.

Като цяло точността на прогнозирането нараства с натрупването на опит в прогнозирането и развитието на неговите методи.

Регресионният анализ е в основата на създаването на повечето иконометрични модели, сред които трябва да се включат и моделите за оценка на разходите. За изграждане на модели за оценка този метод може да се използва, ако броят на аналозите (сравними обекти) и броят на факторите на разходите (елементи за сравнение) корелират помежду си, както следва: П> (5 -g-10) x да се,тези. трябва да има 5-10 пъти повече аналози от разходните фактори. Същото изискване за съотношението на количеството данни и броя на факторите важи и за други задачи: установяване на връзка между разходите и потребителските параметри на обект; обосновка на процедурата за изчисляване на коригиращи индекси; изясняване на ценовите тенденции; установяване на връзка между износването и изменението на въздействащите фактори; получаване на зависимости за изчисляване на разходни стандарти и др. Изпълнението на това изискване е необходимо, за да се намали вероятността от работа с извадка от данни, която не отговаря на изискването за нормално разпределение на случайни променливи.

Регресионната връзка отразява само средната тенденция на получената променлива, например цена, от промени в една или повече факторни променливи, например местоположение, брой стаи, площ, етаж и т.н. Това е разликата между регресионна връзка и функционална, при която стойността на получената променлива е строго определена за дадена стойност на факторните променливи.

Наличието на регресионна връзка /между резултант прии факторни променливи x p ..., x k(фактори) показва, че тази връзка се определя не само от влиянието на избраните факторни променливи, но и от влиянието на променливи, някои от които обикновено са неизвестни, други не могат да бъдат оценени и взети предвид:

Влиянието на неотчетените променливи се обозначава с втория член на това уравнение ?, което се нарича апроксимационна грешка.

Има следните видове регресионни зависимости:

  • ? двойна регресия - връзката между две променливи (резултантна и факторна);
  • ? множествена регресия - зависимост на една резултатна променлива и две или повече факторни променливи, включени в изследването.

Основната задача на регресионния анализ е да определи количествено близостта на връзката между променливите (при сдвоена регресия) и множество променливи (при множествена регресия). Тясността на връзката се определя количествено чрез коефициента на корелация.

Използването на регресионен анализ ви позволява да установите модела на влияние на основните фактори (хедонични характеристики) върху изследвания показател, както в тяхната съвкупност, така и всеки от тях поотделно. С помощта на регресионния анализ, като метод на математическата статистика, е възможно, първо, да се намери и опише формата на аналитичната зависимост на получената (желана) променлива от факторните и, второ, да се оцени близостта на тази зависимост.

Чрез решаването на първата задача се получава математически регресионен модел, с помощта на който след това се изчислява желаният показател за дадени стойности на фактора. Решението на втората задача позволява да се установи надеждността на изчисления резултат.

По този начин регресионният анализ може да се дефинира като набор от формални (математически) процедури, предназначени да измерват плътността, посоката и аналитичния израз на формата на връзката между резултантните и факторните променливи, т.е. резултатът от такъв анализ трябва да бъде структурно и количествено дефиниран статистически модел от формата:

където y -средната стойност на получената променлива (желания индикатор, например цена, наем, процент на капитализация) над Пнейните наблюдения; x е стойността на факторната променлива (/-ти разходен фактор); да се -брой факторни променливи.

функция f(x l ,...,x lc),описващ зависимостта на получената променлива от факторните се нарича регресионно уравнение (функция). Терминът "регресия" (регресия (лат.) - отстъпление, връщане към нещо) се свързва със спецификата на една от конкретните задачи, решавани на етапа на формиране на метода, и в момента не отразява цялата същност на метод, но продължава да се използва.

Регресионният анализ обикновено включва следните стъпки:

  • ? формиране на извадка от еднородни обекти и събиране на изходна информация за тези обекти;
  • ? избор на основните фактори, влияещи върху резултантната променлива;
  • ? проверка на пробата за нормалност с помощта х 2 или биномен критерий;
  • ? приемане на хипотезата за формата на комуникация;
  • ? математическа обработка на данни;
  • ? получаване на регресионен модел;
  • ? оценка на статистическите му показатели;
  • ? верификационни изчисления с помощта на регресионен модел;
  • ? анализ на резултатите.

Посочената последователност от операции се извършва при изследването както на двойна връзка между факторна променлива и една резултатна променлива, така и на множествена връзка между резултантната променлива и няколко факторни променливи.

Използването на регресионен анализ налага определени изисквания към първоначалната информация:

  • ? статистическата извадка от обекти трябва да бъде хомогенна във функционално и конструктивно-технологично отношение;
  • ? доста многобройни;
  • ? изследваният индикатор за разходите - получената променлива (цена, себестойност, разходи) - трябва да се сведе до едни и същи условия за изчисляването му за всички обекти в извадката;
  • ? факторните променливи трябва да се измерват достатъчно точно;
  • ? факторните променливи трябва да са независими или минимално зависими.

Изискванията за хомогенност и пълнота на извадката са в конфликт: колкото по-стриктно се извършва подборът на обектите според тяхната хомогенност, толкова по-малка е извадката и, обратно, за да се увеличи извадката, е необходимо да се включат обекти които не си приличат много един с друг.

След като се съберат данни за група хомогенни обекти, те се анализират, за да се установи формата на връзката между получените и факторните променливи под формата на теоретична регресионна линия. Процесът на намиране на теоретична регресионна линия се състои в разумен избор на апроксимираща крива и изчисляване на коефициентите на нейното уравнение. Регресионната линия е гладка крива (в конкретен случай права линия), която описва с помощта на математическа функция общата тенденция на изследваната зависимост и изглажда неправилните, случайни отклонения от влиянието на странични фактори.

За показване на сдвоени регресионни зависимости в задачите за оценка най-често се използват следните функции: линейни - y - a 0 + ars + sмощност - y - aj&i + cдемонстративен - y -линеен експоненциален - y - a 0 + ar * + s.Тук - дапроксимационна грешка поради действието на неотчетени случайни фактори.

В тези функции y е резултантната променлива; x - факторна променлива (фактор); а 0 , a r a 2 -параметри на регресионния модел, регресионни коефициенти.

Линейният експоненциален модел принадлежи към класа на така наречените хибридни модели от вида:

където

където x (i = 1, /) - стойности на факторите;

b t (i = 0, /) са коефициентите на регресионното уравнение.

В това уравнение компонентите А, Би Зсъответстват на стойността на отделните компоненти на оценявания актив, например цената на парцела и разходите за подобрения, и параметърът Qе често срещано. Той е предназначен да коригира стойността на всички компоненти на оценявания актив за общ фактор на влияние, като местоположение.

Стойностите на факторите, които са в степента на съответните коефициенти, са двоични променливи (0 или 1). Факторите, които са в основата на степента, са дискретни или непрекъснати променливи.

Факторите, свързани с коефициентите на знака за умножение, също са непрекъснати или дискретни.

Спецификацията се извършва, като правило, с помощта на емпиричен подход и включва два етапа:

  • ? нанасяне на точки на регресионното поле върху графиката;
  • ? графичен (визуален) анализ на вида на възможна апроксимираща крива.

Типът на регресионната крива не винаги може да бъде избран веднага. За да се определи, точките от регресионното поле първо се нанасят върху графиката според първоначалните данни. След това визуално се начертава линия по протежение на позицията на точките, опитвайки се да се установи качественият модел на връзката: равномерен растеж или равномерно намаляване, растеж (намаляване) с увеличаване (намаляване) на темпа на динамика, плавен подход към определено ниво.

Този емпиричен подход се допълва от логически анализ, изхождащ от вече известни представи за икономическата и физическата природа на изследваните фактори и тяхното взаимно влияние.

Например, известно е, че зависимостите на получените променливи - икономически показатели (цени, наем) от редица факторни променливи - ценообразуващи фактори (отдалеченост от центъра на населеното място, площ и др.) са нелинейни. и те могат да бъдат описани доста строго чрез степенна, експоненциална или квадратична функция. Но с малки диапазони от фактори, приемливи резултати могат да бъдат получени и с помощта на линейна функция.

Ако все още е невъзможно незабавно да се направи уверен избор на която и да е функция, тогава се избират две или три функции, изчисляват се техните параметри и след това, като се използват подходящите критерии за плътност на връзката, функцията накрая се избира.

На теория регресионният процес на намиране на формата на крива се нарича спецификациямодел и неговите коефициенти - калибриранемодели.

Ако се установи, че получената променлива y зависи от няколко факторни променливи (фактори) x ( , x 2 , ..., x k,тогава те прибягват до изграждане на модел на множествена регресия. Обикновено се използват три форми на множествена комуникация: линейна - y - a 0 + a x x x + a^x 2 + ... + a k x k,демонстративен - y - a 0 a*i a x t- a x b,мощност - y - a 0 x x ix 2 a 2. .x^ или комбинации от тях.

Експоненциалната и експоненциалната функции са по-универсални, тъй като те апроксимират нелинейни зависимости, които са по-голямата част от зависимостите, изследвани при оценката. Освен това те могат да се използват при оценката на обекти и в метода на статистическото моделиране за масова оценка и в метода на директното сравнение при индивидуална оценка при установяване на корекционни коефициенти.

На етапа на калибриране параметрите на регресионния модел се изчисляват по метода на най-малките квадрати, чиято същност е, че сумата от квадратните отклонения на изчислените стойности на получената променлива при., т.е. изчислено според избраното уравнение на връзката, от действителните стойности трябва да бъдат минимални:

Стойности j) (. и г.известно, следователно Qе функция само на коефициентите на уравнението. За да намерите минимума Свземете частични производни Qпо коефициентите на уравнението и ги приравнете към нула:

В резултат на това получаваме система от нормални уравнения, чийто брой е равен на броя на определените коефициенти на желаното регресионно уравнение.

Да предположим, че трябва да намерим коефициентите на линейното уравнение y - a 0 + ars.Сумата на квадратите на отклоненията е:

/=1

Разграничете функция Qс неизвестни коефициенти а 0и и приравняваме частните производни на нула:

След трансформациите получаваме:

където П -брой първоначални действителни стойности притях (броят на аналозите).

Горната процедура за изчисляване на коефициентите на регресионното уравнение е приложима и за нелинейни зависимости, ако тези зависимости могат да бъдат линеаризирани, т.е. доведе до линейна форма с помощта на промяна на променливи. Степенните и експоненциалните функции след логаритмиране и съответната промяна на променливите придобиват линейна форма. Например степенна функция след вземане на логаритъм приема формата: In y \u003d 1n 0 +a x 1ф. След промяната на променливите Y-в y, L 0 -в и № X-В x получаваме линейна функция

Y=A0 + cijX,чиито коефициенти се намират, както е описано по-горе.

Методът на най-малките квадрати се използва и за изчисляване на коефициентите на модел на множествена регресия. И така, системата от нормални уравнения за изчисляване на линейна функция с две променливи Xjи х 2след поредица от трансформации изглежда така:

Обикновено тази система от уравнения се решава с помощта на методите на линейната алгебра. Множествена експоненциална функция се привежда в линейна форма чрез вземане на логаритми и промяна на променливи по същия начин като сдвоена експоненциална функция.

Когато се използват хибридни модели, коефициентите на множествена регресия се намират чрез числени процедури на метода на последователните приближения.

За да се направи окончателен избор между няколко регресионни уравнения, е необходимо да се тества всяко уравнение за плътността на връзката, която се измерва чрез коефициента на корелация, дисперсията и коефициента на вариация. За оценка можете да използвате и критериите на Student и Fisher. Колкото по-голяма е стегнатостта на връзката, разкрива кривата, толкова по-предпочитана е тя, при равни други условия.

Ако се решава проблем от такъв клас, когато е необходимо да се установи зависимостта на показателя за разходите от факторите на разходите, тогава желанието да се вземат предвид колкото е възможно повече влияещи фактори и по този начин да се изгради по-точен модел на множествена регресия е разбираемо. Две обективни ограничения обаче възпрепятстват разширяването на броя на факторите. Първо, изграждането на модел на множествена регресия изисква много по-голяма извадка от обекти, отколкото изграждането на сдвоен модел. Общоприето е, че броят на обектите в извадката трябва да надвишава броя Пфактори, поне 5-10 пъти. От това следва, че за да се изгради модел с три влияещи фактора, е необходимо да се събере извадка от приблизително 20 обекта с различни набори от факторни стойности. Второ, факторите, избрани за модела, по отношение на влиянието си върху стойностния показател трябва да бъдат достатъчно независими един от друг. Това не е лесно да се гарантира, тъй като извадката обикновено комбинира обекти, принадлежащи към едно и също семейство, в което има регулярна промяна в много фактори от обект на обект.

качество регресионни модели, като правило, проверете с помощта на следните статистики.

Стандартно отклонение на грешката на регресионното уравнение (грешка в оценката):

където П -размер на извадката (брой аналози);

да се -брой фактори (разходни фактори);

Грешка, необяснена от регресионното уравнение (фиг. 3.2);

г. -действителната стойност на получената променлива (например цена); y t -изчислената стойност на получената променлива.

Този индикатор се нарича още стандартна грешка на оценката (RMS грешка). На фигурата точките показват конкретни стойности на пробата, символът показва линията на средните стойности на пробата, наклонената тире-пунктирана линия е регресионната линия.


Ориз. 3.2.

Стандартното отклонение на грешката при оценката измерва степента на отклонение на действителните стойности на y от съответните изчислени стойности. при( , получен с помощта на регресионния модел. Ако извадката, върху която е изграден моделът, е подчинена на нормалния закон за разпределение, тогава може да се твърди, че 68% от реалните стойности приса в диапазона при ± &eот регресионната линия, а 95% - в диапазона при ± 2d д. Този индикатор е удобен, защото мерните единици sg?съответстват на мерните единици при,. В тази връзка може да се използва за обозначаване на точността на резултата, получен в процеса на оценка. Например в сертификат за стойност можете да посочите, че стойността на пазарната стойност е получена с помощта на регресионния модел Vс вероятност от 95% е в диапазона от (V-2d,.)преди (при + 2ds).

Коефициент на вариация на получената променлива:

където y -средната стойност на получената променлива (Фигура 3.2).

При регресионния анализ коефициентът на вариация var е стандартното отклонение на резултата, изразено като процент от средната стойност на променливата на резултата. Коефициентът на вариация може да служи като критерий за предсказуемите качества на получения регресионен модел: колкото по-малка е стойността вартолкова по-високи са предсказуемите качества на модела. Използването на коефициента на вариация е за предпочитане пред показателя &e, тъй като той е относителен показател. При практическото използване на този показател може да се препоръча да не се използва модел, чийто коефициент на вариация надвишава 33%, тъй като в този случай не може да се каже, че тези проби са обект на нормалния закон за разпределение.

Коефициент на определяне (коефициент на множествена корелация на квадрат):

Този индикатор се използва за анализ на цялостното качество на получения регресионен модел. Той показва какъв процент от вариацията в получената променлива се дължи на влиянието на всички факторни променливи, включени в модела. Коефициентът на определяне винаги е в диапазона от нула до единица. Колкото по-близка е стойността на коефициента на детерминация до единица, толкова по-добре моделът описва оригиналната поредица от данни. Коефициентът на детерминация може да бъде представен по друг начин:

Ето грешката, обяснена от регресионния модел,

а - необяснима грешка

регресионен модел. От икономическа гледна точка този критерий позволява да се прецени какъв процент от вариацията на цената се обяснява с регресионното уравнение.

Точната граница на приемане на индикатора R2невъзможно е да се посочи за всички случаи. Трябва да се вземат предвид както размерът на извадката, така и смислената интерпретация на уравнението. Като правило, когато се изучават данни за обекти от същия тип, получени приблизително по едно и също време, стойността R2не надвишава нивото от 0,6-0,7. Ако всички грешки при прогнозиране са нула, т.е. когато връзката между резултантните и факторните променливи е функционална, тогава R2 =1.

Коригиран коефициент на детерминация:

Необходимостта от въвеждане на коригиран коефициент на детерминация се обяснява с факта, че с увеличаване на броя на факторите да сеобичайният коефициент на детерминация почти винаги се увеличава, но броят на степените на свобода намалява (n - k- един). Въведената корекция винаги намалява стойността R2,тъй като - 1) > (n- до -един). В резултат на това стойността R 2 CKOf)дори може да стане отрицателен. Това означава, че стойността R2беше близо до нула преди корекцията и делът на дисперсията се обяснява с регресионното уравнение на променливата примного малък.

От двата варианта на регресионни модели, които се различават по стойността на коригирания коефициент на детерминация, но имат еднакво добри други критерии за качество, за предпочитане е вариантът с голяма стойност на коригирания коефициент на детерминация. Коефициентът на детерминация не се коригира, ако (n - k): k> 20.

Коефициент на Фишер:

Този критерий се използва за оценка на значимостта на коефициента на детерминация. Остатъчен сбор от квадрати е мярка за грешка при прогнозиране, използваща регресия на известни стойности на разходите в..Неговото сравнение с регресионната сума на квадратите показва колко пъти регресионната зависимост прогнозира резултата по-добре от средната стойност при. Има таблица с критични стойности Ф РКоефициент на Фишер в зависимост от броя на степените на свобода на числителя - да се, знаменател v 2 = p - k- 1 и ниво на значимост а. Ако изчислената стойност на критерия на Фишер Ф Ре по-голяма от табличната стойност, то хипотезата за незначимост на коефициента на детерминация, т.е. за несъответствието между връзките, заложени в уравнението на регресията, и реално съществуващите, с вероятност p = 1 - a се отхвърля.

Средна апроксимационна грешка(средно процентно отклонение) се изчислява като средната относителна разлика, изразена като процент, между действителните и изчислените стойности на получената променлива:

как по-малка стойностдаден индикатор, толкова по-добро е прогнозното качество на модела. Когато стойността на този показател не е по-висока от 7%, те показват висока точност на модела. Ако 8 > 15%, показват незадоволителна точност на модела.

Стандартна грешка на регресионния коефициент:

където (/I) -1 .- диагонален елемент на матрицата (X G X) ~ 1 до -брой фактори;

Х-матрица на стойностите на факторните променливи:

X7-транспонирана матрица от стойности на факторни променливи;

(JL) _| е матрица, обратна на матрица.

Колкото по-малки са тези резултати за всеки регресионен коефициент, толкова по-надеждна е оценката на съответния регресионен коефициент.

Тест на Стюдънт (t-статистика):

Този критерий ви позволява да измерите степента на надеждност (значимост) на връзката, дължаща се на даден коефициент на регресия. Ако изчислената стойност T. по-голяма от стойността на таблицата

T av , където v - p - k - 1 е броят на степените на свобода, тогава хипотезата, че този коефициент е статистически незначим, се отхвърля с вероятност от (100 - a)%. Има специални таблици на /-разпределението, които позволяват да се определи критичната стойност на критерия по дадено ниво на значимост a и броя на степените на свобода v. Най-често използваната стойност на a е 5%.

Мултиколинеарност, т.е. ефектът от взаимните връзки между факторните променливи води до необходимостта да се задоволяваме с ограничен брой от тях. Ако това не се вземе предвид, тогава можете да получите нелогичен регресионен модел. За да се избегне отрицателният ефект от мултиколинеарността, преди да се изгради модел на множествена регресия, се изчисляват корелационните коефициенти на двойки rxjxjмежду избрани променливи Х.и х

Тук XjX; -средна стойност на произведението на две факторни променливи;

XjXj-произведението на средните стойности на две факторни променливи;

Оценка на дисперсията на факторната променлива x..

Две променливи се считат за регресивно свързани (т.е. колинеарни), ако техният коефициент на корелация по двойки е строго по-голям от 0,8 като абсолютна стойност. В този случай всяка от тези променливи трябва да бъде изключена от разглеждане.

За да се разширят възможностите за икономически анализ на получените регресионни модели, се използват средни стойности коефициенти на еластичност,определя се по формулата:

където Xj-средна стойност на съответната факторна променлива;

y -средна стойност на получената променлива; а аз -коефициент на регресия за съответната факторна променлива.

Коефициентът на еластичност показва колко процента ще се промени средно стойността на получената променлива, когато факторната променлива се промени с 1%, т.е. как получената променлива реагира на промяна във факторната променлива. Например как се променя цената на кв. м площ на апартамента на разстояние от центъра на града.

Полезно от гледна точка на анализиране на значимостта на определен регресионен коефициент е оценката частен коефициент на определяне:

Ето оценката на дисперсията на полученото

променлива. Този коефициент показва колко процента вариацията на получената променлива се обяснява с вариацията на /-та факторна променлива, включена в регресионното уравнение.

  • Хедоничните характеристики са характеристиките на даден обект, които отразяват неговите полезни (ценни) свойства от гледна точка на купувачи и продавачи.