Какви са изискванията за модел на регресионен анализ. Основи на линейната регресия. Корелация за множествена регресия

Регресионният анализ е един от най-популярните методи статистически изследвания. Може да се използва за определяне на степента на влияние на независимите променливи върху зависимата променлива. Функционалността на Microsoft Excel разполага с инструменти, предназначени за извършване на този тип анализ. Нека да разгледаме какво представляват те и как да ги използваме.

Но за да използвате функцията, която ви позволява да извършвате регресионен анализ, първо трябва да активирате пакета за анализ. Само тогава инструментите, необходими за тази процедура, ще се появят на лентата на Excel.


Сега, когато отидем на раздела "Данни", на лентата в кутията с инструменти "Анализ"ще видим нов бутон - "Анализ на данни".

Видове регресионен анализ

Има няколко вида регресии:

  • параболичен;
  • мощност;
  • логаритмичен;
  • експоненциален;
  • демонстрация;
  • хиперболичен;
  • линейна регресия.

Относно изпълнението на последния изглед регресионен анализЩе говорим повече за Excel по-късно.

Линейна регресия в Excel

По-долу, като пример, е дадена таблица, която показва средната дневна температура на въздуха на улицата и броя на клиентите на магазина за съответния работен ден. Нека разберем с помощта на регресионен анализ как точно метеорологично времепод формата на температура на въздуха може да повлияе на посещаемостта на търговско заведение.

Общото уравнение на линейната регресия изглежда така: Y = a0 + a1x1 + ... + axk. В тази формула Yозначава променливата, чието влияние се опитваме да изследваме. В нашия случай това е броят на купувачите. Значение х- това е различни факторикоито влияят на променливата. Настроики аса регресионните коефициенти. Тоест те определят значимостта на даден фактор. Индекс козначава обща сумасъщите тези фактори.


Анализ на резултатите от анализа

Резултатите от регресионния анализ се показват под формата на таблица на мястото, посочено в настройките.

Един от основните показатели е R-квадрат. Това показва качеството на модела. В нашия случай този коефициент е 0,705 или около 70,5%. Това е приемливо ниво на качество. Връзка по-малка от 0,5 е лоша.

Друг важен индикатор се намира в клетката в пресечната точка на линията "Y-пресечка"и колона "Коефициенти". Тук се посочва каква стойност ще има Y, а в нашия случай това е броят на купувачите, с всички останали фактори нула. В тази таблица тази стойност е 58,04.

Стойност в пресечната точка на графиката "Променлива X1"и "Коефициенти"показва нивото на зависимост на Y от X. В нашия случай това е нивото на зависимост на броя клиенти на магазина от температурата. Коефициент от 1,31 се счита за доста висок показател за влияние.

Както можете да видите, е доста лесно да създадете таблица за регресионен анализ с помощта на Microsoft Excel. Но само обучен човек може да работи с данните, получени на изхода, и да разбере тяхната същност.

РЕЗУЛТАТИ

Таблица 8.3a. Регресионна статистика
Регресионна статистика
Множество R 0,998364
R-квадрат 0,99673
Нормализиран R-квадрат 0,996321
стандартна грешка 0,42405
Наблюдения 10

Нека първо да разгледаме горната част на изчисленията, представени в таблица 8.3a, регресионната статистика.

Стойността R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между оригиналните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в интервала.

В повечето случаи стойността на R-квадрат е между тези стойности, наречени екстремуми, т.е. между нула и едно.

Ако стойността на R-квадрата е близка до единица, това означава, че изграденият модел обяснява почти цялата променливост на съответните променливи. Обратно, стойност на R-квадрат, близка до нула, означава лошо качество на конструирания модел.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

Множество R- коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

Множество R е равно корен квадратенот коефициента на определяне, тази стойност приема стойности в диапазона от нула до едно.

При прост линеен регресионен анализ множественото R е равно на корелационния коефициент на Пиърсън. Наистина, множественото R в нашия случай е равно на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия
Коефициенти стандартна грешка t-статистика
Y-пресечка 2,694545455 0,33176878 8,121757129
Променлива X 1 2,305454545 0,04668634 49,38177965
* Дадена е съкратена версия на изчисленията

Сега разгледайте средната част на изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и отместването по оста y, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) регресионни коефициенти(коефициент b).

Ако знакът при регресионен коефициент- положителен, връзката на зависимата променлива с независимата ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът при регресионен коефициент- отрицателна, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

В таблица 8.3c. са представени резултатите от изхода на остатъците. За да се появят тези резултати в справката, е необходимо да активирате отметката "Остатъци" при стартиране на инструмента "Регресия".

ОСТАТЪЧНО ТЕГЛЕНЕ

Таблица 8.3c. останки
Наблюдение Предсказаният Y останки Стандартни баланси
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голяма абсолютна стойност

В резултат на изучаването на материала от глава 4 студентът трябва:

зная

  • основни понятия на регресионния анализ;
  • методи за оценка и свойства на оценките на метода на най-малките квадрати;
  • основни правила за тестване на значимостта и интервална оценка на уравнението и коефициентите на регресия;

да бъде в състояние да

  • намират оценки на параметрите на двумерни и множествени модели на регресионни уравнения от извадкови данни, анализират свойствата им;
  • проверка на значимостта на уравнението и коефициентите на регресия;
  • намиране на интервални оценки на значими параметри;

собствен

  • уменията за статистическа оценка на параметрите на двумерните и множествените регресионни уравнения; умения за проверка на адекватността на регресионни модели;
  • умения за получаване на регресионно уравнение с всички значими коефициенти с помощта на аналитичен софтуер.

Основни понятия

След корелационен анализ, когато се установи наличието на статистически значими връзки между променливите и се оцени степента на тяхната плътност, обикновено се пристъпва към математическо описание на типа зависимости с помощта на методите на регресионния анализ. За целта се избира клас функции, които свързват ефективния индикатор прии аргументи„ изчисляват оценки на параметрите на уравнението на ограничението и анализират точността на полученото уравнение.

Функция|, описваща зависимостта на условната средна стойност на ефективния признак приот дадените стойности на аргументите, се извиква регресионно уравнение.

Терминът "регресия" (от лат. регресия-отстъпление, връщане към нещо) е въведено от английския психолог и антрополог Ф. Галтън и се свързва с един от първите му примери, в който Галтън, обработвайки статистически данни, свързани с въпроса за наследствеността на растежа, установява, че ако височината на бащите се отклонява от средната височина на всички бащи хинча, тогава височината на техните синове се отклонява от средната височина на всички синове с по-малко от хинча Установената тенденция беше наречена регресия към средната стойност.

Терминът "регресия" е широко използван в статистическата литература, въпреки че в много случаи не характеризира точно статистическата зависимост.

За точно описание на регресионното уравнение е необходимо да се знае условният закон на разпределение на ефективния показател г.В статистическата практика обикновено е невъзможно да се получи такава информация, поради което те са ограничени до намиране на подходящи приближения за функцията f(x u х 2, .... l *), въз основа на предварителен съдържателен анализ на явлението или на оригинални статистически данни.

В рамките на индивидуалните допускания на модела за вида на разпределението на вектора на индикаторите<) может быть получен общий вид регресионни уравнения, където. Например, при предположението, че изследваният набор от индикатори се подчинява на ()-мерния нормален закон на разпределение с вектора на математическите очаквания

Където и чрез ковариационната матрица,

къде е дисперсията y,

Регресионното уравнение (условно очакване) има формата

Така, ако многовариантна случайна променлива ()

се подчинява на ()-мерния закон за нормално разпределение, след това на регресионното уравнение на ефективния индикатор прив обяснителните променливи има линеен вход хизглед.

В статистическата практика обаче човек обикновено трябва да се ограничи до намирането на подходящи приближения за неизвестната истинска регресионна функция f(x),тъй като изследователят няма точни познания за условния закон на разпределението на вероятностите на анализирания показател за ефективност приза дадените стойности на аргументите Х.

Помислете за връзката между истински, моделни и регресионни оценки. Нека индикаторът за ефективност присвързани с аргумента хсъотношение

където е случайна променлива с нормален закон на разпределение, освен това. Истинската регресионна функция в този случай е

Да предположим, че не знаем точната форма на истинското регресионно уравнение, но имаме девет наблюдения върху двуизмерна случайна променлива, свързана с отношенията, показани на фиг. 4.1.

Ориз. 4.1. Относителното положение на истинатаf(x) и теоретиченЕхарегресионни модели

Разположение на точките на фиг. 4.1 ни позволява да се ограничим до класа на линейните зависимости на формата

Използвайки метода на най-малките квадрати, намираме оценка за регресионното уравнение.

За сравнение, на фиг. 4.1 показва графики на истинската регресионна функция и теоретичната апроксимираща регресионна функция. Оценката на регресионното уравнение се сближава по вероятност с последното Ехас неограничено увеличение на размера на извадката ().

Тъй като погрешно избрахме линейна регресионна функция вместо истинска регресионна функция, което, за съжаление, е доста често срещано в практиката на статистическите изследвания, нашите статистически заключения и оценки няма да имат свойството последователност, т.е. без значение колко увеличаваме обема на наблюденията, нашата примерна оценка няма да се сближи с истинската регресионна функция

Ако сме избрали правилно класа на регресионните функции, тогава неточността в описанието използва Ехаби се обяснило само с ограничеността на извадката и следователно тя може да бъде направена произволно малка с

За да се възстанови най-добре условната стойност на ефективния показател и неизвестната регресионна функция от първоначалните статистически данни, най-често се използват следните: критерии за адекватностфункции на загуба.

1. Метод на най-малките квадрати,според който квадратът на отклонението на наблюдаваните стойности на ефективния показател, , от стойностите на модела е сведен до минимум, където коефициентите на регресионното уравнение; са стойностите на вектора на аргументите в "-M наблюдение :

Проблемът за намиране на оценка на вектора се решава. Получената регресия се нарича среден квадрат.

2. Метод на най-малкото модули, според който сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности е минимизирана, т.е.

Получената регресия се нарича означава абсолютно(Медиана).

3. минимаксен методсе свежда до минимизиране на максималния модул на отклонение на наблюдаваната стойност на ефективния показател y,от стойността на модела, т.е.

Получената регресия се нарича минимакс.

В практическите приложения често има проблеми, в които се изучава случайната променлива y,в зависимост от някакъв набор от променливи и неизвестни параметри. Ще разгледаме () като (k + 1)-мерна генерална съвкупност, от която произволна извадка от обем П,където () е резултатът от /-тото наблюдение,. Необходимо е да се оценят неизвестни параметри въз основа на резултатите от наблюденията. Гореописаната задача се отнася за задачите на регресионния анализ.

регресионен анализ наричаме метод за статистически анализ на зависимостта на случайна променлива приот променливи, разглеждани в регресионния анализ като неслучайни променливи, независимо от истинския закон на разпределение

По време на обучението си студентите много често се сблъскват с различни уравнения. Едно от тях - регресионното уравнение - се разглежда в тази статия. Този тип уравнение се използва специално за описание на характеристиките на връзката между математическите параметри. Този тип равенство се използва в статистиката и иконометрията.

Определение за регресия

В математиката регресията се разбира като определено количество, което описва зависимостта на средната стойност на набор от данни от стойностите на друго количество. Регресионното уравнение показва, като функция на определена характеристика, средната стойност на друга характеристика. Регресионната функция има формата на просто уравнение y \u003d x, в което y действа като зависима променлива, а x е независима (коефициент на характеристика). Всъщност регресията се изразява като y = f (x).

Какви са видовете връзки между променливите

Като цяло се разграничават два противоположни типа връзка: корелация и регресия.

Първият се характеризира с равенство на условните променливи. В този случай не е известно със сигурност коя променлива зависи от другата.

Ако няма равенство между променливите и условията казват коя променлива е обяснителна и коя е зависима, тогава можем да говорим за наличие на връзка от втори тип. За да се изгради уравнение на линейна регресия, ще е необходимо да се установи какъв тип връзка се наблюдава.

Видове регресии

Към днешна дата има 7 различни вида регресия: хиперболична, линейна, множествена, нелинейна, двойна, обратна, логаритмично линейна.

Хиперболични, линейни и логаритмични

Уравнението на линейната регресия се използва в статистиката за ясно обяснение на параметрите на уравнението. Изглежда като y = c + m * x + E. Хиперболичното уравнение има формата на правилна хипербола y \u003d c + m / x + E. Логаритмично линейното уравнение изразява връзката с помощта на логаритмичната функция: In y \u003d In c + m * In x + In E.

Множествени и нелинейни

Два по-сложни типа регресия са множествена и нелинейна. Уравнението на множествената регресия се изразява чрез функцията y \u003d f (x 1, x 2 ... x c) + E. В тази ситуация y е зависимата променлива, а x е обяснителната променлива. Променливата E е стохастична и включва влиянието на други фактори в уравнението. Уравнението на нелинейната регресия е малко непоследователно. От една страна, по отношение на взетите под внимание показатели, тя не е линейна, а от друга страна, в ролята на оценяващи показатели, тя е линейна.

Обратни и регресии по двойки

Обратната функция е вид функция, която трябва да бъде преобразувана в линейна форма. В най-традиционните приложни програми той има формата на функция y \u003d 1 / c + m * x + E. Уравнението на двойната регресия показва връзката между данните като функция на y = f(x) + E. Точно както другите уравнения, y зависи от x и E е стохастичен параметър.

Концепцията за корелация

Това е индикатор, който показва наличието на връзка между две явления или процеси. Силата на връзката се изразява като корелационен коефициент. Стойността му варира в интервала [-1;+1]. Отрицателен индикатор показва наличието на обратна връзка, положителен индикатор показва пряка. Ако коефициентът приеме стойност, равна на 0, тогава няма връзка. Колкото по-близо е стойността до 1 - толкова по-силна е връзката между параметрите, колкото по-близо до 0 - толкова по-слаба.

Методи

Корелационните параметрични методи могат да оценят плътността на връзката. Те се използват въз основа на оценки на разпределението за изследване на параметри, които се подчиняват на нормалния закон за разпределение.

Параметрите на уравнението на линейната регресия са необходими за идентифициране на вида на зависимостта, функцията на уравнението на регресията и оценка на показателите на избраната формула за връзка. Корелационното поле се използва като метод за идентифициране на връзка. За да направите това, всички съществуващи данни трябва да бъдат представени графично. В правоъгълна двумерна координатна система всички известни данни трябва да бъдат нанесени. Така се формира корелационното поле. Стойността на описващия фактор е отбелязана по абсцисата, докато стойностите на зависимия фактор са отбелязани по ординатата. Ако има функционална връзка между параметрите, те се подреждат под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за почти пълна липса на връзка. Ако е между 30% и 70%, това показва наличието на връзки със средна близост. 100% индикатор е доказателство за функционална връзка.

Нелинейното регресионно уравнение, също като линейното, трябва да бъде допълнено с корелационен индекс (R).

Корелация за множествена регресия

Коефициентът на детерминация е показател на квадрата на множествената корелация. Той говори за тясната връзка на представения набор от показатели с изследваната черта. Може да се говори и за естеството на влиянието на параметрите върху резултата. Уравнението на множествената регресия се оценява с помощта на този индикатор.

За да се изчисли индексът на множествената корелация, е необходимо да се изчисли неговият индекс.

Метод на най-малките квадрати

Този метод е начин за оценка на регресионните фактори. Същността му се състои в минимизиране на сумата от квадратните отклонения, получени поради зависимостта на фактора от функцията.

Сдвоено уравнение на линейна регресия може да бъде изчислено с помощта на такъв метод. Този тип уравнения се използват в случай на откриване между индикаторите на сдвоена линейна връзка.

Опции за уравнение

Всеки параметър на линейната регресионна функция има специфично значение. Сдвоеното уравнение на линейна регресия съдържа два параметъра: c и m. Параметърът t показва средната промяна в крайния показател на функцията y, при намаление (увеличение) на променливата x с една условна единица. Ако променливата x е нула, тогава функцията е равна на параметъра c. Ако променливата x не е нула, тогава факторът c няма икономически смисъл. Единственото влияние върху функцията е знакът пред фактора c. Ако има минус, тогава можем да кажем за бавна промяна в резултата в сравнение с фактора. Ако има плюс, това означава ускорена промяна в резултата.

Всеки параметър, който променя стойността на регресионното уравнение, може да бъде изразен чрез уравнение. Например коефициентът c има формата c = y - mx.

Групирани данни

Има такива условия на задачата, при които цялата информация е групирана според атрибута x, но в същото време за определена група са посочени съответните средни стойности на зависимия индикатор. В този случай средните стойности характеризират как индикаторът зависи от x. Така групираната информация помага да се намери регресионното уравнение. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните стойности често са обект на външни колебания. Тези колебания не са отражение на моделите на връзката, те просто маскират нейния "шум". Средните стойности показват модели на връзка много по-лоши от уравнение на линейна регресия. Те обаче могат да се използват като основа за намиране на уравнение. Като умножите размера на определена популация по съответната средна стойност, можете да получите сумата от y в рамките на групата. След това трябва да избиете всички получени суми и да намерите крайния индикатор y. Малко по-трудно е да се правят изчисления с индикатора за сума xy. В случай, че интервалите са малки, можем условно да приемем показателя x за всички единици (в групата) еднакъв. Умножете го със сумата от y, за да намерите сумата от произведенията на x и y. Освен това всички суми се събират заедно и се получава общата сума xy.

Регресия на множество двойки уравнения: Оценяване на важността на връзката

Както беше обсъдено по-рано, множествената регресия има функция от формата y \u003d f (x 1, x 2, ..., x m) + E. Най-често такова уравнение се използва за решаване на проблема с търсенето и предлагането на даден продукт, доходите от лихви върху обратно изкупени акции, изучаване на причините и вида на функцията на производствените разходи. Също така се използва активно в голямо разнообразие от макроикономически изследвания и изчисления, но на ниво микроикономика такова уравнение се използва малко по-рядко.

Основната задача на множествената регресия е да се изгради модел на данни, съдържащ огромно количество информация, за да се определи допълнително какъв ефект има всеки от факторите поотделно и в тяхната съвкупност върху моделирания показател и неговите коефициенти. Регресионното уравнение може да приема различни стойности. В този случай обикновено се използват два вида функции за оценка на връзката: линейни и нелинейни.

Линейна функция е изобразена под формата на такава връзка: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. В този случай a2, a m се считат за коефициенти на "чиста" регресия. Те са необходими за характеризиране на средната промяна на параметъра y с промяна (намаляване или увеличаване) на всеки съответен параметър x с една единица, при условие на стабилна стойност на други показатели.

Нелинейните уравнения имат например формата на степенна функция y=ax 1 b1 x 2 b2 ...x m bm . В този случай показателите b 1, b 2 ..... b m - се наричат ​​коефициенти на еластичност, те показват как ще се промени резултатът (с колко%) с увеличение (намаляване) на съответния показател x с 1% и със стабилен показател на други фактори.

Какви фактори трябва да се имат предвид при изграждането на множествена регресия

За да се изгради правилно множествена регресия, е необходимо да се установи на кои фактори трябва да се обърне специално внимание.

Необходимо е да има известно разбиране за естеството на връзката между икономическите фактори и моделираните. Факторите, които трябва да бъдат включени, трябва да отговарят на следните критерии:

  • Трябва да е измеримо. За да се използва фактор, описващ качеството на даден обект, във всеки случай трябва да му се даде количествена форма.
  • Не трябва да има факторна взаимовръзка или функционална връзка. Такива действия най-често водят до необратими последици - системата от обикновени уравнения става безусловна, което води до нейната ненадеждност и размити оценки.
  • В случай на огромен индикатор за корелация, няма начин да се установи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите стават неинтерпретируеми.

Методи на изграждане

Има огромен брой методи и начини да обясните как можете да изберете факторите за уравнението. Всички тези методи обаче се основават на избора на коефициенти с помощта на индекса на корелация. Сред тях са:

  • Метод на изключване.
  • Включете метода.
  • Поетапен регресионен анализ.

Първият метод включва отсяване на всички коефициенти от сборния набор. Вторият метод включва въвеждането на много допълнителни фактори. Е, третото е елиминирането на факторите, които преди са били приложени към уравнението. Всеки от тези методи има право на съществуване. Те имат своите плюсове и минуси, но могат да решат проблема с отсяването на ненужните показатели по свой начин. По правило резултатите, получени от всеки отделен метод, са доста близки.

Методи за многомерен анализ

Такива методи за определяне на фактори се основават на разглеждането на отделни комбинации от взаимосвързани характеристики. Те включват дискриминантен анализ, разпознаване на образи, анализ на главните компоненти и клъстерен анализ. Освен това има и факторен анализ, но той се появи в резултат на развитието на компонентния метод. Всички те се прилагат при определени обстоятелства, при определени условия и фактори.

Съвременната политическа наука изхожда от позицията за връзката на всички явления и процеси в обществото. Невъзможно е да се разберат събитията и процесите, да се предвидят и управляват явленията на политическия живот, без да се изучават връзките и зависимостите, които съществуват в политическата сфера на обществото. Една от най-честите задачи на политическите изследвания е да се изследва връзката между някои наблюдаеми променливи. Цял клас статистически методи за анализ, обединени от общото наименование "регресионен анализ" (или, както се нарича още, "корелационно-регресионен анализ"), помага за решаването на този проблем. Въпреки това, ако корелационният анализ дава възможност да се оцени силата на връзката между две променливи, тогава с помощта на регресионен анализ е възможно да се определи вида на тази връзка, да се предвиди зависимостта на стойността на всяка променлива от стойността на друга променлива .

Първо, нека си припомним какво е корелация. Корелативнаречен най-важният специален случай на статистическа връзка, който се състои във факта, че еднакви стойности на една променлива съответстват на различни средни стойностидруг. При промяна на стойността на атрибута x естествено се променя средната стойност на атрибута y, докато във всеки отделен случай стойността на атрибута при(с различни вероятности) може да приеме много различни стойности.

Появата на термина „корелация” в статистиката (а политическата наука привлича постиженията на статистиката за решаване на своите проблеми, което следователно е дисциплина, свързана с политическата наука) се свързва с името на английския биолог и статистик Франсис Галтън, който предлага през 19 век. теоретични основи на корелационно-регресионния анализ. Терминът "корелация" в науката е бил известен преди. По-специално в палеонтологията през 18 век. приложена е от френския учен Жорж Кювие. Той въведе така наречения закон за корелация, с помощта на който според останките на животни, открити по време на разкопки, беше възможно да се възстанови външният им вид.

Има една добре известна история, свързана с името на този учен и неговия закон за корелация. И така, в дните на университетски празник, студенти, които решиха да направят номер на известен професор, дръпнаха козя кожа с рога и копита върху един студент. Той се качи на прозореца на спалнята на Кювие и извика: „Ще те изям“. Професорът се събудил, погледнал силуета и отвърнал: „Ако имаш рога и копита, значи си тревопасно животно и не можеш да ме изядеш. А за непознаване на закона за корелацията ще получите двойка. Той се обърна и заспа. Шегата си е шега, но в този пример виждаме специален случай на използване на множествен корелационно-регресионен анализ. Тук професорът, въз основа на познаването на стойностите на двата наблюдавани признака (наличието на рога и копита), въз основа на закона за корелация, изведе средната стойност на третия признак (класа, към който принадлежи това животно е тревопасно животно). В този случай не говорим за конкретната стойност на тази променлива (т.е. това животно може да приема различни стойности в номинална скала - може да е коза, овен или бик ...).

Сега да преминем към термина „регресия“. Строго погледнато, това не е свързано със значението на онези статистически задачи, които се решават с помощта на този метод. Обяснение на термина може да се даде само въз основа на познаването на историята на развитието на методите за изследване на връзките между характеристиките. Един от първите примери за изследвания от този вид беше работата на статистиците Ф. Галтън и К. Пиърсън, които се опитаха да намерят модел между растежа на бащите и техните деца според два наблюдаеми знака (където Х-височината на бащата и U-растеж на децата). В своето изследване те потвърждават първоначалната хипотеза, че средно високите бащи отглеждат средно високи деца. Същият принцип важи и за ниските бащи и деца. Но ако учените бяха спрели дотук, трудовете им никога нямаше да бъдат споменати в учебниците по статистика. Изследователите откриха друг модел в рамките на вече споменатата потвърдена хипотеза. Те доказаха, че много високите бащи създават деца, които са средно високи, но не се различават много по височина от деца, чиито бащи, макар и над средното ниво, не се различават много от средния ръст. Същото важи и за бащите с много нисък ръст (отклоняващ се от средния за ниската група) - децата им средно не се различават по височина от връстниците, чиито бащи са просто ниски. Те нарекоха функцията, която описва тази закономерност регресионна функция.След това изследване всички уравнения, описващи подобни функции и конструирани по подобен начин, започват да се наричат ​​регресионни уравнения.

Регресионният анализ е един от методите за многовариантен статистически анализ на данни, съчетаващ набор от статистически техники, предназначени да изучават или моделират връзки между една зависима и няколко (или една) независими променливи. Зависимата променлива, според традицията, приета в статистиката, се нарича отговор и се означава като VНезависимите променливи се наричат ​​предиктори и се означават като х.По време на анализа някои променливи ще бъдат слабо свързани с отговора и в крайна сметка ще бъдат изключени от анализа. Останалите променливи, свързани със зависимата, също могат да бъдат наречени фактори.

Регресионният анализ дава възможност да се предвидят стойностите на една или повече променливи в зависимост от друга променлива (например склонността към нетрадиционно политическо поведение в зависимост от нивото на образование) или няколко променливи. Изчислява се на компютър. За да съставите регресионно уравнение, което ви позволява да измерите степента на зависимост на контролираната характеристика от факторните, е необходимо да включите професионални математици-програмисти. Регресионният анализ може да окаже неоценима услуга при изграждането на прогнозни модели за развитието на политическа ситуация, оценката на причините за социалното напрежение и при провеждането на теоретични експерименти. Регресионният анализ се използва активно за изследване на влиянието върху електоралното поведение на гражданите на редица социално-демографски параметри: пол, възраст, професия, място на пребиваване, националност, ниво и характер на доходите.

Във връзка с регресионния анализ понятията независимаи зависимпроменливи. Независима променлива е променлива, която обяснява или причинява промяна в друга променлива. Зависима променлива е променлива, чиято стойност се обяснява с влиянието на първата променлива. Например на президентските избори през 2004 г. определящите фактори, т.е. независими променливи бяха показатели като стабилизиране на финансовото състояние на населението на страната, нивото на популярност на кандидатите и фактора заемане на длъжност.В този случай процентът на гласовете, подадени за кандидати, може да се разглежда като зависима променлива. По същия начин в двойката променливи „възраст на избирателя” и „ниво на избирателна активност” първата е независима, а втората е зависима.

Регресионният анализ ви позволява да решите следните проблеми:

  • 1) установява самия факт на наличието или отсъствието на статистически значима връзка между Ci х;
  • 2) изградете най-добрите (в статистически смисъл) оценки на регресионната функция;
  • 3) според зададените стойности хизградете прогноза за неизвестното При
  • 4) оценява специфичната тежест на влиянието на всеки фактор хна Прии съответно изключват незначителни характеристики от модела;
  • 5) чрез идентифициране на причинно-следствени връзки между променливи, частично управление на стойностите на P чрез коригиране на стойностите на обяснителните променливи х.

Регресионният анализ е свързан с необходимостта да се изберат взаимно независими променливи, които влияят върху стойността на изследвания индикатор, да се определи формата на регресионното уравнение и да се оценят параметрите с помощта на статистически методи за обработка на първични социологически данни. Този тип анализ се основава на идеята за формата, посоката и близостта (плътността) на връзката. Разграничете парна баняи множествена регресияв зависимост от броя на изследваните признаци. На практика регресионният анализ обикновено се извършва заедно с корелационния анализ. Регресионно уравнениеописва числена връзка между количествата, изразена като тенденция една променлива да се увеличава или намалява, докато друга нараства или намалява. В същото време разл и ч а ют л скрежи нелинейна регресия.При описанието на политическите процеси еднакво се срещат и двата варианта на регресия.

Точкова диаграма за разпределението на взаимозависимостта на интереса към политически статии ( U)и образование на респондентите (Х)е линейна регресия (фиг. 30).

Ориз. тридесет.

Точкова диаграма за разпределението на нивото на избирателна активност ( U)и възрастта на респондента (А) (условен пример) е нелинейна регресия (фиг. 31).


Ориз. 31.

За да се опише връзката на две характеристики (A "и Y) в сдвоен регресионен модел, се използва линейно уравнение

където a е произволна стойност на грешката на уравнението с вариация на характеристиките, т.е. отклонение на уравнението от "линейност".

За оценка на коефициентите аи bизползвайте метода на най-малките квадрати, който предполага, че сумата от квадратите на отклоненията на всяка точка от диаграмата на разсейване спрямо регресионната линия трябва да бъде минимална. Коефициенти a h bможе да се изчисли с помощта на системата от уравнения:

Методът на най-малките квадрати дава такива оценки на коефициентите аи б,за които правата минава през точката с координати хи y,тези. има съотношение при = брадва + б.Графичното представяне на регресионното уравнение се нарича теоретична регресионна линия.При линейна зависимост коефициентът на регресия представлява на графиката тангенса на наклона на теоретичната регресионна линия спрямо оста x. Знакът при коефициента показва посоката на връзката. Ако е по-голямо от нула, тогава връзката е пряка, ако е по-малка, тя е обратна.

Следният пример от изследването "Политически Петербург-2006" (Таблица 56) показва линейна зависимост между възприятията на гражданите за степента на удовлетвореност от живота им в настоящето и очакванията за промени в качеството на живот в бъдеще. Връзката е пряка, линейна (стандартизираният регресионен коефициент е 0,233, нивото на значимост е 0,000). В този случай регресионният коефициент не е висок, но надхвърля долната граница на статистически значимия показател (долната граница на квадрата на статистически значимия показател на коефициента на Пиърсън).

Таблица 56

Влиянието на качеството на живот на гражданите в настоящето върху очакванията

(Санкт Петербург, 2006)

* Зависима променлива: "Как мислите, че ще се промени животът ви през следващите 2-3 години?"

В политическия живот стойността на изследваната променлива най-често зависи едновременно от няколко признака. Например, нивото и характерът на политическата активност се влияят едновременно от политическия режим на държавата, политическите традиции, особеностите на политическото поведение на хората в дадена област и социалната микрогрупа на респондента, неговата възраст, образование, доходи ниво, политическа ориентация и др. В този случай трябва да използвате уравнението множествена регресия, който има следния вид:

където коефициент b.- коефициент на частична регресия. Той показва приноса на всяка независима променлива за определяне на стойностите на независимата (резултатна) променлива. Ако коефициентът на частична регресия е близо до 0, тогава можем да заключим, че няма пряка връзка между независимите и зависимите променливи.

Изчисляването на такъв модел може да се извърши на компютър с помощта на матрична алгебра. Множествената регресия ви позволява да отразите многофакторния характер на социалните връзки и да изясните степента на влияние на всеки фактор поотделно и всички заедно върху получената черта.

Означен коефициент б,се нарича коефициент на линейна регресия и показва силата на връзката между вариацията на факторния признак хи вариация на ефективната характеристика YТози коефициент измерва силата на връзката в абсолютни мерни единици на характеристиките. Но близостта на корелацията на признаците може да бъде изразена и чрез стандартното отклонение на резултантния признак (такъв коефициент се нарича коефициент на корелация). За разлика от регресионния коефициент bкоефициентът на корелация не зависи от приетите мерни единици на характеристиките и следователно е сравним за всякакви характеристики. Обикновено връзката се счита за силна, ако /> 0,7, средна плътност - при 0,5 g 0,5.

Както знаете, най-близката връзка е функционалната връзка, когато всеки индивидуална стойност Yможе да бъде уникално присвоен на стойността х.По този начин, колкото по-близо е коефициентът на корелация до 1, толкова по-близка е връзката до функционална. Нивото на значимост за регресионния анализ не трябва да надвишава 0,001.

Коефициентът на корелация отдавна се счита за основен показател за близостта на връзката на характеристиките. По-късно обаче коефициентът на детерминация стана такъв показател. Значението на този коефициент е следното - той отразява дела от общата дисперсия на резултантния признак При, обяснено с дисперсията на характеристиката х.Намира се чрез просто повдигане на квадрат на корелационния коефициент (променящ се от 0 на 1) и на свой ред за линейна връзка отразява дела от 0 (0%) до 1 (100%) характерни стойности Y,определени от стойностите на атрибута х.Записано е като аз 2,а в получените таблици на регресионен анализ в пакета SPSS - без квадрат.

Нека обозначим основните проблеми при конструирането на уравнение на множествена регресия.

  • 1. Избор на фактори, включени в регресионното уравнение.На този етап изследователят първо съставя общ списък на основните причини, които според теорията определят изследваното явление. След това той трябва да избере характеристиките в регресионното уравнение. Основното правило за подбор е факторите, включени в анализа, да корелират възможно най-малко един с друг; само в този случай е възможно да се припише количествена мярка за влияние на определен фактор-атрибут.
  • 2. Избор на формата на уравнението на множествената регресия(на практика по-често се използва линейна или линейно-логаритмична). Така че, за да използва множествена регресия, изследователят трябва първо да изгради хипотетичен модел на влиянието на няколко независими променливи върху получената. За да бъдат надеждни получените резултати, е необходимо моделът да съвпада точно с реалния процес, т.е. връзката между променливите трябва да бъде линейна, нито една значима независима променлива не може да бъде пренебрегната, точно както нито една променлива, която не е пряко свързана с изследвания процес, не може да бъде включена в анализа. Освен това всички измервания на променливи трябва да бъдат изключително точни.

От горното описание следват редица условия за прилагането на този метод, без които е невъзможно да се пристъпи към процедурата на множествения регресионен анализ (MRA). Само спазването на всички от следните точки ви позволява правилно да извършите регресионен анализ.