Регресионен анализ за манекени. Основи на анализа на данни. Анализ на резултатите от анализа

Основната цел на регресионния анализсе състои в определяне на аналитичната форма на връзката, при която промяната в резултантния атрибут се дължи на влиянието на един или повече факторни признаци, а съвкупността от всички други фактори, които също влияят на резултантния атрибут, се приема като постоянна и средна стойност .
Задачи на регресионния анализ:
а) Установяване на формата на зависимост. По отношение на характера и формата на връзката между явленията има положителна линейна и нелинейна и отрицателна линейна и нелинейна регресия.
б) Дефиниране на регресионната функция под формата на математическо уравнение от един или друг тип и установяване на влиянието на обяснителните променливи върху зависимата променлива.
в) Оценка на неизвестни стойности на зависимата променлива. Използвайки регресионната функция, можете да възпроизведете стойностите на зависимата променлива в интервала от дадени стойности на обяснителните променливи (т.е. да решите проблема с интерполацията) или да оцените хода на процеса извън определения интервал (т.е. решаване на проблема с екстраполацията). Резултатът е оценка на стойността на зависимата променлива.

Двойна регресия - уравнението на връзката на две променливи y и x: y=f(x), където y е зависимата променлива (резултатен знак); x - независима, обяснителна променлива (feature-factor).

Има линейни и нелинейни регресии.
Линейна регресия: y = a + bx + ε
Нелинейните регресии се разделят на два класа: регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, и регресии, които са нелинейни по отношение на оценените параметри.
Регресии, които са нелинейни в обяснителните променливи:

Регресии, които са нелинейни в оценените параметри:

  • степен y=a x b ε
  • експоненциална y=a b x ε
  • експоненциална y=e a+b x ε
Конструкцията на регресионното уравнение се свежда до оценка на неговите параметри. За оценка на параметрите на регресии, които са линейни по параметри, се използва методът на най-малките квадрати (LSM). LSM дава възможност да се получат такива оценки на параметрите, за които сумата от квадратните отклонения на действителните стойности на ефективната характеристика y от теоретичните стойности y x е минимална, т.е.
.
За линейни и нелинейни уравнения, сводими до линейни, следната система се решава за a и b:

Можете да използвате готови формули, които следват от тази система:

Тясността на връзката между изследваните явления се оценява чрез корелационния коефициент на линейна двойка r xy за линейна регресия (-1≤r xy ≤1):

и индекс на корелация p xy - за нелинейна регресия (0≤p xy ≤1):

Оценка за качеството на изградения модел ще бъде дадена чрез коефициента (индекса) на детерминация, както и средната апроксимационна грешка.
Средната апроксимационна грешка е средното отклонение на изчислените стойности от действителните:
.
Допустима граница на стойности А - не повече от 8-10%.
Средният коефициент на еластичност E показва с колко процента средно резултатът y ще се промени от средната си стойност, когато факторът x се промени с 1% от средната си стойност:
.

Задачата на дисперсионния анализ е да се анализира дисперсията на зависимата променлива:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
където ∑(y-y )² - обща сумаквадратни отклонения;
∑(y x -y)² - сума на квадратните отклонения, дължащи се на регресия ("обяснена" или "факториална");
∑(y-y x)² - остатъчна сума на квадратите на отклоненията.
Делът на дисперсията, обяснена с регресията в общата дисперсия на ефективния признак y, се характеризира с коефициента (индекса) на детерминация R2:

Коефициентът на детерминация е квадратът на коефициента или корелационния индекс.

F-тест - оценка на качеството на регресионното уравнение - се състои в тестване на хипотезата Но за статистическата незначимост на регресионното уравнение и индикатора за близост на връзката. За тази цел се извършва сравнение на действителния F факт и критичната (таблична) F таблица на стойностите на F-критерия на Fisher. F факт се определя от съотношението на стойностите на факторните и остатъчните дисперсии, изчислени за една степен на свобода:
,
където n е броят на единиците от съвкупността; m е броят на параметрите за променливите x.
F таблица е максимално възможната стойност на критерия под влияние на случайни фактори за дадени степени на свобода и ниво на значимост a. Ниво на значимост a - вероятността за отхвърляне на правилната хипотеза, при условие че е вярна. Обикновено a се приема равно на 0,05 или 0,01.
Ако F таблица< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F е факт, тогава хипотезата H относно не се отхвърля и се признава статистическата незначимост, ненадеждността на регресионното уравнение.
За оценка на статистическата значимост на коефициентите на регресия и корелация се изчисляват t-теста на Стюдънт и доверителните интервали за всеки от показателите. Излага се хипотеза Н за случайния характер на показателите, т.е. за тяхната незначителна разлика от нула. Оценката на значимостта на коефициентите на регресия и корелация с помощта на t-теста на Student се извършва чрез сравняване на техните стойности с големината на случайната грешка:
; ; .
Случайните грешки на параметрите на линейната регресия и коефициента на корелация се определят по формулите:



Сравнявайки действителните и критичните (таблични) стойности на t-статистиката - t tabl и t fact - ние приемаме или отхвърляме хипотезата H o.
Връзката между F-теста на Фишер и t-статистиката на Стюдънт се изразява чрез равенството

Ако t маса< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t фактът, че хипотезата H относно не е отхвърлена и се признава случайният характер на образуването на a, b или r xy.
За да изчислим доверителния интервал, определяме пределната грешка D за всеки индикатор:
Δ a =t таблица m a, Δ b =t таблица m b.
Формулите за изчисляване на доверителните интервали са както следва:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γ a =a+Δa
γ b = bΔ b ; γ b = b-Δ b ; γb =b+Δb
Ако нулата попада в границите на доверителния интервал, т.е. Ако долната граница е отрицателна, а горната граница е положителна, тогава оцененият параметър се приема за нула, тъй като не може едновременно да приема както положителни, така и отрицателни стойности.
Прогнозната стойност y p се определя чрез заместване на съответната (прогнозна) стойност x p в регресионното уравнение y x =a+b·x. Средната стандартна грешка на прогнозата m y x се изчислява:
,
където
и се изгражда доверителният интервал на прогнозата:
y y x =y p Δ y p ; y y x min=y p -Δ y p ; γ y x max=y p +Δ y p
където Δ y x =t таблица ·m y x .

Пример за решение

Задача номер 1. За седем територии на Уралския регион За 199X са известни стойностите на два знака.
Маса 1.

Задължително: 1. За да характеризирате зависимостта на y от x, изчислете параметрите на следните функции:
а) линейни;
б) степенен закон (предварително е необходимо да се извърши процедурата за линеаризиране на променливи чрез вземане на логаритъм на двете части);
в) демонстративни;
г) равностранна хипербола (трябва също така да разберете как предварително да линеаризирате този модел).
2. Оценете всеки модел чрез средната апроксимационна грешка A и F-теста на Fisher.

Решение (Вариант №1)

За изчисляване на параметрите a и b на линейната регресия y=a+b·x (изчислението може да се направи с помощта на калкулатор).
решаване на системата от нормални уравнения по отношение на аи б:
Въз основа на първоначалните данни изчисляваме ∑y, ∑x, ∑y x, ∑x², ∑y²:
г х yx x2 y2 y xу-у хAi
л68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Обща сума405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ср стойност (Общо/n)57,89
г
54,90
х
3166,05
x y
3048,34
3383,68
хх8,1
с 5,74 5,86 хххххх
s232,92 34,34 хххххх


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Регресионно уравнение: y= 76,88 - 0,35Х.С увеличение на средната дневна заплата с 1 rub. делът на разходите за закупуване на хранителни продукти намалява средно с 0.35% пункта.
Изчислете линейния коефициент на двойна корелация:

Общуването е умерено, обратно.
Нека определим коефициента на детерминация: r² xy =(-0,35)=0,127
Разликата от 12,7% в резултата се обяснява с промяната в фактора x. Заместване на действителните стойности в регресионното уравнение х, ние определяме теоретичните (изчислени) стойности на y x . Нека намерим стойността на средната апроксимационна грешка A:

Средно изчислените стойности се отклоняват от действителните с 8,1%.
Нека изчислим F-критерия:

Получената стойност показва необходимостта от приемане на хипотезата H 0 за случайния характер на разкритата зависимост и статистическата незначимост на параметрите на уравнението и показателя за близост на връзката.
1б.Изграждането на степенния модел y=a x b се предшества от процедурата на линеаризация на променливите. В примера линеаризацията се извършва чрез вземане на логаритъм от двете страни на уравнението:
lg y=lg a + b lg x
Y=C+b Y
където Y=lg(y), X=lg(x), C=lg(a).

За изчисления използваме данните от табл. 1.3.
Таблица 1.3

Yх YX Y2 x2 y xу-у х(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Обща сума12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Означава1,7605 1,7370 3,0572 3,1011 3,0194 хх28,27 8,0
σ 0,0425 0,0484 ххххххх
σ20,0018 0,0023 ххххххх

Изчислете C и b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Получаваме линейно уравнение: Y=2,278-0,298 X
След като го потенцираме, получаваме: y=10 2,278 x -0,298
Замествайки в това уравнение действителните стойности Х,получаваме теоретичните стойности на резултата. Въз основа на тях изчисляваме показателите: стегнатостта на връзката - индексът на корелация p xy и средната апроксимационна грешка A .

Характеристиките на мощностния модел показват, че той е малко по-добър линейна функцияописва връзката.

. Конструкцията на уравнението на експоненциалната крива y \u003d a b x се предхожда от процедурата за линеаризиране на променливите при вземане на логаритъм на двете части на уравнението:
lg y=lg a + x lg b
Y=C+B x
За изчисления използваме данните от таблицата.

Yх Yx Y2 x2y xу-у х(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Обща сума12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ср зн.1,7605 54,9 96,5711 3,1011 3048,34 хх28,68 8,0
σ 0,0425 5,86 ххххххх
σ20,0018 34,339 ххххххх

Стойностите на регресионните параметри A и ATвъзлиза на:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Получава се линейно уравнение: Y=1.887-0.0023x. Потенцираме полученото уравнение и го записваме в обичайната форма:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Ние оценяваме тясността на връзката чрез индекса на корелация p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Обща сума405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Означава57,9 0,0184 1,0723 0,000345 3383,68 хх27,84 8,1 σ 5,74 0,002145 ххххххх σ232,9476 0,000005 хх

Регресионен анализ— метод за моделиране на измерени данни и изследване на техните свойства. Данните се състоят от двойки стойности зависима променлива(променлива на отговора) и независима променлива(обясняваща променлива). Регресионният модел е функция на независимата променлива и параметри с добавена случайна променлива. Параметрите на модела са конфигурирани по такъв начин, че моделът по най-добрия начинприближава данните. Критерият за качество на приближението (обективна функция) обикновено е средната квадратна грешка: сумата от квадратите на разликата между стойностите на модела и зависимата променлива за всички стойности на независимата променлива като аргумент. Регресионният анализ е клон на математическата статистика и машинното обучение. Предполага се, че зависимата променлива е сумата от стойностите на някакъв модел и случайна променлива. По отношение на естеството на разпределението на тази стойност се правят допускания, наречени хипотеза за генериране на данни. За потвърждаване или отхвърляне на тази хипотеза се извършват статистически тестове, наречени остатъчни анализи. Това предполага, че независимата променлива не съдържа грешки. Регресионният анализ се използва за прогнозиране, анализ на времеви редове, тестване на хипотези и откриване на скрити връзки в данните.

Определение за регресионен анализ

Извадката може да не е функция, а релация. Например данните за изграждане на регресия могат да бъдат: . В такава извадка една стойност на променливата съответства на няколко стойности на променливата.

Линейна регресия

Линейната регресия предполага, че функцията зависи линейно от параметрите. В този случай линейната зависимост от свободната променлива не е задължителна,

В случая, когато функцията на линейната регресия има формата

тук са компонентите на вектора.

Стойностите на параметрите в случай на линейна регресия се намират с помощта на метода на най-малките квадрати. Използването на този метод е оправдано от предположението за Гаусово разпределение на случайна променлива.

Разликите между действителните стойности на зависимата променлива и реконструираните се наричат регресионни остатъци(остатъци). В литературата се използват и синоними: остатъции грешки. Една от важните оценки на критерия за качество на получената зависимост е сумата от квадратите на остатъците:

Тук - сума на квадратите на грешките.

Дисперсията на остатъците се изчислява по формулата

Тук - Средна квадратична грешка, средна квадратична грешка.

Графиките показват проби, маркирани със сини точки и регресионни зависимости, маркирани с плътни линии. Абсцисата показва свободната променлива, а ординатата показва зависимата променлива. И трите зависимости са линейни по отношение на параметрите.

Нелинейна регресия

Нелинейни регресионни модели - Преглед на модели

които не могат да бъдат представени като скален продукт

където са параметрите на регресионния модел, е свободна променлива от пространството, е зависимата променлива, е случайна променлива и е функция от някакъв даден набор.

Стойностите на параметрите в случай на нелинейна регресия се намират с помощта на един от методите за градиентно спускане, например алгоритъма Levenberg-Marquardt.

Относно условията

Терминът "регресия" е въведен от Франсис Галтън в края на 19 век. Галтън установи, че децата на високи или ниски родители обикновено не наследяват изключителна височина и нарече това явление „регресия към посредственост“. Първоначално терминът се използва изключително в биологичен смисъл. След работата на Карл Пиърсън този термин започва да се използва в статистиката.

В статистическата литература се прави разлика между регресия, включваща една свободна променлива и с множество свободни променливи - едноизмерени многоизмеренрегресия. Предполага се, че използваме няколко свободни променливи, тоест свободната променлива е вектор. В специални случаи, когато свободната променлива е скала, тя ще бъде означена с . Разграничете линеени нелинейнирегресия. Ако регресионният модел не е линейна комбинация от функции на параметрите, тогава се говори за нелинейна регресия. В този случай моделът може да бъде произволна суперпозиция на функции от определено множество. Нелинейните модели са експоненциални, тригонометрични и други (например радиални базисни функции или персептрон на Розенблат), които предполагат, че връзката между параметрите и зависимата променлива е нелинейна.

Разграничете параметричени непараметричнирегресия. Трудно е да се направи рязка граница между тези два вида регресии. Понастоящем няма общоприет критерий за разграничаване на един тип модел от друг. Например линейните модели се считат за параметрични, докато моделите, които включват осредняване на зависимата променлива върху пространството на свободната променлива, се считат за непараметрични. Пример за параметричен регресионен модел: линеен предиктор, многослоен перцептрон. Примери за модели на смесена регресия: Радиални базисни функции. Непараметричен модел - подвижна средна в прозорец с известна ширина. Като цяло, непараметричната регресия се различава от параметричната регресия по това, че зависимата променлива не зависи от една стойност на свободната променлива, а от някакво дадено съседство на тази стойност.

Има разграничение между термините „апроксимация на функцията“, „апроксимация“, „интерполация“ и „регресия“. Състои се в следното.

Апроксимация на функции.Дадена е функция на дискретен или непрекъснат аргумент. Необходимо е да се намери функция от някакво параметрично семейство, например сред алгебрични полиноми от дадена степен. Функционалните параметри трябва да предоставят минимум някаква функционалност, например,

Срок приближениее синоним на термина "апроксимация на функции". По-често се използва, когато се говори за дадена функция, какво ще кажете за функция на дискретен аргумент. Тук също се изисква да се намери такава функция, която да минава най-близо до всички точки на дадената функция. Това въвежда концепцията остатъциса разстоянията между точките на непрекъсната функция и съответните точки на функцията на дискретен аргумент.

Интерполацияфункции е частен случай на задачата за апроксимация, когато се изисква в определени точки, т.нар интерполационни възлистойностите на функцията и функцията, която я приближава, съвпадаха. В по-общ случай се налагат ограничения върху стойностите на някои деривати на деривати. Това е дадена функция на дискретен аргумент. Изисква се да се намери функция, която минава през всички точки. В този случай метриката обикновено не се използва, но често се въвежда концепцията за "гладкост" на желаната функция.

РЕЗУЛТАТИ

Таблица 8.3a. Регресионна статистика
Регресионна статистика
Множество R 0,998364
R-квадрат 0,99673
Нормализиран R-квадрат 0,996321
стандартна грешка 0,42405
Наблюдения 10

Нека първо да разгледаме горната част на изчисленията, представени в таблица 8.3a, регресионната статистика.

Стойността R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между оригиналните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в интервала.

В повечето случаи стойността на R-квадрат е между тези стойности, наречени екстремуми, т.е. между нула и едно.

Ако стойността на R-квадрата е близка до единица, това означава, че изграденият модел обяснява почти цялата променливост на съответните променливи. Обратно, стойност на R-квадрат, близка до нула, означава лошо качество на конструирания модел.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

Множество R- коеф множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

Множество R е равно корен квадратенот коефициента на определяне, тази стойност приема стойности в диапазона от нула до едно.

При прост линеен регресионен анализ множественото R е равно на корелационния коефициент на Пиърсън. Наистина, множественото R в нашия случай е равно на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия
Коефициенти стандартна грешка t-статистика
Y-пресечка 2,694545455 0,33176878 8,121757129
Променлива X 1 2,305454545 0,04668634 49,38177965
* Дадена е съкратена версия на изчисленията

Сега разгледайте средната част на изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и отместването по оста y, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) регресионни коефициенти(коефициент b).

Ако знакът при регресионен коефициент- положителен, връзката на зависимата променлива с независимата ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът при регресионен коефициент- отрицателна, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

В таблица 8.3c. са представени резултатите от изхода на остатъците. За да се появят тези резултати в отчета, трябва да активирате отметката "Остатъци", когато стартирате инструмента "Регресия".

ОСТАТЪЧНО ТЕГЛЕНЕ

Таблица 8.3c. останки
Наблюдение Предсказаният Y останки Стандартни баланси
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голяма абсолютна стойност

Регресионен и корелационен анализ - статистически методи за изследване. Това са най-често срещаните начини за показване на зависимостта на параметър от една или повече независими променливи.

По-долу за конкретни практически примериНека разгледаме тези два много популярни анализа сред икономистите. Ще дадем и пример за получаване на резултати, когато се комбинират.

Регресионен анализ в Excel

Показва влиянието на някои стойности (независими, независими) върху зависимата променлива. Например как броят на икономически активното население зависи от броя на предприятията, заплатите и други параметри. Или: как влияят на нивото на БВП чуждите инвестиции, цените на енергията и т.н.

Резултатът от анализа ви позволява да дадете приоритет. И въз основа на основните фактори, да се прогнозира, планира развитието на приоритетните области, да се вземат управленски решения.

Регресията се случва:

  • линеен (y = a + bx);
  • параболичен (y = a + bx + cx 2);
  • експоненциален (y = a * exp(bx));
  • мощност (y = a*x^b);
  • хиперболичен (y = b/x + a);
  • логаритмичен (y = b * 1n(x) + a);
  • експоненциален (y = a * b^x).

Разгледайте примера за изграждане на регресионен модел в Excel и интерпретиране на резултатите. Да вземем линеен типрегресия.

Задача. В 6 предприятия са анализирани средната месечна работна заплата и напусналите служители. Необходимо е да се установи зависимостта на броя на пенсионираните служители от средната работна заплата.

Линейният регресионен модел има следния вид:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Където a са регресионните коефициенти, x са влияещите променливи и k е броят на факторите.

В нашия пример Y е индикаторът за напуснали работници. Влияещият фактор е работната заплата (x).

Excel има вградени функции, които могат да се използват за изчисляване на параметрите на линеен регресионен модел. Но добавката Analysis ToolPak ще го направи по-бързо.

Активирайте мощен аналитичен инструмент:

След като бъде активирана, добавката ще бъде достъпна в раздела Данни.

Сега ще се занимаваме директно с регресионния анализ.



На първо място, обръщаме внимание на R-квадрата и коефициентите.

R-квадрат е коефициентът на детерминация. В нашия пример това е 0,755, или 75,5%. Това означава, че изчислените параметри на модела обясняват връзката между изследваните параметри с 75,5%. Колкото по-висок е коефициентът на детерминация, толкова по-добър модел. Добър - над 0,8. Слабо - под 0,5 (такъв анализ едва ли може да се счита за разумен). В нашия пример - "не е лошо".

Коефициентът 64.1428 показва какво ще бъде Y, ако всички променливи в разглеждания модел са равни на 0. Тоест други фактори, които не са описани в модела, също влияят върху стойността на анализирания параметър.

Коефициентът -0.16285 показва тежестта на променливата X върху Y. Тоест средната месечна заплата в този модел влияе върху броя на напусналите с тежест -0.16285 (това е малка степен на влияние). Знакът „-“ показва отрицателно въздействие: колкото по-висока е заплатата, толкова по-малко напускат. Което е справедливо.



Корелационен анализ в Excel

Корелационният анализ помага да се установи дали има връзка между показателите в една или две проби. Например между времето за работа на машината и разходите за ремонт, цената на оборудването и продължителността на работа, височината и теглото на децата и т.н.

Ако има връзка, тогава дали увеличението на един параметър води до увеличение (положителна корелация) или намаление (отрицателна) на другия. Корелационният анализ помага на анализатора да определи дали стойността на един индикатор може да предвиди възможната стойност на друг.

Коефициентът на корелация се обозначава с r. Варира от +1 до -1. Класификация на корелациите за различни областище бъде различно. Когато стойността на коефициента е 0, няма линейна връзка между извадките.

Помислете как да използвате Excel, за да намерите коефициента на корелация.

Функцията CORREL се използва за намиране на сдвоените коефициенти.

Задача: Установете дали има връзка между времето на работа на струг и разходите за неговата поддръжка.

Поставете курсора в произволна клетка и натиснете бутона fx.

  1. В категорията "Статистически" изберете функцията CORREL.
  2. Аргумент "Масив 1" - първият диапазон от стойности - времето на машината: A2: A14.
  3. Аргумент "Масив 2" - вторият диапазон от стойности - цената на ремонта: B2:B14. Натиснете OK.

За да определите вида на връзката, трябва да погледнете абсолютното число на коефициента (всяка сфера на дейност има своя собствена скала).

За корелационен анализняколко параметъра (повече от 2), по-удобно е да използвате "Анализ на данни" (добавка "Пакет за анализ"). В списъка трябва да изберете корелация и да посочите масив. Всичко.

Получените коефициенти ще бъдат показани в корелационната матрица. Като този:

Корелационно-регресионен анализ

На практика тези две техники често се използват заедно.

Пример:


Сега данните от регресионния анализ са видими.

При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Този математически метод включва много други методи за моделиране и анализ на множество променливи, когато фокусът е върху връзката между зависима променлива и една или повече независими променливи. По-конкретно, регресионният анализ ви помага да разберете как се променя типичната стойност на зависимата променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.

Във всички случаи целевият резултат е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.

Задачи на регресионния анализ

The статистически методизследването се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшива връзка, така че се препоръчва да се използва внимателно в този въпрос, тъй като например корелацията не означава причинно-следствена връзка .

Разработено голямо числометоди за извършване на регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.

Като статистически изследователски метод регресионният анализ на практика зависи от формата на процеса на генериране на данни и от това как той се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не се представят по най-добрия начин.

В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъсната изходна променлива се нарича още метрична регресия, за да се разграничи от свързани проблеми.

История

Най-ранната форма на регресия е добре познатият метод на най-малките квадрати. Публикуван е от Лежандр през 1805 г. и от Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъчно развитиетеория на най-малките квадрати през 1821 г., включително вариант на теоремата на Гаус-Марков.

Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Изводът беше, че растежът на потомците от растежа на предците, като правило, регресира до нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е възприета от Удни Йоли и Карл Пиърсън и е отнесена към по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се счита за Гаусово. Това предположение е отхвърлено от Фишер в документите от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишър е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.

Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, съдържащи различни видовелипсва информация; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресии с повече предиктори, отколкото наблюдения и причинно-следствени изводи с регресия.

Регресионни модели

Моделите за регресионен анализ включват следните променливи:

  • Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
  • Независими променливи, X.
  • Зависими променливи, Y.

В различни области на науката, където се прилага регресионен анализ, се използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.

Приближението обикновено се формулира като E (Y | X) = F (X, β). За да се извърши регресионен анализ, трябва да се определи формата на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такова знание не е налично, тогава се избира гъвкава или удобна форма F.

Зависима променлива Y

Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се свежда до решаване на набор от N-уравнения с N-неизвестни (елементите на β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, решение може да не съществува или може да има много решения.
  • Най-често срещаната ситуация е, когато има N > точки към данните. В този случай има достатъчно информация в данните, за да се оцени уникалната стойност за β, която най-добре отговаря на данните, а регресионният модел, когато се прилага към данните, може да се разглежда като отменена система в β.

В последния случай регресионният анализ предоставя инструменти за:

  • Намиране на решение за неизвестни параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
  • При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.

Необходим брой независими измервания

Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да приемем, че експериментаторът прави 10 измервания на една и съща стойност на независимата променлива на вектора X. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто, което можете да направите, е да оцените средното и стандартното отклонение на зависимата променлива Y. По същия начин, чрез измерване на две различни стойности на X, можете да получите достатъчно данни за регресия с две неизвестни, но не и за три или повече неизвестни .

Ако измерванията на експериментатора бяха направени при три различни стойности на независимата векторна променлива X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.

В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.

Статистически предположения

Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, тогава излишната информация, съдържаща се в измерванията, се разпределя и използва за статистически прогнози по отношение на неизвестни параметри. Този излишък от информация се нарича степен на свобода на регресията.

Основни предположения

Класическите допускания за регресионен анализ включват:

  • Вземането на проби е представително за прогнозиране на изводи.
  • Грешката е случайна величинасъс средна стойност нула, която зависи от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
  • Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
  • Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.

Тези достатъчни условия за оценка на най-малките квадрати имат необходимите свойства, по-специално тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа на линейните оценки. Важно е да се отбележи, че действителните данни рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Отклонението от предположенията понякога може да се използва като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Доклади Статистически анализобикновено включват анализ на тестове спрямо примерни данни и методология за полезността на модела.

В допълнение, променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.

При линейната регресия характеристиката е, че зависимата променлива, която е Y i , е линейна комбинация от параметри. Например, при проста линейна регресия, n-точковото моделиране използва една независима променлива, x i, и два параметъра, β 0 и β 1.

При множествената линейна регресия има няколко независими променливи или техните функции.

При произволна извадка от популация, нейните параметри позволяват да се получи извадка от линеен регресионен модел.

В този аспект най-популярен е методът на най-малките квадрати. Той предоставя оценки на параметри, които минимизират сумата от квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.

Освен това приемайки, че грешката на популацията обикновено се разпространява, изследователят може да използва тези оценки на стандартните грешки, за да създаде доверителни интервали и да извърши тестване на хипотези относно нейните параметри.

Нелинеен регресионен анализ

Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване на нелинеен метод понякога са непредсказуеми.

Изчисляване на мощността и размера на извадката

Тук по правило няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на обяснителните променливи, а t е броят на наблюденията, необходими за постигане на желаната точност, ако моделът имаше само една обяснителна променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно определяне на линията (m), тогава максималният брой обяснителни променливи, които моделът може да поддържа, е 4.

Други методи

Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:

  • Байесови методи (например байесовият метод на линейна регресия).
  • Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
  • Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
  • Непараметрична регресия, изискваща голям брой наблюдения и изчисления.
  • Разстоянието на метриката за обучение, което се научава в търсене на смислена метрика на разстоянието в даденото входно пространство.

Софтуер

Всички основни статистически софтуерни пакети се изпълняват чрез регресионен анализ на най-малките квадрати. Простата линейна регресия и множествената регресия могат да се използват в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; различни софтуерни пакети прилагат различни методи. Специализирана регресия софтуере разработен за използване в области като анализ на проучвания и невроизобразяване.