डमी के लिए प्रतिगमन विश्लेषण। डेटा विश्लेषण की मूल बातें। विश्लेषण परिणाम विश्लेषण

प्रतिगमन विश्लेषण का मुख्य लक्ष्यसंबंध के विश्लेषणात्मक रूप को निर्धारित करने में शामिल है, जिसमें परिणामी विशेषता में परिवर्तन एक या एक से अधिक कारक संकेतों के प्रभाव के कारण होता है, और अन्य सभी कारकों का सेट जो परिणामी विशेषता को भी प्रभावित करता है, को स्थिर और औसत मान के रूप में लिया जाता है। .
प्रतिगमन विश्लेषण के कार्य:
ए) निर्भरता के रूप की स्थापना। घटना के बीच संबंध की प्रकृति और रूप के संबंध में, सकारात्मक रैखिक और गैर-रेखीय और नकारात्मक रैखिक और गैर-रेखीय प्रतिगमन हैं।
बी) एक प्रकार या दूसरे के गणितीय समीकरण के रूप में प्रतिगमन समारोह की परिभाषा और आश्रित चर पर व्याख्यात्मक चर के प्रभाव को स्थापित करना।
c) आश्रित चर के अज्ञात मानों का अनुमान। रिग्रेशन फ़ंक्शन का उपयोग करके, आप व्याख्यात्मक चर के दिए गए मानों के अंतराल के भीतर आश्रित चर के मानों को पुन: उत्पन्न कर सकते हैं (यानी, इंटरपोलेशन समस्या को हल करें) या निर्दिष्ट अंतराल के बाहर प्रक्रिया के पाठ्यक्रम का मूल्यांकन करें (यानी, एक्सट्रपलेशन समस्या को हल करें)। परिणाम आश्रित चर के मूल्य का एक अनुमान है।

जोड़ी प्रतिगमन - दो चर y और x के संबंध का समीकरण: y=f(x), जहां y आश्रित चर (परिणामी चिह्न) है; एक्स - स्वतंत्र, व्याख्यात्मक चर (सुविधा-कारक)।

रैखिक और गैर-रेखीय प्रतिगमन हैं।
रैखिक प्रतिगमन: y = a + bx +
गैर-रेखीय प्रतिगमन दो वर्गों में विभाजित हैं: प्रतिगमन जो विश्लेषण में शामिल व्याख्यात्मक चर के संबंध में गैर-रेखीय हैं, लेकिन अनुमानित मापदंडों के संबंध में रैखिक हैं, और प्रतिगमन जो अनुमानित मापदंडों के संबंध में गैर-रैखिक हैं।
व्याख्यात्मक चर में गैर-रैखिक प्रतिगमन:

अनुमानित मापदंडों में गैर-रैखिक प्रतिगमन:

  • शक्ति y=a x b
  • घातांक y=a b x
  • घातांक y=e a+b x
प्रतिगमन समीकरण का निर्माण इसके मापदंडों का अनुमान लगाने के लिए कम किया गया है। प्रतिगमन के मापदंडों का अनुमान लगाने के लिए जो मापदंडों में रैखिक हैं, कम से कम वर्गों (एलएसएम) की विधि का उपयोग किया जाता है। एलएसएम ऐसे पैरामीटर अनुमान प्राप्त करना संभव बनाता है जिसके लिए सैद्धांतिक मूल्यों y x से प्रभावी फीचर y के वास्तविक मूल्यों के वर्ग विचलन का योग न्यूनतम है, अर्थात।
.
रैखिक और अरेखीय समीकरणों के लिए रैखिक के लिए कम करने के लिए, निम्नलिखित प्रणाली को ए और बी के लिए हल किया जाता है:

आप तैयार किए गए फ़ार्मुलों का उपयोग कर सकते हैं जो इस प्रणाली से अनुसरण करते हैं:

अध्ययन की गई परिघटनाओं के बीच संबंध की निकटता का अनुमान रैखिक युग्म सहसंबंध गुणांक r xy द्वारा रेखीय प्रतिगमन (-1≤r xy ≤1) के लिए लगाया जाता है:

और सहसंबंध सूचकांक p xy - गैर-रैखिक प्रतिगमन के लिए (0≤p xy ≤1):

निर्मित मॉडल की गुणवत्ता का आकलन निर्धारण के गुणांक (सूचकांक) के साथ-साथ औसत सन्निकटन त्रुटि द्वारा दिया जाएगा।
औसत सन्निकटन त्रुटि वास्तविक से परिकलित मानों का औसत विचलन है:
.
मूल्यों की अनुमेय सीमा ए - 8-10% से अधिक नहीं।
लोच E का औसत गुणांक दर्शाता है कि जब कारक x अपने औसत मान से 1% बदलता है, तो परिणाम y अपने औसत मान से औसतन कितने प्रतिशत बदलेगा:
.

प्रसरण के विश्लेषण का कार्य आश्रित चर के प्रसरण का विश्लेषण करना है:
(y-y )²=∑(y x -y )²+∑(y-y x)²
जहाँ (y-y )² - कुल राशिवर्ग विचलन;
∑(y x -y)² - प्रतिगमन के कारण वर्ग विचलन का योग ("समझा गया" या "फैक्टोरियल");
(y-y x)² - वर्ग विचलन का अवशिष्ट योग।
प्रभावी सुविधा y के कुल विचरण में प्रतिगमन द्वारा समझाया गया विचरण का हिस्सा निर्धारण R2 के गुणांक (सूचकांक) द्वारा विशेषता है:

निर्धारण का गुणांक गुणांक या सहसंबंध सूचकांक का वर्ग है।

एफ-परीक्षण - प्रतिगमन समीकरण की गुणवत्ता का मूल्यांकन - परिकल्पना का परीक्षण करना शामिल है लेकिन प्रतिगमन समीकरण के सांख्यिकीय महत्व और कनेक्शन की निकटता के संकेतक के बारे में। इसके लिए फिशर एफ-मानदंड के मूल्यों की वास्तविक एफ तथ्य और महत्वपूर्ण (सारणीबद्ध) एफ तालिका की तुलना की जाती है। एफ तथ्य स्वतंत्रता की एक डिग्री के लिए गणना की गई फैक्टोरियल और अवशिष्ट भिन्नताओं के मूल्यों के अनुपात से निर्धारित होता है:
,
जहाँ n जनसंख्या इकाइयों की संख्या है; m चर x के लिए मापदंडों की संख्या है।
एफ तालिका स्वतंत्रता और महत्व स्तर की दी गई डिग्री के लिए यादृच्छिक कारकों के प्रभाव में मानदंड का अधिकतम संभव मूल्य है। महत्व स्तर ए - सही परिकल्पना को खारिज करने की संभावना, बशर्ते कि यह सच हो। आमतौर पर a को 0.05 या 0.01 के बराबर लिया जाता है।
अगर एफ टेबल< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >एफ एक तथ्य है, तो परिकल्पना एच के बारे में खारिज नहीं किया जाता है और सांख्यिकीय महत्वहीनता, प्रतिगमन समीकरण की अविश्वसनीयता को मान्यता दी जाती है।
प्रतिगमन और सहसंबंध गुणांक के सांख्यिकीय महत्व का आकलन करने के लिए, प्रत्येक संकेतक के लिए छात्र के टी-परीक्षण और आत्मविश्वास अंतराल की गणना की जाती है। संकेतकों की यादृच्छिक प्रकृति के बारे में एक परिकल्पना एच सामने रखी गई है, अर्थात। शून्य से उनके महत्वहीन अंतर के बारे में। छात्र के टी-टेस्ट का उपयोग करके प्रतिगमन और सहसंबंध गुणांक के महत्व का आकलन उनके मूल्यों की तुलना यादृच्छिक त्रुटि के परिमाण के साथ किया जाता है:
; ; .
रैखिक प्रतिगमन मापदंडों और सहसंबंध गुणांक की यादृच्छिक त्रुटियां सूत्रों द्वारा निर्धारित की जाती हैं:



टी-सांख्यिकी के वास्तविक और महत्वपूर्ण (सारणीबद्ध) मूल्यों की तुलना - टी टेबल और टी तथ्य - हम परिकल्पना एच ओ को स्वीकार या अस्वीकार करते हैं।
फिशर के एफ-परीक्षण और छात्र के टी-सांख्यिकी के बीच संबंध समानता द्वारा व्यक्त किया जाता है

अगर टी टेबल< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >टी तथ्य यह है कि परिकल्पना एच के बारे में खारिज नहीं किया गया है और ए, बी या आर xy के गठन की यादृच्छिक प्रकृति को मान्यता दी गई है।
विश्वास अंतराल की गणना करने के लिए, हम प्रत्येक संकेतक के लिए सीमांत त्रुटि D निर्धारित करते हैं:
Δ ए = टी टेबल एम ए, Δ बी = टी टेबल एम बी।
विश्वास अंतराल की गणना के लिए सूत्र इस प्रकार हैं:
γ ए \u003d एΔ ए; γ ए \u003d ए-Δ ए; γ ए = ए + Δए
बी = बीΔ बी; γ बी = बी-Δ बी; γबी =बी+Δबी
यदि शून्य विश्वास अंतराल की सीमाओं के भीतर आता है, अर्थात यदि निचली सीमा नकारात्मक है और ऊपरी सीमा सकारात्मक है, तो अनुमानित पैरामीटर शून्य माना जाता है, क्योंकि यह एक साथ सकारात्मक और नकारात्मक दोनों मूल्यों को नहीं ले सकता है।
पूर्वानुमान मान y p को समाश्रयण समीकरण y x =a+b·x में संगत (पूर्वानुमान) मान x p को प्रतिस्थापित करके निर्धारित किया जाता है। पूर्वानुमान m y x की औसत मानक त्रुटि की गणना की जाती है:
,
कहाँ पे
और पूर्वानुमान का विश्वास अंतराल निर्मित होता है:
y x =y p Δ y p ; y x min=y p -Δ y p ; y x अधिकतम=y p +Δ y p
जहाँ y x =t तालिका ·m y x ।

समाधान उदाहरण

टास्क नंबर 1. यूराल क्षेत्र के सात क्षेत्रों के लिए 199X के लिए, दो संकेतों के मूल्य ज्ञात हैं।
तालिका एक।

आवश्यक: 1. x पर y की निर्भरता को चिह्नित करने के लिए, निम्नलिखित कार्यों के मापदंडों की गणना करें:
ए) रैखिक;
बी) शक्ति कानून (पहले दोनों भागों के लघुगणक को लेकर चर के रैखिककरण की प्रक्रिया को निष्पादित करना आवश्यक है);
ग) प्रदर्शनकारी;
d) समबाहु अतिपरवलय (आपको यह भी पता लगाना होगा कि इस मॉडल को पूर्व-रैखिक कैसे बनाया जाए)।
2. औसत सन्निकटन त्रुटि ए और फिशर के एफ-परीक्षण के माध्यम से प्रत्येक मॉडल का मूल्यांकन करें।

समाधान (विकल्प # 1)

रैखिक प्रतिगमन y=a+b·x के पैरामीटर a और b की गणना करने के लिए (कैलकुलेटर का उपयोग करके गणना की जा सकती है)।
के संबंध में सामान्य समीकरणों की प्रणाली को हल करें एकतथा बी:
प्रारंभिक डेटा के आधार पर, हम y, ∑x, y x, ∑x², y² की गणना करते हैं:
आप एक्स वाईएक्स x2 y2 वाई एक्सवाई-वाई एक्स
मैं68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
कुल405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
बुध मूल्य (कुल/एन)57,89
आप
54,90
एक्स
3166,05
एक्स वाई
3048,34
3383,68
आप
एक्सएक्स8,1
एस 5,74 5,86 एक्सएक्सएक्सएक्सएक्सएक्स
एस 232,92 34,34 एक्सएक्सएक्सएक्सएक्सएक्स


a=y -b x = 57.89+0.35 54.9 ≈ 76.88

प्रतिगमन समीकरण: वाई = 76,88 - 0,35एक्स।औसत दैनिक वेतन में 1 रगड़ की वृद्धि के साथ। खाद्य उत्पादों की खरीद पर खर्च का हिस्सा औसतन 0.35% अंक कम हो जाता है।
जोड़ी सहसंबंध के रैखिक गुणांक की गणना करें:

संचार मध्यम, उल्टा है।
आइए निर्धारण का गुणांक निर्धारित करें: r² xy =(-0.35)=0.127
परिणाम में 12.7% भिन्नता को x कारक में भिन्नता द्वारा समझाया गया है। वास्तविक मूल्यों को प्रतिगमन समीकरण में प्रतिस्थापित करना एक्स, हम y x के सैद्धांतिक (गणना) मान निर्धारित करते हैं। आइए हम औसत सन्निकटन त्रुटि A का मान ज्ञात करें:

औसतन, परिकलित मान वास्तविक मान से 8.1% विचलित होते हैं।
आइए एफ-मानदंड की गणना करें:

प्राप्त मूल्य प्रकट निर्भरता की यादृच्छिक प्रकृति और समीकरण के मापदंडों के सांख्यिकीय महत्व और कनेक्शन की निकटता के संकेतक के बारे में परिकल्पना एच 0 को स्वीकार करने की आवश्यकता को इंगित करता है।
1बी.शक्ति मॉडल y=a x b का निर्माण चरों के रैखिककरण की प्रक्रिया से पहले किया जाता है। उदाहरण में, समीकरण के दोनों पक्षों का लघुगणक लेकर रैखिककरण किया जाता है:
एलजी वाई = एलजी ए + बी एलजी एक्स
वाई=सी+बी वाई
जहां वाई = एलजी (वाई), एक्स = एलजी (एक्स), सी = एलजी (ए)।

गणना के लिए, हम तालिका में डेटा का उपयोग करते हैं। 1.3.
तालिका 1.3

यूएक्स वाईएक्स Y2 x2 वाई एक्सवाई-वाई एक्स(वाई-वाईएक्स)²
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
कुल12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
अर्थ1,7605 1,7370 3,0572 3,1011 3,0194 एक्सएक्स28,27 8,0
σ 0,0425 0,0484 एक्सएक्सएक्सएक्सएक्सएक्सएक्स
20,0018 0,0023 एक्सएक्सएक्सएक्सएक्सएक्सएक्स

सी और बी की गणना करें:

सी = वाई-बी एक्स = 1.7605+0.298 1.7370 = 2.278126
हमें एक रैखिक समीकरण मिलता है: Y=2.278-0.298 X
इसे प्रबल करने के बाद, हम प्राप्त करते हैं: y=10 2.278 x -0.298
इस समीकरण में वास्तविक मान रखने पर एक्स,हम परिणाम के सैद्धांतिक मूल्य प्राप्त करते हैं। उनके आधार पर, हम संकेतकों की गणना करते हैं: कनेक्शन की जकड़न - सहसंबंध सूचकांक p xy और औसत सन्निकटन त्रुटि A ।

पावर मॉडल की विशेषताओं से संकेत मिलता है कि यह कुछ हद तक बेहतर है रैखिक प्रकार्यसंबंध का वर्णन करता है।

1सी. घातीय वक्र y \u003d a b x के समीकरण का निर्माण समीकरण के दोनों भागों के लघुगणक लेते समय चर को रैखिक करने की प्रक्रिया से पहले होता है:
एलजी वाई = एलजी ए + एक्स एलजी बी
वाई = सी + बी एक्स
गणना के लिए, हम तालिका डेटा का उपयोग करते हैं।

यूएक्स Yx Y2 x2वाई एक्सवाई-वाई एक्स(वाई-वाईएक्स)²
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
कुल12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
बुध जेडएन1,7605 54,9 96,5711 3,1011 3048,34 एक्सएक्स28,68 8,0
σ 0,0425 5,86 एक्सएक्सएक्सएक्सएक्सएक्सएक्स
20,0018 34,339 एक्सएक्सएक्सएक्सएक्सएक्सएक्स

प्रतिगमन पैरामीटर ए और . के मान परकुल राषि का जोड़:

ए = वाई-बी एक्स = 1.7605+0.0023 54.9 = 1.887
एक रैखिक समीकरण प्राप्त होता है: Y=1.887-0.0023x। हम परिणामी समीकरण को प्रबल करते हैं और इसे सामान्य रूप में लिखते हैं:
वाई एक्स =10 1.887 10 -0.0023x = 77.1 0.9947 x
हम सहसंबंध सूचकांक p xy के माध्यम से संबंधों की जकड़न का अनुमान लगाते हैं:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 कुल405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 अर्थ57,9 0,0184 1,0723 0,000345 3383,68 एक्सएक्स27,84 8,1 σ 5,74 0,002145 एक्सएक्सएक्सएक्सएक्सएक्सएक्स 232,9476 0,000005 एक्सएक्स

प्रतिगमन विश्लेषण- मापा डेटा मॉडलिंग और उनके गुणों का अध्ययन करने की एक विधि। डेटा में मानों के जोड़े होते हैं निर्भर चर(प्रतिक्रिया चर) और स्वतंत्र चर(चर समझाते हुए)। प्रतिगमन मॉडल स्वतंत्र चर का एक कार्य है और एक अतिरिक्त यादृच्छिक चर के साथ पैरामीटर है। मॉडल पैरामीटर इस तरह से कॉन्फ़िगर किए गए हैं कि मॉडल सबसे अच्छा तरीकाडेटा का अनुमान लगाता है। सन्निकटन गुणवत्ता मानदंड (ऑब्जेक्टिव फंक्शन) आमतौर पर माध्य वर्ग त्रुटि है: एक तर्क के रूप में स्वतंत्र चर के सभी मूल्यों के लिए मॉडल के मूल्यों और आश्रित चर के बीच अंतर के वर्गों का योग। प्रतिगमन विश्लेषण गणितीय सांख्यिकी और मशीन लर्निंग की एक शाखा है। यह माना जाता है कि आश्रित चर कुछ मॉडल और एक यादृच्छिक चर के मूल्यों का योग है। इस मूल्य के वितरण की प्रकृति के संबंध में, धारणाएँ बनाई जाती हैं, जिन्हें डेटा पीढ़ी की परिकल्पना कहा जाता है। इस परिकल्पना की पुष्टि या खंडन करने के लिए, सांख्यिकीय परीक्षण किए जाते हैं, जिन्हें अवशिष्ट विश्लेषण कहा जाता है। यह मानता है कि स्वतंत्र चर में त्रुटियाँ नहीं हैं। प्रतिगमन विश्लेषण का उपयोग पूर्वानुमान, समय श्रृंखला विश्लेषण, परिकल्पना परीक्षण और डेटा में छिपे हुए संबंधों की खोज के लिए किया जाता है।

प्रतिगमन विश्लेषण की परिभाषा

नमूना एक फ़ंक्शन नहीं हो सकता है, लेकिन एक संबंध हो सकता है। उदाहरण के लिए, प्रतिगमन के निर्माण के लिए डेटा हो सकता है: . ऐसे नमूने में, चर का एक मान चर के कई मानों से मेल खाता है।

रेखीय प्रतिगमन

रैखिक प्रतिगमन मानता है कि फ़ंक्शन मापदंडों पर रैखिक रूप से निर्भर करता है। इस मामले में, मुक्त चर पर एक रैखिक निर्भरता वैकल्पिक है,

मामले में जहां रैखिक प्रतिगमन फ़ंक्शन का रूप है

यहाँ वेक्टर के घटक हैं।

रैखिक प्रतिगमन के मामले में पैरामीटर मान कम से कम वर्ग विधि का उपयोग करके पाए जाते हैं। इस पद्धति का उपयोग एक यादृच्छिक चर के गाऊसी वितरण की धारणा से उचित है।

आश्रित चर के वास्तविक मूल्यों और पुनर्निर्मित चर के बीच के अंतर को कहा जाता है प्रतिगमन अवशेष(अवशिष्ट)। समानार्थक शब्द साहित्य में भी उपयोग किए जाते हैं: बच गयातथा गलतियां. प्राप्त निर्भरता के गुणवत्ता मानदंड के महत्वपूर्ण अनुमानों में से एक अवशिष्ट के वर्गों का योग है:

यहाँ - चुकता त्रुटियों का योग।

अवशिष्टों के प्रसरण की गणना सूत्र द्वारा की जाती है

यहाँ - माध्य वर्ग त्रुटि, माध्य वर्ग त्रुटि।

रेखांकन नीले डॉट्स और ठोस रेखाओं के साथ चिह्नित प्रतिगमन निर्भरता के साथ चिह्नित नमूने दिखाते हैं। भुज मुक्त चर दिखाता है, और कोटि आश्रित चर दिखाता है। सभी तीन निर्भरताएं मापदंडों के संबंध में रैखिक हैं।

अरेखीय प्रतिगमन

नॉनलाइनियर रिग्रेशन मॉडल - मॉडल देखें

जिसे डॉट उत्पाद के रूप में प्रदर्शित नहीं किया जा सकता है

प्रतिगमन मॉडल के पैरामीटर कहां हैं, अंतरिक्ष से एक मुक्त चर है, आश्रित चर है, एक यादृच्छिक चर है, और कुछ दिए गए सेट से एक फ़ंक्शन है।

गैर-रेखीय प्रतिगमन के मामले में पैरामीटर मान ग्रेडिएंट डिसेंट विधियों में से एक का उपयोग करके पाए जाते हैं, उदाहरण के लिए, लेवेनबर्ग-मार्क्वार्ड एल्गोरिथ्म।

शर्तों के बारे में

"रिग्रेशन" शब्द 19वीं शताब्दी के अंत में फ्रांसिस गैल्टन द्वारा गढ़ा गया था। गैल्टन ने पाया कि लंबे या छोटे माता-पिता के बच्चों को आमतौर पर उत्कृष्ट ऊंचाई नहीं मिलती है और इस घटना को "औसत दर्जे का प्रतिगमन" कहा जाता है। सबसे पहले, इस शब्द का प्रयोग विशेष रूप से जैविक अर्थों में किया जाता था। कार्ल पियर्सन के काम के बाद, इस शब्द का इस्तेमाल आंकड़ों में किया जाने लगा।

सांख्यिकीय साहित्य में, प्रतिगमन के बीच एक अंतर किया जाता है जिसमें एक मुक्त चर शामिल होता है और कई मुक्त चर के साथ - एक आयामीतथा बहुआयामीप्रतिगमन। यह माना जाता है कि हम कई मुक्त चर का उपयोग करते हैं, अर्थात मुक्त चर एक सदिश है। विशेष मामलों में, जब मुक्त चर एक अदिश होता है, तो इसे द्वारा दर्शाया जाएगा। अंतर करना रैखिकतथा गैर रेखीयप्रतिगमन। यदि प्रतिगमन मॉडल मापदंडों के कार्यों का एक रैखिक संयोजन नहीं है, तो एक गैर-रेखीय प्रतिगमन की बात करता है। इस मामले में, मॉडल एक निश्चित सेट से कार्यों का एक मनमाना सुपरपोजिशन हो सकता है। गैर-रेखीय मॉडल घातीय, त्रिकोणमितीय और अन्य हैं (उदाहरण के लिए, रेडियल आधार कार्य या रोसेनब्लैट परसेप्ट्रॉन), जो मानते हैं कि पैरामीटर और आश्रित चर के बीच संबंध गैर-रैखिक है।

अंतर करना पैरामीट्रिकतथा गैर-पैरामीट्रिकप्रतिगमन। इन दो प्रकार के प्रतिगमनों के बीच एक स्पष्ट रेखा खींचना कठिन है। वर्तमान में, एक प्रकार के मॉडल को दूसरे से अलग करने के लिए आम तौर पर स्वीकृत मानदंड नहीं है। उदाहरण के लिए, रैखिक मॉडल को पैरामीट्रिक माना जाता है, जबकि ऐसे मॉडल जिनमें मुक्त चर के स्थान पर निर्भर चर का औसत शामिल होता है, उन्हें गैर-पैरामीट्रिक माना जाता है। एक पैरामीट्रिक प्रतिगमन मॉडल का एक उदाहरण: रैखिक भविष्यवक्ता, बहुपरत परसेप्ट्रॉन। मिश्रित प्रतिगमन मॉडल उदाहरण: रेडियल आधार कार्य। गैर-पैरामीट्रिक मॉडल - कुछ चौड़ाई की खिड़की में चलती औसत। सामान्य तौर पर, गैर-पैरामीट्रिक प्रतिगमन पैरामीट्रिक प्रतिगमन से भिन्न होता है जिसमें आश्रित चर मुक्त चर के एक मान पर निर्भर नहीं करता है, लेकिन इस मूल्य के कुछ दिए गए पड़ोस पर निर्भर करता है।

शब्दों के बीच एक अंतर है: "फ़ंक्शन सन्निकटन", "सन्निकटन", "प्रक्षेप", और "प्रतिगमन"। इसमें निम्नलिखित शामिल हैं।

कार्यों का अनुमान।असतत या निरंतर तर्क का एक कार्य दिया जाता है। कुछ पैरामीट्रिक परिवार से एक फ़ंक्शन ढूंढना आवश्यक है, उदाहरण के लिए, किसी दिए गए डिग्री के बीजीय बहुपदों के बीच। फ़ंक्शन पैरामीटर को कम से कम कुछ कार्यक्षमता प्रदान करनी चाहिए, उदाहरण के लिए,

शर्त सन्निकटन"कार्यों के सन्निकटन" शब्द का पर्यायवाची है। के बारे में बात करते समय अधिक सामान्यतः उपयोग किया जाता है दिया गया कार्य, कैसे एक असतत तर्क के एक समारोह के बारे में। यहां ऐसे फलन को खोजना भी आवश्यक है जो दिए गए फलन के सभी बिंदुओं के सबसे निकट से गुजरता है। यह अवधारणा का परिचय देता है बच गयाएक सतत फलन के बिंदुओं और एक असतत तर्क के फलन के संगत बिंदुओं के बीच की दूरी हैं।

प्रक्षेपफ़ंक्शन सन्निकटन समस्या का एक विशेष मामला है, जब यह आवश्यक है कि कुछ बिंदुओं पर, कहा जाता है प्रक्षेप नोड्सफ़ंक्शन के मान और इसे अनुमानित करने वाले फ़ंक्शन मेल खाते हैं। अधिक सामान्य मामले में, डेरिवेटिव के कुछ डेरिवेटिव के मूल्यों पर प्रतिबंध लगाए जाते हैं। अर्थात्, असतत तर्क का एक कार्य दिया गया है। सभी बिंदुओं से गुजरने वाले फ़ंक्शन को ढूंढना आवश्यक है। इस मामले में, आमतौर पर मीट्रिक का उपयोग नहीं किया जाता है, लेकिन वांछित फ़ंक्शन की "चिकनाई" की अवधारणा को अक्सर पेश किया जाता है।

परिणाम

तालिका 8.3क. प्रतिगमन आँकड़े
प्रतिगमन आँकड़े
एकाधिक आर 0,998364
आर स्कवेयर 0,99673
सामान्यीकृत आर-वर्ग 0,996321
मानक त्रुटि 0,42405
टिप्पणियों 10

आइए पहले तालिका 8.3a में प्रस्तुत गणनाओं के ऊपरी भाग को देखें, समाश्रयण सांख्यिकी।

मूल्य आर-वर्ग, जिसे निश्चितता का माप भी कहा जाता है, परिणामी प्रतिगमन रेखा की गुणवत्ता की विशेषता है। यह गुण मूल डेटा और रिग्रेशन मॉडल (परिकलित डेटा) के बीच पत्राचार की डिग्री द्वारा व्यक्त किया जाता है। निश्चितता का माप हमेशा अंतराल के भीतर होता है।

ज्यादातर मामलों में, आर-वर्ग मान इन मानों के बीच होता है, जिन्हें एक्सट्रीम कहा जाता है, अर्थात। शून्य और एक के बीच।

यदि आर-वर्ग का मान एक के करीब है, तो इसका मतलब है कि निर्मित मॉडल संबंधित चरों की लगभग सभी परिवर्तनशीलता की व्याख्या करता है। इसके विपरीत, शून्य के करीब एक आर-वर्ग मान का अर्थ है निर्मित मॉडल की खराब गुणवत्ता।

हमारे उदाहरण में, निश्चितता का माप 0.99673 है, जो मूल डेटा के लिए प्रतिगमन रेखा के बहुत अच्छे फिट होने का संकेत देता है।

एकाधिक आर- गुणांक एकाधिक सहसंबंधआर - स्वतंत्र चर (एक्स) और आश्रित चर (वाई) की निर्भरता की डिग्री व्यक्त करता है।

एकाधिक आर बराबर वर्गमूलनिर्धारण के गुणांक से, यह मान शून्य से एक तक की सीमा में मान लेता है।

एक साधारण रैखिक प्रतिगमन विश्लेषण में, एकाधिक आर पियर्सन सहसंबंध गुणांक के बराबर है। दरअसल, हमारे मामले में मल्टीपल आर पिछले उदाहरण (0.998364) से पियर्सन सहसंबंध गुणांक के बराबर है।

तालिका 8.3ख. प्रतिगमन गुणांक
कठिनाइयाँ मानक त्रुटि टी आंकड़ा
वाई-चौराहा 2,694545455 0,33176878 8,121757129
चर एक्स 1 2,305454545 0,04668634 49,38177965
* गणना का एक छोटा संस्करण दिया गया है

अब तालिका 8.3b में प्रस्तुत गणनाओं के मध्य भाग पर विचार करें। यहाँ, समाश्रयण गुणांक b (2.305454545) और y-अक्ष के अनुदिश ऑफसेट दिए गए हैं, अर्थात्। स्थिरांक (2.694545455)।

गणना के आधार पर, हम प्रतिगमन समीकरण इस प्रकार लिख सकते हैं:

वाई= एक्स*2.305454545+2.694545455

चर के बीच संबंध की दिशा संकेतों (नकारात्मक या सकारात्मक) के आधार पर निर्धारित की जाती है प्रतिगमन गुणांक(गुणांक बी)।

अगर साइन at प्रतिगमन गुणांक- सकारात्मक, आश्रित चर का स्वतंत्र के साथ संबंध सकारात्मक होगा। हमारे मामले में, प्रतिगमन गुणांक का संकेत सकारात्मक है, इसलिए संबंध भी सकारात्मक है।

अगर साइन at प्रतिगमन गुणांक- ऋणात्मक, आश्रित चर और स्वतंत्र चर के बीच संबंध ऋणात्मक (उलटा) है।

तालिका 8.3 सी में। अवशेषों के उत्पादन के परिणाम प्रस्तुत किए जाते हैं। इन परिणामों को रिपोर्ट में प्रदर्शित करने के लिए, "रिग्रेशन" टूल लॉन्च करते समय "अवशिष्ट" चेकबॉक्स को सक्रिय करना आवश्यक है।

शेष आहरण

तालिका 8.3ग. खंडहर
अवलोकन भविष्यवाणी Y खंडहर मानक शेष
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

रिपोर्ट के इस भाग का उपयोग करके, हम निर्मित प्रतिगमन रेखा से प्रत्येक बिंदु के विचलन को देख सकते हैं। सबसे बड़ा निरपेक्ष मूल्य

प्रतिगमन और सहसंबंध विश्लेषण - सांख्यिकीय अनुसंधान विधियां। ये एक या अधिक स्वतंत्र चरों पर किसी पैरामीटर की निर्भरता को दर्शाने के सबसे सामान्य तरीके हैं।

नीचे विशिष्ट पर व्यावहारिक उदाहरणआइए अर्थशास्त्रियों के बीच इन दो बहुत लोकप्रिय विश्लेषणों पर विचार करें। हम परिणाम प्राप्त करने का एक उदाहरण भी देंगे जब वे संयुक्त हों।

एक्सेल में रिग्रेशन विश्लेषण

आश्रित चर पर कुछ मूल्यों (स्वतंत्र, स्वतंत्र) के प्रभाव को दर्शाता है। उदाहरण के लिए, आर्थिक रूप से सक्रिय आबादी की संख्या उद्यमों की संख्या, मजदूरी और अन्य मापदंडों पर कैसे निर्भर करती है। या: विदेशी निवेश, ऊर्जा की कीमतें आदि जीडीपी के स्तर को कैसे प्रभावित करते हैं।

विश्लेषण का परिणाम आपको प्राथमिकता देने की अनुमति देता है। और मुख्य कारकों के आधार पर, भविष्यवाणी करना, प्राथमिकता वाले क्षेत्रों के विकास की योजना बनाना, प्रबंधन निर्णय लेना।

प्रतिगमन होता है:

  • रैखिक (y = a + bx);
  • परवलयिक (y = a + bx + cx 2);
  • घातांक (y = a * क्स्प (बीएक्स));
  • शक्ति (y = a*x^b);
  • अतिशयोक्तिपूर्ण (y = b/x + a);
  • लघुगणक (y = b * 1n(x) + a);
  • घातांक (y = a * b^x)।

एक्सेल में रिग्रेशन मॉडल बनाने और परिणामों की व्याख्या करने के उदाहरण पर विचार करें। चलो ले लो रैखिक प्रकारप्रतिगमन।

एक कार्य। 6 उद्यमों में, औसत मासिक वेतन और छोड़ने वाले कर्मचारियों की संख्या का विश्लेषण किया गया। औसत वेतन पर सेवानिवृत्त कर्मचारियों की संख्या की निर्भरता का निर्धारण करना आवश्यक है।

रैखिक प्रतिगमन मॉडल का निम्न रूप है:

वाई \u003d ए 0 + ए 1 एक्स 1 + ... + ए के एक्स के।

जहाँ a प्रतिगमन गुणांक हैं, x प्रभावित करने वाले चर हैं, और k कारकों की संख्या है।

हमारे उदाहरण में, Y छोड़े गए श्रमिकों का सूचक है। प्रभावित करने वाला कारक मजदूरी (x) है।

एक्सेल में अंतर्निहित कार्य हैं जिनका उपयोग रैखिक प्रतिगमन मॉडल के मापदंडों की गणना के लिए किया जा सकता है। लेकिन विश्लेषण टूलपैक ऐड-इन इसे तेजी से करेगा।

एक शक्तिशाली विश्लेषणात्मक उपकरण सक्रिय करें:

एक बार सक्रिय होने पर, ऐड-ऑन डेटा टैब के अंतर्गत उपलब्ध होगा।

अब हम सीधे प्रतिगमन विश्लेषण से निपटेंगे।



सबसे पहले, हम आर-वर्ग और गुणांक पर ध्यान देते हैं।

आर-वर्ग निर्धारण का गुणांक है। हमारे उदाहरण में, यह 0.755 या 75.5% है। इसका मतलब यह है कि मॉडल के परिकलित पैरामीटर अध्ययन किए गए मापदंडों के बीच संबंध को 75.5% तक समझाते हैं। निर्धारण का गुणांक जितना अधिक होगा, बेहतर मॉडल. अच्छा - 0.8 से ऊपर। खराब - 0.5 से कम (इस तरह के विश्लेषण को शायद ही उचित माना जा सकता है)। हमारे उदाहरण में - "बुरा नहीं"।

गुणांक 64.1428 दर्शाता है कि यदि विचाराधीन मॉडल में सभी चर 0 के बराबर हैं, तो Y क्या होगा। अर्थात्, अन्य कारक जो मॉडल में वर्णित नहीं हैं, वे भी विश्लेषण किए गए पैरामीटर के मूल्य को प्रभावित करते हैं।

गुणांक -0.16285, Y पर चर X के वजन को दर्शाता है। यानी, इस मॉडल के भीतर औसत मासिक वेतन -0.16285 के वजन के साथ छोड़ने वालों की संख्या को प्रभावित करता है (यह प्रभाव की एक छोटी डिग्री है)। "-" संकेत एक नकारात्मक प्रभाव को इंगित करता है: वेतन जितना अधिक होगा, उतना ही कम छोड़ दिया जाएगा। जो न्यायसंगत है।



एक्सेल में सहसंबंध विश्लेषण

सहसंबंध विश्लेषण यह स्थापित करने में मदद करता है कि एक या दो नमूनों में संकेतकों के बीच संबंध है या नहीं। उदाहरण के लिए, मशीन के संचालन समय और मरम्मत की लागत, उपकरण की कीमत और संचालन की अवधि, बच्चों की ऊंचाई और वजन आदि के बीच।

यदि कोई संबंध है, तो क्या एक पैरामीटर में वृद्धि से वृद्धि (सकारात्मक सहसंबंध) या दूसरे में कमी (नकारात्मक) होती है। सहसंबंध विश्लेषण विश्लेषक को यह निर्धारित करने में मदद करता है कि क्या एक संकेतक का मूल्य दूसरे के संभावित मूल्य की भविष्यवाणी कर सकता है।

सहसंबंध गुणांक को r दर्शाया गया है। +1 से -1 तक भिन्न होता है। के लिए सहसंबंधों का वर्गीकरण विभिन्न क्षेत्रोंअलग होगा। जब गुणांक मान 0 होता है, तो नमूनों के बीच कोई रैखिक संबंध नहीं होता है।

सहसंबंध गुणांक खोजने के लिए एक्सेल का उपयोग करने पर विचार करें।

CORREL फ़ंक्शन का उपयोग युग्मित गुणांकों को खोजने के लिए किया जाता है।

कार्य: निर्धारित करें कि क्या खराद के संचालन समय और उसके रखरखाव की लागत के बीच कोई संबंध है।

किसी भी सेल में कर्सर रखें और fx बटन दबाएं।

  1. "सांख्यिकीय" श्रेणी में, CORREL फ़ंक्शन का चयन करें।
  2. तर्क "ऐरे 1" - मानों की पहली श्रेणी - मशीन का समय: A2: A14।
  3. तर्क "ऐरे 2" - मूल्यों की दूसरी श्रेणी - मरम्मत की लागत: बी 2: बी 14। ओके पर क्लिक करें।

कनेक्शन के प्रकार को निर्धारित करने के लिए, आपको गुणांक की निरपेक्ष संख्या (गतिविधि के प्रत्येक क्षेत्र का अपना पैमाना) देखने की जरूरत है।

के लिये सहसंबंध विश्लेषणकई पैरामीटर (2 से अधिक), "डेटा विश्लेषण" (ऐड-ऑन "विश्लेषण पैकेज") का उपयोग करना अधिक सुविधाजनक है। सूची में, आपको एक सहसंबंध का चयन करने और एक सरणी नामित करने की आवश्यकता है। सभी।

परिणामी गुणांक सहसंबंध मैट्रिक्स में प्रदर्शित किए जाएंगे। इस तरह:

सहसंबंध-प्रतिगमन विश्लेषण

व्यवहार में, इन दोनों तकनीकों का अक्सर एक साथ उपयोग किया जाता है।

उदाहरण:


अब प्रतिगमन विश्लेषण डेटा दिखाई दे रहा है।

सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण एक अध्ययन है जिसका उपयोग चर के बीच संबंधों का मूल्यांकन करने के लिए किया जाता है। जब एक आश्रित चर और एक या अधिक स्वतंत्र चर के बीच संबंध पर ध्यान केंद्रित किया जाता है, तो इस गणितीय पद्धति में कई चरों के मॉडलिंग और विश्लेषण के लिए कई अन्य विधियां शामिल हैं। अधिक विशेष रूप से, प्रतिगमन विश्लेषण आपको यह समझने में मदद करता है कि निर्भर चर का विशिष्ट मूल्य कैसे बदलता है यदि एक स्वतंत्र चर बदलता है जबकि अन्य स्वतंत्र चर स्थिर रहते हैं।

सभी मामलों में, लक्ष्य स्कोर स्वतंत्र चर का एक कार्य है और इसे प्रतिगमन फ़ंक्शन कहा जाता है। प्रतिगमन विश्लेषण में, आश्रित चर में परिवर्तन को प्रतिगमन के एक कार्य के रूप में चिह्नित करना भी रुचि का है, जिसे संभाव्यता वितरण का उपयोग करके वर्णित किया जा सकता है।

प्रतिगमन विश्लेषण के कार्य

सांख्यिकीय विधिपूर्वानुमान के लिए अनुसंधान का व्यापक रूप से उपयोग किया जाता है, जहां इसके उपयोग का एक महत्वपूर्ण लाभ होता है, लेकिन कभी-कभी यह एक भ्रम या झूठे संबंध का कारण बन सकता है, इसलिए इस प्रश्न में इसे सावधानी से उपयोग करने की अनुशंसा की जाती है, उदाहरण के लिए, सहसंबंध का मतलब कार्य-कारण नहीं है .

विकसित बड़ी संख्याप्रतिगमन विश्लेषण करने के लिए तरीके, जैसे रैखिक और साधारण न्यूनतम वर्ग प्रतिगमन, जो पैरामीट्रिक हैं। उनका सार यह है कि प्रतिगमन फ़ंक्शन को डेटा से अनुमानित अज्ञात मापदंडों की एक सीमित संख्या के रूप में परिभाषित किया गया है। गैर-पैरामीट्रिक प्रतिगमन अपने कार्य को कार्यों के एक निश्चित सेट में झूठ बोलने की अनुमति देता है, जो अनंत-आयामी हो सकता है।

एक सांख्यिकीय अनुसंधान पद्धति के रूप में, व्यवहार में प्रतिगमन विश्लेषण डेटा निर्माण प्रक्रिया के रूप पर निर्भर करता है और यह प्रतिगमन दृष्टिकोण से कैसे संबंधित है। चूंकि डेटा प्रक्रिया उत्पन्न करने का सही रूप आम तौर पर एक अज्ञात संख्या है, डेटा प्रतिगमन विश्लेषण अक्सर प्रक्रिया के बारे में मान्यताओं पर कुछ हद तक निर्भर करता है। पर्याप्त डेटा उपलब्ध होने पर ये धारणाएं कभी-कभी परीक्षण योग्य होती हैं। प्रतिगमन मॉडल अक्सर तब भी उपयोगी होते हैं जब धारणाओं का मामूली उल्लंघन होता है, हालांकि वे अपना सर्वश्रेष्ठ प्रदर्शन नहीं कर सकते हैं।

एक संकीर्ण अर्थ में, प्रतिगमन विशेष रूप से निरंतर प्रतिक्रिया चर के आकलन को संदर्भित कर सकता है, जैसा कि वर्गीकरण में उपयोग किए जाने वाले असतत प्रतिक्रिया चर के विपरीत है। निरंतर आउटपुट चर के मामले को संबंधित समस्याओं से अलग करने के लिए मीट्रिक प्रतिगमन भी कहा जाता है।

कहानी

प्रतिगमन का सबसे प्रारंभिक रूप कम से कम वर्गों की प्रसिद्ध विधि है। यह 1805 में लीजेंड्रे द्वारा और 1809 में गॉस द्वारा प्रकाशित किया गया था। लेजेंडर और गॉस ने खगोलीय टिप्पणियों से सूर्य के चारों ओर पिंडों की कक्षाओं (मुख्य रूप से धूमकेतु, लेकिन बाद में नए खोजे गए छोटे ग्रहों) को निर्धारित करने की समस्या के लिए विधि लागू की। गॉस प्रकाशित आगामी विकाश 1821 में कम से कम वर्गों का सिद्धांत, जिसमें गॉस-मार्कोव प्रमेय का एक प्रकार भी शामिल है।

शब्द "प्रतिगमन" का वर्णन करने के लिए 19 वीं शताब्दी में फ्रांसिस गैल्टन द्वारा गढ़ा गया था जैविक घटना. लब्बोलुआब यह था कि पूर्वजों की वृद्धि से वंशजों की वृद्धि, एक नियम के रूप में, सामान्य औसत से कम हो जाती है। गैल्टन के लिए, प्रतिगमन का केवल यही जैविक अर्थ था, लेकिन बाद में उनके काम को उडनी योली और कार्ल पियर्सन ने लिया और एक अधिक सामान्य सांख्यिकीय संदर्भ में ले जाया गया। यूल और पियर्सन के काम में, प्रतिक्रिया और व्याख्यात्मक चर के संयुक्त वितरण को गाऊसी माना जाता है। फिशर ने 1922 और 1925 के पत्रों में इस धारणा को खारिज कर दिया था। फिशर ने सुझाव दिया कि प्रतिक्रिया चर का सशर्त वितरण गाऊसी है, लेकिन संयुक्त वितरण की आवश्यकता नहीं है। इस संबंध में फिशर का सुझाव गॉस के 1821 के सूत्रीकरण के करीब है। 1970 से पहले, प्रतिगमन विश्लेषण का परिणाम प्राप्त करने में कभी-कभी 24 घंटे तक लग जाते थे।

प्रतिगमन विश्लेषण विधियां सक्रिय अनुसंधान का एक क्षेत्र बनी हुई हैं। हाल के दशकों में, मजबूत प्रतिगमन के लिए नए तरीके विकसित किए गए हैं; सहसंबद्ध प्रतिक्रियाओं से जुड़े प्रतिगमन; समाश्रयण विधियाँ अलग - अलग प्रकारलापता आँकड़े; गैर-पैरामीट्रिक प्रतिगमन; बायेसियन प्रतिगमन के तरीके; प्रतिगमन जिसमें भविष्यवक्ता चर को त्रुटि से मापा जाता है; अवलोकनों की तुलना में अधिक भविष्यवक्ताओं के साथ प्रतिगमन; और प्रतिगमन के साथ कारण निष्कर्ष।

प्रतिगमन मॉडल

प्रतिगमन विश्लेषण मॉडल में निम्नलिखित चर शामिल हैं:

  • अज्ञात पैरामीटर, जिन्हें बीटा के रूप में दर्शाया जाता है, जो एक अदिश या एक सदिश हो सकता है।
  • स्वतंत्र चर, एक्स।
  • आश्रित चर, वाई।

विज्ञान के विभिन्न क्षेत्रों में जहां प्रतिगमन विश्लेषण लागू किया जाता है, आश्रित और स्वतंत्र चर के बजाय अलग-अलग शब्दों का उपयोग किया जाता है, लेकिन सभी मामलों में प्रतिगमन मॉडल वाई को एक्स और β के एक समारोह से संबंधित करता है।

सन्निकटन आमतौर पर ई (वाई | एक्स) = एफ (एक्स, β) के रूप में तैयार किया जाता है। प्रतिगमन विश्लेषण करने के लिए, फ़ंक्शन f का रूप निर्धारित किया जाना चाहिए। अधिक दुर्लभ रूप से, यह वाई और एक्स के बीच संबंधों के बारे में ज्ञान पर आधारित है जो डेटा पर निर्भर नहीं करता है। यदि ऐसा ज्ञान उपलब्ध नहीं है, तो एक लचीला या सुविधाजनक रूप F चुना जाता है।

आश्रित चर Y

आइए अब मान लें कि अज्ञात पैरामीटर β के वेक्टर की लंबाई k है। प्रतिगमन विश्लेषण करने के लिए, उपयोगकर्ता को आश्रित चर Y के बारे में जानकारी प्रदान करनी होगी:

  • यदि फॉर्म के एन डेटा बिंदु (वाई, एक्स) देखे जाते हैं, जहां एन< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • यदि वास्तव में N = K देखा जाता है, और फलन F रैखिक है, तो समीकरण Y = F(X, β) को ठीक-ठीक हल किया जा सकता है, लगभग नहीं। यह एन-अज्ञात (β के तत्व) के साथ एन-समीकरणों के एक सेट को हल करने के लिए उबलता है जिसका एक अनूठा समाधान है जब तक कि एक्स रैखिक रूप से स्वतंत्र है। यदि F गैर-रैखिक है, तो समाधान मौजूद नहीं हो सकता है, या कई समाधान हो सकते हैं।
  • सबसे सामान्य स्थिति वह है जहां डेटा के लिए N > अंक होते हैं। इस मामले में, डेटा में β के लिए अद्वितीय मान का अनुमान लगाने के लिए पर्याप्त जानकारी है जो डेटा को सर्वोत्तम रूप से फिट करती है, और डेटा पर लागू होने पर प्रतिगमन मॉडल को β में ओवरराइड सिस्टम के रूप में देखा जा सकता है।

बाद के मामले में, प्रतिगमन विश्लेषण के लिए उपकरण प्रदान करता है:

  • अज्ञात पैरामीटर β के लिए एक समाधान खोजना, उदाहरण के लिए, वाई के मापा और अनुमानित मूल्य के बीच की दूरी को कम कर देगा।
  • कुछ सांख्यिकीय मान्यताओं के तहत, प्रतिगमन विश्लेषण अज्ञात मापदंडों β और आश्रित चर Y के अनुमानित मूल्यों के बारे में सांख्यिकीय जानकारी प्रदान करने के लिए अतिरिक्त जानकारी का उपयोग करता है।

स्वतंत्र माप की आवश्यक संख्या

एक प्रतिगमन मॉडल पर विचार करें जिसमें तीन अज्ञात पैरामीटर हैं: β 0 , β 1 और β 2 । आइए मान लें कि प्रयोगकर्ता वेक्टर एक्स के स्वतंत्र चर के समान मान में 10 माप करता है। इस मामले में, प्रतिगमन विश्लेषण मूल्यों का एक अनूठा सेट नहीं देता है। सबसे अच्छा आप यह कर सकते हैं कि आश्रित चर Y के माध्य और मानक विचलन का अनुमान लगाया जाए। इसी तरह, X के दो अलग-अलग मानों को मापकर, आप दो अज्ञात के साथ प्रतिगमन के लिए पर्याप्त डेटा प्राप्त कर सकते हैं, लेकिन तीन या अधिक अज्ञात के लिए नहीं। .

यदि प्रयोगकर्ता के माप स्वतंत्र वेक्टर चर X के तीन अलग-अलग मानों पर लिए गए थे, तो प्रतिगमन विश्लेषण β में तीन अज्ञात मापदंडों के लिए अनुमानों का एक अनूठा सेट प्रदान करेगा।

सामान्य रैखिक प्रतिगमन के मामले में, उपरोक्त कथन आवश्यकता के बराबर है कि मैट्रिक्स एक्स टी एक्स उलटा है।

सांख्यिकीय अनुमान

जब माप की संख्या एन अज्ञात मापदंडों की संख्या से अधिक होती है k और माप त्रुटियां ε i , तब, एक नियम के रूप में, माप में निहित अतिरिक्त जानकारी वितरित की जाती है और अज्ञात मापदंडों के संबंध में सांख्यिकीय भविष्यवाणियों के लिए उपयोग की जाती है। जानकारी की इस अधिकता को प्रतिगमन की स्वतंत्रता की डिग्री कहा जाता है।

निहित पूर्वधारणायें

प्रतिगमन विश्लेषण के लिए क्लासिक मान्यताओं में शामिल हैं:

  • नमूनाकरण अनुमान भविष्यवाणी का प्रतिनिधि है।
  • त्रुटि है अनियमित चरशून्य के माध्य के साथ, जो व्याख्यात्मक चर पर सशर्त है।
  • स्वतंत्र चर को त्रुटियों के बिना मापा जाता है।
  • स्वतंत्र चर (भविष्यवाचक) के रूप में, वे रैखिक रूप से स्वतंत्र हैं, अर्थात किसी भी भविष्यवक्ता को दूसरों के रैखिक संयोजन के रूप में व्यक्त करना संभव नहीं है।
  • त्रुटियां असंबद्ध हैं, अर्थात, विकर्णों का त्रुटि सहप्रसरण मैट्रिक्स और प्रत्येक गैर-शून्य तत्व त्रुटि का प्रसरण है।
  • प्रेक्षणों में त्रुटि विचरण स्थिर होता है (होमोसेडैस्टिसिटी)। यदि नहीं, तो भारित न्यूनतम वर्ग या अन्य विधियों का उपयोग किया जा सकता है।

कम से कम वर्ग अनुमान के लिए इन पर्याप्त स्थितियों में आवश्यक गुण हैं, विशेष रूप से इन मान्यताओं का मतलब है कि पैरामीटर अनुमान उद्देश्यपूर्ण, सुसंगत और कुशल होंगे, खासकर जब रैखिक अनुमानों के वर्ग में ध्यान में रखा जाता है। यह ध्यान रखना महत्वपूर्ण है कि वास्तविक डेटा शायद ही कभी शर्तों को पूरा करता है। अर्थात् अनुमान सही न होने पर भी विधि का प्रयोग किया जाता है। अनुमानों से भिन्नता का उपयोग कभी-कभी यह मापने के लिए किया जा सकता है कि मॉडल कितना उपयोगी है। इनमें से कई धारणाओं को अधिक उन्नत तरीकों से शिथिल किया जा सकता है। रिपोर्टों सांख्यिकीय विश्लेषणआम तौर पर मॉडल की उपयोगिता के लिए नमूना डेटा और कार्यप्रणाली के खिलाफ परीक्षणों का विश्लेषण शामिल है।

इसके अलावा, कुछ मामलों में चर बिंदु स्थानों पर मापे गए मानों को संदर्भित करते हैं। सांख्यिकीय मान्यताओं का उल्लंघन करने वाले चरों में स्थानिक रुझान और स्थानिक स्वसंबंध हो सकते हैं। भौगोलिक भारित प्रतिगमन ही एकमात्र तरीका है जो इस तरह के डेटा से संबंधित है।

रैखिक प्रतिगमन में, विशेषता यह है कि आश्रित चर, जो कि Y i है, मापदंडों का एक रैखिक संयोजन है। उदाहरण के लिए, सरल रैखिक प्रतिगमन में, n-बिंदु मॉडलिंग एक स्वतंत्र चर, x i और दो पैरामीटर, β 0 और β 1 का उपयोग करता है।

बहु रेखीय प्रतिगमन में, कई स्वतंत्र चर या उनके कार्य होते हैं।

जब किसी आबादी से बेतरतीब ढंग से नमूना लिया जाता है, तो इसके पैरामीटर एक रैखिक प्रतिगमन मॉडल का एक नमूना प्राप्त करना संभव बनाते हैं।

इस पहलू में, कम से कम वर्ग विधि सबसे लोकप्रिय है। यह पैरामीटर अनुमान प्रदान करता है जो अवशिष्ट के वर्गों के योग को कम करता है। इस प्रकार के न्यूनीकरण (जो रैखिक प्रतिगमन के लिए विशिष्ट है) सामान्य समीकरणों के एक सेट और मापदंडों के साथ रैखिक समीकरणों के एक सेट की ओर जाता है, जिसे पैरामीटर अनुमान प्राप्त करने के लिए हल किया जाता है।

आगे यह मानते हुए कि जनसंख्या त्रुटि आम तौर पर फैलती है, शोधकर्ता मानक त्रुटियों के इन अनुमानों का उपयोग आत्मविश्वास अंतराल बनाने और इसके मापदंडों के बारे में परिकल्पना परीक्षण करने के लिए कर सकता है।

नॉनलाइनियर रिग्रेशन एनालिसिस

एक उदाहरण जहां फ़ंक्शन मापदंडों के संबंध में रैखिक नहीं है, यह दर्शाता है कि वर्गों के योग को एक पुनरावृत्त प्रक्रिया के साथ कम से कम किया जाना चाहिए। यह कई जटिलताओं का परिचय देता है जो रैखिक और गैर-रैखिक कम से कम वर्ग विधियों के बीच अंतर को परिभाषित करते हैं। नतीजतन, गैर-रैखिक पद्धति का उपयोग करते समय प्रतिगमन विश्लेषण के परिणाम कभी-कभी अप्रत्याशित होते हैं।

शक्ति और नमूना आकार की गणना

यहां, एक नियम के रूप में, मॉडल में स्वतंत्र चर की संख्या की तुलना में टिप्पणियों की संख्या के संबंध में कोई सुसंगत विधियाँ नहीं हैं। पहला नियम डोबरा और हार्डिन द्वारा प्रस्तावित किया गया था और एन = टी ^ एन जैसा दिखता है, जहां एन नमूना आकार है, एन व्याख्यात्मक चर की संख्या है, और टी वांछित सटीकता प्राप्त करने के लिए आवश्यक अवलोकनों की संख्या है यदि मॉडल था केवल एक व्याख्यात्मक चर। उदाहरण के लिए, एक शोधकर्ता एक डेटासेट का उपयोग करके एक रैखिक प्रतिगमन मॉडल बनाता है जिसमें 1000 रोगी (एन) होते हैं। यदि शोधकर्ता यह निर्णय लेता है कि रेखा (एम) को सटीक रूप से निर्धारित करने के लिए पांच अवलोकनों की आवश्यकता है, तो मॉडल द्वारा समर्थित व्याख्यात्मक चर की अधिकतम संख्या 4 है।

अन्य तरीके

यद्यपि एक प्रतिगमन मॉडल के मापदंडों का अनुमान आमतौर पर कम से कम वर्ग विधि का उपयोग करके लगाया जाता है, फिर भी ऐसी अन्य विधियाँ हैं जिनका उपयोग बहुत कम बार किया जाता है। उदाहरण के लिए, ये निम्नलिखित विधियाँ हैं:

  • बायेसियन विधियाँ (उदाहरण के लिए, रैखिक प्रतिगमन की बायेसियन विधि)।
  • उन स्थितियों के लिए उपयोग किया जाने वाला प्रतिशत प्रतिगमन जहां प्रतिशत त्रुटियों को कम करना अधिक उपयुक्त माना जाता है।
  • सबसे छोटा निरपेक्ष विचलन, जो आउटलेर्स की उपस्थिति में अधिक मजबूत होता है, जो क्वांटाइल रिग्रेशन की ओर ले जाता है।
  • गैर-पैरामीट्रिक प्रतिगमन के लिए बड़ी संख्या में टिप्पणियों और गणनाओं की आवश्यकता होती है।
  • दिए गए इनपुट स्पेस में एक सार्थक दूरी मीट्रिक की खोज में सीखी गई सीखने की मीट्रिक की दूरी।

सॉफ़्टवेयर

सभी प्रमुख सांख्यिकीय सॉफ्टवेयर पैकेज कम से कम वर्ग प्रतिगमन विश्लेषण का उपयोग करके किए जाते हैं। कुछ स्प्रेडशीट अनुप्रयोगों के साथ-साथ कुछ कैलकुलेटर में सरल रैखिक प्रतिगमन और एकाधिक प्रतिगमन विश्लेषण का उपयोग किया जा सकता है। जबकि कई सांख्यिकीय सॉफ्टवेयर पैकेज विभिन्न प्रकार के गैर-पैरामीट्रिक और मजबूत प्रतिगमन कर सकते हैं, ये विधियां कम मानकीकृत हैं; विभिन्न सॉफ्टवेयर पैकेज विभिन्न तरीकों को लागू करते हैं। विशिष्ट प्रतिगमन सॉफ़्टवेयरसर्वेक्षण विश्लेषण और न्यूरोइमेजिंग जैसे क्षेत्रों में उपयोग के लिए विकसित किया गया था।