सरल प्रतिगमन विश्लेषण। प्रतिगमन विश्लेषण चर पर एक यादृच्छिक चर की निर्भरता का अध्ययन करने के लिए एक सांख्यिकीय पद्धति है। विश्लेषण परिणाम विश्लेषण

अपने अध्ययन के दौरान, छात्रों को अक्सर कई तरह के समीकरणों का सामना करना पड़ता है। उनमें से एक - प्रतिगमन समीकरण - इस लेख में माना जाता है। इस प्रकार के समीकरण का उपयोग विशेष रूप से गणितीय मापदंडों के बीच संबंधों की विशेषताओं का वर्णन करने के लिए किया जाता है। इस प्रकारसांख्यिकी और अर्थमिति में समानता का उपयोग किया जाता है।

प्रतिगमन की परिभाषा

गणित में, प्रतिगमन को एक निश्चित मात्रा के रूप में समझा जाता है जो किसी अन्य मात्रा के मूल्यों पर सेट किए गए डेटा के औसत मूल्य की निर्भरता का वर्णन करता है। समाश्रयण समीकरण, किसी विशेष विशेषता के फलन के रूप में, किसी अन्य विशेषता के औसत मान को दर्शाता है। प्रतिगमन फ़ंक्शन में एक साधारण समीकरण y \u003d x का रूप होता है, जिसमें y एक आश्रित चर के रूप में कार्य करता है, और x एक स्वतंत्र चर (सुविधा कारक) है। वास्तव में, समाश्रयण को y = f (x) के रूप में व्यक्त किया जाता है।

चरों के बीच संबंध कितने प्रकार के होते हैं

सामान्य तौर पर, दो विपरीत प्रकार के संबंध प्रतिष्ठित होते हैं: सहसंबंध और प्रतिगमन।

पहले सशर्त चर की समानता की विशेषता है। पर ये मामलायह निश्चित रूप से ज्ञात नहीं है कि कौन सा चर दूसरे पर निर्भर करता है।

यदि चरों और शर्तों के बीच कोई समानता नहीं है, तो कहते हैं कि कौन सा चर व्याख्यात्मक है और कौन सा निर्भर है, तो हम दूसरे प्रकार के कनेक्शन की उपस्थिति के बारे में बात कर सकते हैं। एक रेखीय प्रतिगमन समीकरण बनाने के लिए, यह पता लगाना आवश्यक होगा कि किस प्रकार का संबंध देखा जाता है।

प्रतिगमन के प्रकार

आज तक, प्रतिगमन के 7 अलग-अलग प्रकार हैं: अतिपरवलयिक, रैखिक, एकाधिक, अरेखीय, जोड़ीवार, व्युत्क्रम, लघुगणकीय रैखिक।

अतिशयोक्तिपूर्ण, रैखिक और लघुगणक

रेखीय प्रतीपगमन समीकरण का प्रयोग सांख्यिकी में समीकरण के प्राचलों को स्पष्ट रूप से समझाने के लिए किया जाता है। यह y = c + m * x + E जैसा दिखता है। हाइपरबोलिक समीकरण में एक नियमित हाइपरबोला y \u003d c + m / x + E का रूप होता है। लॉगरिदमिक रूप से रैखिक समीकरण लॉगरिदमिक फ़ंक्शन का उपयोग करके संबंध को व्यक्त करता है: y \u003d में c + m * में x + में E।

एकाधिक और गैर-रैखिक

दो अधिक जटिल प्रकारप्रतिगमन एकाधिक और गैर-रैखिक हैं। बहु समाश्रयण समीकरण फ़ंक्शन y \u003d f (x 1, x 2 ... x c) + E द्वारा व्यक्त किया जाता है। इस स्थिति में, y आश्रित चर है और x व्याख्यात्मक चर है। चर ई स्टोकेस्टिक है और समीकरण में अन्य कारकों के प्रभाव को शामिल करता है। गैर-रैखिक प्रतिगमन समीकरण थोड़ा असंगत है। एक ओर, ध्यान में रखे गए संकेतकों के संबंध में, यह रैखिक नहीं है, और दूसरी ओर, संकेतकों के आकलन की भूमिका में, यह रैखिक है।

व्युत्क्रम और जोड़ीदार प्रतिगमन

व्युत्क्रम एक प्रकार का कार्य है जिसे एक रैखिक रूप में परिवर्तित करने की आवश्यकता होती है। सबसे पारंपरिक अनुप्रयोग कार्यक्रमों में, इसका एक फ़ंक्शन y \u003d 1 / c + m * x + E का रूप होता है। जोड़ीवार प्रतिगमन समीकरण डेटा के बीच संबंध को y = f(x) + E के एक फलन के रूप में दर्शाता है। अन्य समीकरणों की तरह, y x पर निर्भर करता है और E एक स्टोकेस्टिक पैरामीटर है।

सहसंबंध की अवधारणा

यह एक संकेतक है जो दो घटनाओं या प्रक्रियाओं के बीच संबंध के अस्तित्व को प्रदर्शित करता है। रिश्ते की ताकत को सहसंबंध गुणांक के रूप में व्यक्त किया जाता है। इसका मान अंतराल [-1;+1] के भीतर उतार-चढ़ाव करता है। एक नकारात्मक संकेतक उपस्थिति को इंगित करता है प्रतिक्रिया, सकारात्मक - एक सीधी रेखा के बारे में। यदि गुणांक 0 के बराबर मान लेता है, तो कोई संबंध नहीं है। मान 1 के जितना करीब होगा, मापदंडों के बीच संबंध उतना ही मजबूत होगा, 0 के करीब, कमजोर।

तरीकों

सहसंबंध पैरामीट्रिक विधियां रिश्ते की मजबूती का अनुमान लगा सकती हैं। उनका उपयोग वितरण अनुमानों के आधार पर उन मानकों का अध्ययन करने के लिए किया जाता है जो सामान्य वितरण कानून का पालन करते हैं।

रैखिक प्रतिगमन समीकरण के पैरामीटर निर्भरता के प्रकार, प्रतिगमन समीकरण के कार्य की पहचान करने और चुने हुए संबंध सूत्र के संकेतकों का मूल्यांकन करने के लिए आवश्यक हैं। संबंध की पहचान के लिए एक विधि के रूप में सहसंबंध क्षेत्र का उपयोग किया जाता है। ऐसा करने के लिए, सभी मौजूदा डेटा को ग्राफिक रूप से दर्शाया जाना चाहिए। एक आयताकार द्वि-आयामी समन्वय प्रणाली में, सभी ज्ञात डेटा को प्लॉट किया जाना चाहिए। इस प्रकार सहसंबंध क्षेत्र बनता है। वर्णन करने वाले कारक का मान भुज के साथ चिह्नित किया जाता है, जबकि आश्रित कारक के मानों को कोटि के साथ चिह्नित किया जाता है। यदि मापदंडों के बीच एक कार्यात्मक संबंध है, तो वे एक पंक्ति के रूप में पंक्तिबद्ध होते हैं।

यदि ऐसे डेटा का सहसंबंध गुणांक 30% से कम है, तो हम कनेक्शन की लगभग पूर्ण अनुपस्थिति के बारे में बात कर सकते हैं। यदि यह 30% और 70% के बीच है, तो यह मध्यम जकड़न के लिंक की उपस्थिति को इंगित करता है। एक 100% संकेतक एक कार्यात्मक कनेक्शन का प्रमाण है।

एक गैर-रेखीय प्रतिगमन समीकरण, एक रैखिक की तरह, एक सहसंबंध सूचकांक (R) के साथ पूरक होना चाहिए।

एकाधिक प्रतिगमन के लिए सहसंबंध

निर्धारण का गुणांक बहु सहसंबंध के वर्ग का सूचक है। वह अध्ययन के तहत विशेषता के साथ संकेतकों के प्रस्तुत सेट के संबंध की जकड़न के बारे में बोलता है। यह परिणाम पर मापदंडों के प्रभाव की प्रकृति के बारे में भी बात कर सकता है। इस सूचक का उपयोग करके बहु प्रतिगमन समीकरण का मूल्यांकन किया जाता है।

बहु सहसंबंध सूचकांक की गणना करने के लिए, इसके सूचकांक की गणना करना आवश्यक है।

कम से कम वर्ग विधि

यह विधि प्रतिगमन कारकों का अनुमान लगाने का एक तरीका है। इसका सार फलन पर कारक की निर्भरता के कारण प्राप्त वर्ग विचलन के योग को कम करने में निहित है।

इस तरह की विधि का उपयोग करके एक युग्मित रैखिक प्रतिगमन समीकरण का अनुमान लगाया जा सकता है। एक युग्मित रैखिक संबंध के संकेतकों के बीच पता लगाने के मामले में इस प्रकार के समीकरणों का उपयोग किया जाता है।

समीकरण विकल्प

रैखिक प्रतिगमन फ़ंक्शन के प्रत्येक पैरामीटर का एक विशिष्ट अर्थ होता है। युग्मित रैखिक प्रतिगमन समीकरण में दो पैरामीटर होते हैं: c और m। पैरामीटर t फ़ंक्शन y के अंतिम संकेतक में औसत परिवर्तन को दर्शाता है, जो चर x में एक की कमी (वृद्धि) के अधीन है। पारंपरिक इकाई. यदि चर x शून्य है, तो फ़ंक्शन पैरामीटर c के बराबर है। यदि चर x शून्य नहीं है, तो कारक c का आर्थिक अर्थ नहीं है। फ़ंक्शन पर एकमात्र प्रभाव कारक c के सामने का चिन्ह है। यदि कोई ऋण है, तो हम कारक की तुलना में परिणाम में धीमे परिवर्तन के बारे में कह सकते हैं। यदि कोई प्लस है, तो यह परिणाम में त्वरित परिवर्तन को इंगित करता है।

प्रतीपगमन समीकरण के मान को बदलने वाले प्रत्येक पैरामीटर को समीकरण के रूप में व्यक्त किया जा सकता है। उदाहरण के लिए, गुणनखंड c का रूप c = y - mx है।

समूहीकृत डेटा

कार्य की ऐसी स्थितियां हैं जिनमें सभी सूचनाओं को विशेषता x के अनुसार समूहीकृत किया जाता है, लेकिन साथ ही, एक निश्चित समूह के लिए, आश्रित संकेतक के संबंधित औसत मूल्यों को इंगित किया जाता है। इस मामले में, औसत मान यह दर्शाते हैं कि संकेतक x पर कैसे निर्भर करता है। इस प्रकार, समूहीकृत जानकारी प्रतिगमन समीकरण को खोजने में मदद करती है। इसका उपयोग संबंध विश्लेषण के रूप में किया जाता है। हालाँकि, इस पद्धति की अपनी कमियां हैं। दुर्भाग्य से, औसत अक्सर बाहरी उतार-चढ़ाव के अधीन होते हैं। ये उतार-चढ़ाव रिश्ते के पैटर्न का प्रतिबिंब नहीं हैं, वे बस इसके "शोर" को छुपाते हैं। औसत एक रैखिक प्रतिगमन समीकरण की तुलना में संबंध के पैटर्न को बहुत खराब दिखाते हैं। हालांकि, उन्हें समीकरण खोजने के लिए आधार के रूप में इस्तेमाल किया जा सकता है। किसी विशेष जनसंख्या के आकार को संबंधित औसत से गुणा करके, आप समूह के भीतर y का योग प्राप्त कर सकते हैं। अगला, आपको सभी प्राप्त राशियों को बाहर निकालने और अंतिम संकेतक y खोजने की आवश्यकता है। योग संकेतक xy के साथ गणना करना थोड़ा अधिक कठिन है। इस घटना में कि अंतराल छोटा है, हम सशर्त रूप से सभी इकाइयों (समूह के भीतर) के लिए संकेतक x समान ले सकते हैं। x और y के गुणनफलों का योग ज्ञात करने के लिए इसे y के योग से गुणा करें। इसके अलावा, सभी रकम को एक साथ खटखटाया जाता है और यह निकलता है कुल राशिहु।

एकाधिक जोड़ी समीकरण प्रतिगमन: एक रिश्ते के महत्व का आकलन

जैसा कि पहले चर्चा की गई थी, एकाधिक प्रतिगमन में y \u003d f (x 1, x 2, ..., x m) + E के रूप का एक कार्य होता है। सबसे अधिक बार, इस तरह के समीकरण का उपयोग किसी उत्पाद की आपूर्ति और मांग की समस्या को हल करने के लिए किया जाता है, पुनर्खरीद शेयरों पर ब्याज आय, उत्पादन लागत फ़ंक्शन के कारणों और प्रकार का अध्ययन करना। यह व्यापक रूप से व्यापक आर्थिक अध्ययनों और गणनाओं में भी सक्रिय रूप से उपयोग किया जाता है, लेकिन सूक्ष्मअर्थशास्त्र के स्तर पर, इस तरह के समीकरण का उपयोग अक्सर कम किया जाता है।

मल्टीपल रिग्रेशन का मुख्य कार्य एक डेटा मॉडल का निर्माण करना है जिसमें बड़ी मात्रा में जानकारी होती है ताकि आगे यह निर्धारित किया जा सके कि प्रत्येक कारक का व्यक्तिगत रूप से और उनकी समग्रता में संकेतक और उसके गुणांक पर क्या प्रभाव पड़ता है। प्रतिगमन समीकरण विभिन्न मूल्यों पर ले सकता है। इस मामले में, संबंध का आकलन करने के लिए आमतौर पर दो प्रकार के कार्यों का उपयोग किया जाता है: रैखिक और अरेखीय।

एक रैखिक कार्य को इस तरह के संबंध के रूप में दर्शाया गया है: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m। इस मामले में, a2, a m को "शुद्ध" प्रतिगमन के गुणांक माना जाता है। वे अन्य संकेतकों के स्थिर मूल्य की स्थिति के साथ, एक इकाई द्वारा प्रत्येक संबंधित पैरामीटर x में परिवर्तन (कमी या वृद्धि) के साथ पैरामीटर y में औसत परिवर्तन को चिह्नित करने के लिए आवश्यक हैं।

गैर-रेखीय समीकरणों में, उदाहरण के लिए, रूप है ऊर्जा समीकरण y=ax 1 b1 x 2 b2 ...x m bm। इस मामले में, संकेतक बी 1, बी 2 ..... बी एम - को लोच गुणांक कहा जाता है, वे प्रदर्शित करते हैं कि संबंधित संकेतक x में 1% की वृद्धि (कमी) के साथ परिणाम कैसे बदलेगा (कितना%) और अन्य कारकों के एक स्थिर संकेतक के साथ।

एकाधिक प्रतिगमन का निर्माण करते समय किन कारकों पर विचार किया जाना चाहिए

एकाधिक प्रतिगमन को सही ढंग से बनाने के लिए, यह पता लगाना आवश्यक है कि किन कारकों पर विशेष ध्यान दिया जाना चाहिए।

आर्थिक कारकों और मॉडल के बीच संबंधों की प्रकृति की कुछ समझ होना आवश्यक है। शामिल किए जाने वाले कारकों को निम्नलिखित मानदंडों को पूरा करना होगा:

मापने योग्य होना चाहिए। किसी वस्तु की गुणवत्ता का वर्णन करने वाले कारक का उपयोग करने के लिए, किसी भी मामले में, इसे मात्रात्मक रूप दिया जाना चाहिए।
कोई कारक अंतर्संबंध या कार्यात्मक संबंध नहीं होना चाहिए। इस तरह की कार्रवाइयों से अक्सर अपरिवर्तनीय परिणाम होते हैं - सिस्टम साधारण समीकरणबिना शर्त हो जाता है, और इसके लिए इसकी अविश्वसनीयता और अस्पष्ट आकलन की आवश्यकता होती है।
एक विशाल सहसंबंध संकेतक के मामले में, संकेतक के अंतिम परिणाम पर कारकों के पृथक प्रभाव का पता लगाने का कोई तरीका नहीं है, इसलिए, गुणांक निर्वचनीय हो जाते हैं।

निर्माण के तरीके

आप समीकरण के लिए कारकों का चयन कैसे कर सकते हैं, यह समझाने के लिए बड़ी संख्या में विधियाँ और तरीके हैं। हालाँकि, ये सभी विधियाँ सहसंबंध सूचकांक का उपयोग करके गुणांक के चयन पर आधारित हैं। उनमें से हैं:

बहिष्करण विधि।
विधि चालू करें।
चरणबद्ध प्रतिगमन विश्लेषण।

पहली विधि में समुच्चय समुच्चय से सभी गुणांकों को बाहर निकालना शामिल है। दूसरी विधि में कई अतिरिक्त कारकों की शुरूआत शामिल है। खैर, तीसरा उन कारकों का उन्मूलन है जो पहले समीकरण पर लागू किए गए थे। इनमें से प्रत्येक विधि को अस्तित्व का अधिकार है। उनके अपने फायदे और नुकसान हैं, लेकिन वे अनावश्यक संकेतकों को बाहर निकालने के मुद्दे को अपने तरीके से हल कर सकते हैं। एक नियम के रूप में, प्रत्येक व्यक्तिगत विधि द्वारा प्राप्त परिणाम काफी करीब हैं।

बहुभिन्नरूपी विश्लेषण के तरीके

कारकों के निर्धारण के लिए ऐसी विधियां परस्पर संबंधित विशेषताओं के अलग-अलग संयोजनों पर विचार करने पर आधारित हैं। इनमें विभेदक विश्लेषण, पैटर्न मान्यता, प्रमुख घटक विश्लेषण और क्लस्टर विश्लेषण शामिल हैं। इसके अलावा, कारक विश्लेषण भी है, हालांकि, यह घटक पद्धति के विकास के परिणामस्वरूप दिखाई दिया। उन सभी को कुछ परिस्थितियों में, कुछ शर्तों और कारकों के तहत लागू किया जाता है।

प्रतिगमन क्या है?

दो सतत चरों पर विचार करें x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n)।

आइए बिंदुओं को 2D स्कैटर प्लॉट पर रखें और कहें कि हमारे पास है रैखिक संबंधयदि डेटा को एक सीधी रेखा द्वारा अनुमानित किया जाता है।

अगर हम मान लें कि आपनिर्भर करता है एक्स, और में परिवर्तन आपमें परिवर्तन के कारण एक्स, हम एक प्रतिगमन रेखा (प्रतिगमन .) को परिभाषित कर सकते हैं आपपर एक्स), जो इन दो चरों के बीच सीधे-सीधे संबंध का सबसे अच्छा वर्णन करता है।

शब्द "प्रतिगमन" का सांख्यिकीय उपयोग एक घटना से आता है जिसे प्रतिगमन के रूप में जाना जाता है, जिसका श्रेय सर फ्रांसिस गैल्टन (1889) को दिया जाता है।

उन्होंने दिखाया कि जहां लंबे पिता के लंबे बेटे होते हैं, वहीं बेटों की औसत ऊंचाई उनके लंबे पिता की तुलना में कम होती है। बेटों की औसत ऊंचाई जनसंख्या में सभी पिताओं की औसत ऊंचाई तक "पीछे" और "वापस चली गई"। इस प्रकार, औसतन लंबे पिता के छोटे (लेकिन अभी भी लंबे) बेटे होते हैं, और छोटे पिता के लंबे (लेकिन फिर भी छोटे) बेटे होते हैं।

प्रतिगमन लाइन

गणितीय समीकरण जो एक सरल (जोड़ीवार) रैखिक समाश्रयण रेखा का मूल्यांकन करता है:

एक्सस्वतंत्र चर या भविष्यवक्ता कहा जाता है।

यूआश्रित या प्रतिक्रिया चर है। यह वह मूल्य है जिसकी हम अपेक्षा करते हैं आप(औसतन) यदि हम मूल्य जानते हैं एक्स, अर्थात। अनुमानित मूल्य है आप»

एक- मूल्यांकन लाइन के मुक्त सदस्य (क्रॉसिंग); यह मान यू, जब एक्स = 0(चित्र एक)।
बी- अनुमानित रेखा का ढलान या ढाल; यह वह राशि है जिसके द्वारा यूअगर हम बढ़ते हैं तो औसतन बढ़ता है एक्सएक इकाई के लिए।
एकतथा बीअनुमानित रेखा के प्रतीपगमन गुणांक कहलाते हैं, हालांकि इस शब्द का प्रयोग अक्सर केवल के लिए किया जाता है बी.

जोड़ीदार रैखिक प्रतिगमन को एक से अधिक स्वतंत्र चर शामिल करने के लिए बढ़ाया जा सकता है; इस मामले में इसे के रूप में जाना जाता है एकाधिक प्रतिगमन.

चित्र एक। ए और ढलान बी के प्रतिच्छेदन को दर्शाने वाली रैखिक प्रतिगमन रेखा (Y में वृद्धि की मात्रा जब x एक इकाई से बढ़ जाती है)

कम से कम वर्ग विधि

हम अवलोकनों के नमूने का उपयोग करके प्रतिगमन विश्लेषण करते हैं जहां एकतथा बी- सच्चे (सामान्य) मापदंडों का नमूना अनुमान, α और β , जो जनसंख्या (सामान्य जनसंख्या) में रैखिक प्रतिगमन की रेखा निर्धारित करते हैं।

अधिकांश सरल विधिगुणांक निर्धारित करना एकतथा बीहै कम से कम वर्ग विधि(एमएनके)।

फिट का मूल्यांकन अवशेषों पर विचार करके किया जाता है (रेखा से प्रत्येक बिंदु की ऊर्ध्वाधर दूरी, उदाहरण के लिए अवशिष्ट = देखने योग्य आप- भविष्यवाणी की आप, चावल। 2))।

सर्वोत्तम फिट की रेखा को चुना जाता है ताकि अवशिष्ट के वर्गों का योग न्यूनतम हो।

चावल। 2. प्रत्येक बिंदु के लिए चित्रित अवशिष्ट (ऊर्ध्वाधर बिंदीदार रेखा) के साथ रैखिक प्रतिगमन रेखा।

रैखिक प्रतिगमन धारणाएँ

इसलिए, प्रत्येक देखे गए मूल्य के लिए, अवशिष्ट अंतर के बराबर है और संबंधित अनुमानित एक है। प्रत्येक अवशिष्ट सकारात्मक या नकारात्मक हो सकता है।

आप रेखीय प्रतिगमन के पीछे निम्नलिखित मान्यताओं का परीक्षण करने के लिए अवशिष्ट का उपयोग कर सकते हैं:

अवशिष्ट सामान्य रूप से शून्य माध्य के साथ वितरित किए जाते हैं;

यदि रैखिकता, सामान्यता, और/या निरंतर भिन्नता की धारणाएं संदिग्ध हैं, तो हम बदल सकते हैं या गणना कर सकते हैं नई पंक्तिप्रतिगमन जिसके लिए ये धारणाएं संतुष्ट हैं (उदाहरण के लिए, उपयोग करें लघुगणक परिवर्तनया अन्य)।

असामान्य मूल्य (बाहरी) और प्रभाव के बिंदु

एक "प्रभावशाली" अवलोकन, यदि छोड़ा जाता है, तो एक या अधिक मॉडल पैरामीटर अनुमान (यानी ढलान या अवरोधन) को बदल देता है।

एक बाहरी (एक अवलोकन जो डेटासेट में अधिकांश मूल्यों का खंडन करता है) एक "प्रभावशाली" अवलोकन हो सकता है और 2 डी स्कैटरप्लॉट या अवशिष्ट प्लॉट को देखते समय दृष्टि से अच्छी तरह से पता लगाया जा सकता है।

आउटलेयर और "प्रभावशाली" टिप्पणियों (अंक) दोनों के लिए, मॉडल का उपयोग किया जाता है, दोनों उनके समावेश के साथ और उनके बिना, अनुमान (प्रतिगमन गुणांक) में परिवर्तन पर ध्यान दें।

विश्लेषण करते समय, आउटलेर्स या प्रभाव बिंदुओं को स्वचालित रूप से न छोड़ें, क्योंकि केवल उन्हें अनदेखा करने से परिणाम प्रभावित हो सकते हैं। हमेशा इन बाहरी कारकों के कारणों का अध्ययन करें और उनका विश्लेषण करें।

रैखिक प्रतिगमन परिकल्पना

एक रेखीय प्रतिगमन का निर्माण करते समय, शून्य परिकल्पना की जाँच की जाती है कि प्रतिगमन रेखा का सामान्य ढलान β शून्य.

यदि रेखा का ढलान शून्य है, तो और के बीच कोई रैखिक संबंध नहीं है: परिवर्तन प्रभावित नहीं करता है

शून्य परिकल्पना का परीक्षण करने के लिए कि वास्तविक ढलान शून्य है, आप निम्न एल्गोरिथम का उपयोग कर सकते हैं:

अनुपात के बराबर परीक्षण आंकड़े की गणना करें, जो स्वतंत्रता की डिग्री के साथ वितरण का पालन करता है, जहां गुणांक की मानक त्रुटि

- अवशेषों के विचरण का अनुमान।

आमतौर पर, यदि महत्व स्तर तक पहुंच जाता है तो शून्य परिकल्पना को खारिज कर दिया जाता है।

स्वतंत्रता की डिग्री के साथ वितरण का प्रतिशत बिंदु कहां है जो दो-पूंछ वाले परीक्षण की संभावना देता है

यह वह अंतराल है जिसमें 95% की संभावना के साथ सामान्य ढलान होता है।

बड़े नमूनों के लिए, मान लें कि हम 1.96 के मान के साथ अनुमानित कर सकते हैं (अर्थात, परीक्षण आँकड़ा सामान्य रूप से वितरित किया जाएगा)

रैखिक प्रतिगमन की गुणवत्ता का मूल्यांकन: निर्धारण का गुणांक R 2

रैखिक संबंध के कारण और हम परिवर्तन के रूप में परिवर्तन की अपेक्षा करते हैं , और हम इसे वह भिन्नता कहते हैं जो प्रतीपगमन के कारण होती है या उसकी व्याख्या की जाती है। अवशिष्ट भिन्नता यथासंभव छोटी होनी चाहिए।

यदि ऐसा है, तो अधिकांश भिन्नता को प्रतिगमन द्वारा समझाया जाएगा, और बिंदु प्रतिगमन रेखा के करीब होंगे, अर्थात। लाइन डेटा को अच्छी तरह से फिट करती है।

प्रतिगमन द्वारा समझाया गया कुल विचरण का अनुपात कहलाता है निर्धारण गुणांक, आमतौर पर प्रतिशत के रूप में व्यक्त किया जाता है और निरूपित किया जाता है R2(युग्मित रैखिक प्रतिगमन में, यह मान है r2, सहसंबंध गुणांक का वर्ग), आपको प्रतिगमन समीकरण की गुणवत्ता का व्यक्तिपरक मूल्यांकन करने की अनुमति देता है।

अंतर विचरण का प्रतिशत है जिसे प्रतिगमन द्वारा समझाया नहीं जा सकता है।

मूल्यांकन करने के लिए कोई औपचारिक परीक्षण नहीं होने के कारण, हमें प्रतिगमन रेखा के फिट की गुणवत्ता निर्धारित करने के लिए व्यक्तिपरक निर्णय पर भरोसा करने के लिए मजबूर होना पड़ता है।

एक पूर्वानुमान के लिए एक प्रतिगमन रेखा लागू करना

आप प्रेक्षित सीमा के भीतर किसी मान से किसी मान की भविष्यवाणी करने के लिए एक प्रतिगमन रेखा का उपयोग कर सकते हैं (इन सीमाओं से परे कभी भी एक्सट्रपलेशन नहीं करें)।

हम प्रतिगमन रेखा समीकरण में उस मान को प्रतिस्थापित करके एक निश्चित मान वाले वेधशालाओं के माध्य का अनुमान लगाते हैं।

इसलिए, यदि हम भविष्यवाणी करते हैं तो हम इस अनुमानित मूल्य और इसकी मानक त्रुटि का उपयोग वास्तविक जनसंख्या माध्य के लिए विश्वास अंतराल का अनुमान लगाने के लिए करते हैं।

विभिन्न मूल्यों के लिए इस प्रक्रिया को दोहराने से आप इस लाइन के लिए आत्मविश्वास की सीमा बना सकते हैं। यह एक बैंड या क्षेत्र है जिसमें एक सच्ची रेखा होती है, उदाहरण के लिए, 95% आत्मविश्वास स्तर के साथ।

सरल प्रतिगमन योजनाएं

सरल प्रतिगमन डिजाइन में एक निरंतर भविष्यवक्ता होता है। यदि भविष्यवक्ता मान P के साथ 3 मामले हैं, जैसे 7, 4 और 9, और डिज़ाइन में पहला ऑर्डर प्रभाव P शामिल है, तो डिज़ाइन मैट्रिक्स X होगा

एक प्रतिगमन समीकरण X1 के लिए P का उपयोग करने जैसा दिखता है

वाई = बी0 + बी1 पी

यदि एक साधारण प्रतिगमन डिज़ाइन में P पर उच्च-क्रम प्रभाव होता है, जैसे कि द्विघात प्रभाव, तो डिज़ाइन मैट्रिक्स में कॉलम X1 में मान दूसरी शक्ति तक बढ़ाए जाएंगे:

और समीकरण रूप ले लेगा

Y = b0 + b1 P2

सिग्मा-प्रतिबंधित और अति-पैरामीटरयुक्त कोडिंग विधियाँ साधारण प्रतिगमन डिज़ाइनों और अन्य डिज़ाइनों पर लागू नहीं होती हैं जिनमें केवल निरंतर भविष्यवाणियाँ होती हैं (क्योंकि बस कोई स्पष्ट भविष्यवाणियाँ नहीं होती हैं)। चुने गए एन्कोडिंग विधि के बावजूद, निरंतर चर के मूल्यों को उपयुक्त शक्ति द्वारा बढ़ाया जाता है और एक्स चर के मूल्यों के रूप में उपयोग किया जाता है। इस मामले में, कोई रूपांतरण नहीं किया जाता है। इसके अलावा, प्रतिगमन योजनाओं का वर्णन करते समय, आप योजना मैट्रिक्स एक्स के विचार को छोड़ सकते हैं, और केवल प्रतिगमन समीकरण के साथ काम कर सकते हैं।

उदाहरण: सरल प्रतिगमन विश्लेषण

यह उदाहरण तालिका में दिए गए डेटा का उपयोग करता है:

चावल। 3. प्रारंभिक डेटा की तालिका।

डेटा 30 बेतरतीब ढंग से चयनित काउंटियों में 1960 और 1970 की जनगणना की तुलना पर आधारित है। काउंटी नामों को अवलोकन नामों के रूप में दर्शाया गया है। प्रत्येक चर के संबंध में जानकारी नीचे प्रस्तुत की गई है:

चावल। 4. चर विनिर्देश तालिका।

अनुसंधान उद्देश्य

इस उदाहरण के लिए, गरीबी दर और गरीबी रेखा से नीचे रहने वाले परिवारों के प्रतिशत की भविष्यवाणी करने वाली शक्ति के बीच संबंध का विश्लेषण किया जाएगा। इसलिए, हम चर 3 (Pt_Poor ) को एक आश्रित चर के रूप में मानेंगे।

एक परिकल्पना को सामने रखा जा सकता है: जनसंख्या में परिवर्तन और गरीबी रेखा से नीचे रहने वाले परिवारों का प्रतिशत संबंधित है। यह अपेक्षा करना उचित प्रतीत होता है कि गरीबी से जनसंख्या का बहिर्वाह होता है, इसलिए गरीबी रेखा से नीचे के लोगों के प्रतिशत और जनसंख्या परिवर्तन के बीच एक नकारात्मक सहसंबंध होगा। इसलिए, हम वेरिएबल 1 (Pop_Chng) को एक प्रेडिक्टर वेरिएबल के रूप में मानेंगे।

परिणाम देखें

प्रतिगमन गुणांक

चावल। 5. रिग्रेशन गुणांक Pt_Poor Pop_Chng पर।

Pop_Chng पंक्ति और परम के चौराहे पर। Pop_Chng पर Pt_Poor के प्रतिगमन के लिए गैर-मानकीकृत गुणांक -0.40374 है। इसका अर्थ है कि जनसंख्या में प्रत्येक इकाई कमी के लिए, गरीबी दर में 40374 की वृद्धि होती है। इस गैर-मानकीकृत गुणांक के लिए ऊपरी और निचले (डिफ़ॉल्ट) 95% विश्वास सीमा में शून्य शामिल नहीं है, इसलिए पी स्तर पर प्रतिगमन गुणांक महत्वपूर्ण है<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

चर का वितरण

डेटा में बड़े आउटलेयर होने पर सहसंबंध गुणांक काफी अधिक या कम करके आंका जा सकता है। आइए हम काउंटी द्वारा आश्रित चर Pt_Poor के वितरण की जांच करें। ऐसा करने के लिए, हम Pt_Poor चर का एक हिस्टोग्राम बनाएंगे।

चावल। 6. Pt_Poor चर का हिस्टोग्राम।

जैसा कि आप देख सकते हैं, इस चर का वितरण सामान्य वितरण से स्पष्ट रूप से भिन्न है। हालांकि, हालांकि दो काउंटियों (दाएं दो कॉलम) में भी परिवारों का प्रतिशत अधिक है जो सामान्य वितरण में अपेक्षा से गरीबी रेखा से नीचे हैं, वे "सीमा के अंदर" प्रतीत होते हैं।

चावल। 7. Pt_Poor चर का हिस्टोग्राम।

यह फैसला कुछ हद तक व्यक्तिपरक है। अंगूठे का नियम यह है कि यदि कोई अवलोकन (या अवलोकन) अंतराल के भीतर नहीं आता है (मतलब ± 3 गुना मानक विचलन) के लिए आउटलेयर का हिसाब लगाया जाना चाहिए। इस मामले में, यह सुनिश्चित करने के लिए कि आउटलेर्स के साथ और बिना विश्लेषण को दोहराने के लायक है कि जनसंख्या के सदस्यों के बीच सहसंबंध पर उनका गंभीर प्रभाव नहीं पड़ता है।

स्कैटर प्लॉट

यदि दिए गए चरों के बीच संबंध के बारे में एक परिकल्पना प्राथमिकता है, तो इसे संबंधित स्कैटरप्लॉट के प्लॉट पर जांचना उपयोगी होता है।

चावल। 8. स्कैटरप्लॉट।

स्कैटरप्लॉट दो चर के बीच एक स्पष्ट नकारात्मक सहसंबंध (-.65) दिखाता है। यह प्रतिगमन रेखा के लिए 95% विश्वास अंतराल को भी दर्शाता है, अर्थात, 95% संभावना के साथ प्रतिगमन रेखा दो धराशायी वक्रों के बीच से गुजरती है।

महत्व मानदंड

चावल। 9. महत्व मानदंड वाली तालिका।

Pop_Chng प्रतिगमन गुणांक के लिए परीक्षण पुष्टि करता है कि Pop_Chng दृढ़ता से Pt_Poor , p से संबंधित है<.001 .

नतीजा

इस उदाहरण ने दिखाया कि एक साधारण प्रतिगमन योजना का विश्लेषण कैसे किया जाता है। गैर-मानकीकृत और मानकीकृत प्रतिगमन गुणांक की व्याख्या भी प्रस्तुत की गई थी। आश्रित चर के प्रतिक्रिया वितरण का अध्ययन करने के महत्व पर चर्चा की जाती है, और भविष्यवक्ता और आश्रित चर के बीच संबंधों की दिशा और ताकत को निर्धारित करने के लिए एक तकनीक का प्रदर्शन किया जाता है।

कारक और परिणामी संकेतों के बीच एक सहसंबंध की उपस्थिति में, डॉक्टरों को अक्सर यह निर्धारित करना होता है कि एक संकेत का मूल्य कितनी मात्रा में बदल सकता है जब दूसरे को माप की एक इकाई द्वारा बदल दिया जाता है जिसे आमतौर पर शोधकर्ता द्वारा स्वयं स्वीकार या स्थापित किया जाता है।

उदाहरण के लिए, पहली कक्षा के स्कूली बच्चों (लड़कियों या लड़कों) के शरीर का वजन कैसे बदलेगा यदि उनकी ऊंचाई 1 सेमी बढ़ जाती है। इस उद्देश्य के लिए, प्रतिगमन विश्लेषण पद्धति का उपयोग किया जाता है।

अक्सर, प्रतिगमन विश्लेषण पद्धति का उपयोग शारीरिक विकास के लिए मानक पैमाने और मानकों को विकसित करने के लिए किया जाता है।

प्रतिगमन की परिभाषा. रिग्रेशन एक ऐसा फ़ंक्शन है जो एक विशेषता के औसत मूल्य के आधार पर, किसी अन्य विशेषता के औसत मूल्य को निर्धारित करने की अनुमति देता है जो पहले एक से संबंधित है।
इस प्रयोजन के लिए, प्रतिगमन गुणांक और कई अन्य मापदंडों का उपयोग किया जाता है। उदाहरण के लिए, आप शरद ऋतु-सर्दियों की अवधि में औसत मासिक हवा के तापमान के कुछ मूल्यों पर औसतन सर्दी की संख्या की गणना कर सकते हैं।
प्रतिगमन गुणांक की परिभाषा. प्रतिगमन गुणांक वह निरपेक्ष मान है जिसके द्वारा एक विशेषता का मान औसत रूप से बदलता है जब माप की एक निर्दिष्ट इकाई द्वारा इससे जुड़ी दूसरी विशेषता बदल जाती है।
प्रतिगमन गुणांक सूत्र. आर वाई / एक्स \u003d आर एक्स एक्स (σ वाई / एक्स)
जहां आर वाई / एक्स - प्रतिगमन गुणांक;
r xy - सुविधाओं x और y के बीच सहसंबंध गुणांक;
(σ y और x) - सुविधाओं x और y के मानक विचलन।
हमारे उदाहरण में;
x = 4.6 (शरद ऋतु-सर्दियों की अवधि में हवा के तापमान का मानक विचलन;
y = 8.65 (संक्रामक सर्दी की संख्या का मानक विचलन)।
इस प्रकार, R y/x प्रतीपगमन गुणांक है।
आर वाई / एक्स \u003d -0.96 एक्स (4.6 / 8.65) \u003d 1.8, यानी। औसत मासिक हवा के तापमान (x) में 1 डिग्री की कमी के साथ, शरद ऋतु-सर्दियों की अवधि में संक्रामक सर्दी (y) की औसत संख्या 1.8 मामलों में बदल जाएगी।
प्रतिगमन समीकरण. वाई \u003d एम वाई + आर वाई / एक्स (एक्स - एम एक्स)
जहाँ y विशेषता का औसत मान है, जिसे किसी अन्य विशेषता (x) के औसत मान में परिवर्तन होने पर निर्धारित किया जाना चाहिए;
x - किसी अन्य विशेषता का ज्ञात औसत मान;
आर वाई/एक्स - प्रतिगमन गुणांक;
एम एक्स, एम वाई - एक्स और वाई सुविधाओं के ज्ञात औसत मूल्य।
उदाहरण के लिए, औसत मासिक वायु तापमान (x) के किसी भी औसत मूल्य पर विशेष माप के बिना संक्रामक सर्दी (y) की औसत संख्या निर्धारित की जा सकती है। तो, यदि x \u003d - 9 °, R y / x \u003d 1.8 रोग, M x \u003d -7 °, M y \u003d 20 रोग, तो y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 रोग।
इस समीकरण का उपयोग दो विशेषताओं (x और y) के बीच एक सीधी रेखा संबंध के मामले में किया जाता है।
प्रतिगमन समीकरण का उद्देश्य. प्रतीपगमन समीकरण का उपयोग प्रतीपगमन रेखा को आलेखित करने के लिए किया जाता है। उत्तरार्द्ध, विशेष माप के बिना, एक विशेषता के किसी भी औसत मूल्य (y) को निर्धारित करने की अनुमति देता है, यदि किसी अन्य विशेषता का मान (x) बदलता है। इन आँकड़ों के आधार पर एक ग्राफ बनाया जाता है - प्रतिगमन लाइन, जिसका उपयोग सर्दी की संख्या के गणना मूल्यों के बीच की सीमा के भीतर औसत मासिक तापमान के किसी भी मूल्य पर सर्दी की औसत संख्या निर्धारित करने के लिए किया जा सकता है।
प्रतिगमन सिग्मा (सूत्र).
जहां Ru/x - प्रतिगमन का सिग्मा (मानक विचलन);
y फीचर y का मानक विचलन है;
r xy - सुविधाओं x और y के बीच सहसंबंध गुणांक।
इसलिए, यदि y जुकाम की संख्या का मानक विचलन है = 8.65; r xy - सर्दी की संख्या (y) और शरद ऋतु-सर्दियों की अवधि (x) में औसत मासिक हवा के तापमान के बीच सहसंबंध गुणांक है - 0.96, फिर
सिग्मा प्रतिगमन का उद्देश्य. परिणामी विशेषता (y) की विविधता के माप की विशेषता देता है।
उदाहरण के लिए, यह शरद ऋतु-सर्दियों की अवधि में औसत मासिक हवा के तापमान के एक निश्चित मूल्य पर सर्दी की संख्या की विविधता की विशेषता है। तो, हवा के तापमान x 1 \u003d -6 ° पर सर्दी की औसत संख्या 15.78 बीमारियों से लेकर 20.62 बीमारियों तक हो सकती है।
x 2 = -9° पर, जुकाम की औसत संख्या 21.18 रोगों से लेकर 26.02 रोगों आदि तक हो सकती है।
प्रतिगमन सिग्मा का उपयोग प्रतिगमन पैमाने के निर्माण में किया जाता है, जो प्रतिगमन रेखा पर प्लॉट किए गए अपने औसत मूल्य से प्रभावी विशेषता के मूल्यों के विचलन को दर्शाता है।
प्रतिगमन पैमाने की गणना और प्लॉट करने के लिए आवश्यक डेटा
- प्रतिगमन गुणांक - Ry/x;
- प्रतिगमन समीकरण - y \u003d M y + R y / x (x-M x);
- प्रतिगमन सिग्मा - Rx/y
प्रतिगमन पैमाने की गणना और ग्राफिक प्रतिनिधित्व का क्रम.
- सूत्र द्वारा प्रतिगमन गुणांक निर्धारित करें (पैराग्राफ 3 देखें)। उदाहरण के लिए, किसी को यह निर्धारित करना चाहिए कि शरीर का वजन औसतन कितना बदल जाएगा (लिंग के आधार पर एक निश्चित उम्र में) यदि औसत ऊंचाई 1 सेमी बदल जाती है।
- प्रतिगमन समीकरण के सूत्र के अनुसार (पैराग्राफ 4 देखें), निर्धारित करें कि औसत क्या होगा, उदाहरण के लिए, शरीर का वजन (y, y 2, y 3 ...) * एक निश्चित वृद्धि मूल्य (x, x 2,) के लिए। एक्स 3 ...)।
  ________________
  * "y" के मान की गणना कम से कम तीन के लिए की जानी चाहिए ज्ञात मूल्य"एक्स"।
  इसी समय, एक निश्चित उम्र और लिंग के लिए शरीर के वजन और ऊंचाई (एम एक्स, और एम वाई) के औसत मूल्यों को जाना जाता है
- प्रतिगमन के सिग्मा की गणना करें, y और r xy के संबंधित मूल्यों को जानने और उनके मूल्यों को सूत्र में प्रतिस्थापित करें (पैराग्राफ 6 देखें)।
- ज्ञात मानों के आधार पर x 1, x 2, x 3 और उनके संगत औसत मान y 1, y 2 y 3, साथ ही सबसे छोटा (y - ru / x) और सबसे बड़ा (y + ru) / x) मान (y) एक प्रतिगमन पैमाने का निर्माण करते हैं।
  प्रतिगमन पैमाने के चित्रमय प्रतिनिधित्व के लिए, मान x, x 2 , x 3 (y-अक्ष) को पहले ग्राफ़ पर चिह्नित किया जाता है, अर्थात। एक प्रतिगमन रेखा निर्मित होती है, उदाहरण के लिए, ऊंचाई (x) पर शरीर के वजन (y) की निर्भरता।
  फिर, संबंधित बिंदुओं पर y 1 , y 2 , y 3 प्रतिगमन सिग्मा के संख्यात्मक मूल्यों को चिह्नित किया जाता है, अर्थात। ग्राफ पर y 1 , y 2 , y 3 के सबसे छोटे और सबसे बड़े मान ज्ञात कीजिए।
प्रतिगमन पैमाने का व्यावहारिक उपयोग. विशेष रूप से शारीरिक विकास के लिए मानक पैमाने और मानक विकसित किए जा रहे हैं। मानक पैमाने के अनुसार, बच्चों के विकास का व्यक्तिगत मूल्यांकन देना संभव है। उसी समय, शारीरिक विकास को सामंजस्यपूर्ण के रूप में मूल्यांकन किया जाता है, उदाहरण के लिए, एक निश्चित ऊंचाई पर, बच्चे के शरीर का वजन शरीर के वजन की औसत गणना इकाई के लिए एक प्रतिगमन सिग्मा के भीतर होता है - (y) दी गई ऊंचाई के लिए (x) ( वाई ± 1 आरई / एक्स)।
शारीरिक विकास को शरीर के वजन के संदर्भ में असंगत माना जाता है यदि बच्चे के शरीर का वजन एक निश्चित ऊंचाई के लिए दूसरे प्रतिगमन सिग्मा के भीतर हो: (y ± 2 Ry/x)
यदि एक निश्चित ऊंचाई के लिए शरीर का वजन प्रतिगमन के तीसरे सिग्मा (y ± 3 Ry/x) के भीतर है, तो अतिरिक्त और अपर्याप्त शरीर के वजन के कारण शारीरिक विकास तेजी से असंगत होगा।

5 वर्षीय लड़कों के शारीरिक विकास के एक सांख्यिकीय अध्ययन के परिणामों के अनुसार, यह ज्ञात है कि उनकी औसत ऊंचाई (x) 109 सेमी है, और उनके शरीर का औसत वजन (y) 19 किलोग्राम है। ऊंचाई और शरीर के वजन के बीच सहसंबंध गुणांक +0.9 है, मानक विचलन तालिका में प्रस्तुत किए जाते हैं।

आवश्यक:

प्रतिगमन गुणांक की गणना करें;
प्रतिगमन समीकरण का उपयोग करते हुए, निर्धारित करें कि 5 वर्षीय लड़कों का अपेक्षित शरीर का वजन x1 = 100 सेमी, x2 = 110 सेमी, x3 = 120 सेमी के बराबर ऊंचाई के साथ क्या होगा;
प्रतिगमन सिग्मा की गणना करें, एक प्रतिगमन पैमाने का निर्माण करें, इसके समाधान के परिणामों को ग्राफिक रूप से प्रस्तुत करें;
उचित निष्कर्ष निकालना।

समस्या की स्थिति और उसके समाधान के परिणाम सारांश तालिका में प्रस्तुत किए गए हैं।

तालिका एक

समस्या की शर्तें				समस्या समाधान परिणाम
समस्या की शर्तें				प्रतिगमन समीकरण			सिग्मा प्रतिगमन	प्रतिगमन पैमाने (अपेक्षित शरीर का वजन (किलो में))
	एम	σ	आर xy	आर वाई/एक्स	एक्स	पर	आरएक्स/वाई	वाई - आरयू / х	वाई + आरयू/х
1	2	3	4	5	6	7	8	9	10
ऊंचाई (एक्स)	109 सेमी	± 4.4 सेमी	+0,9	0,16	100 सेमी	17.56 किग्रा	± 0.35 किग्रा	17.21 किग्रा	17.91 किग्रा
शरीर का वजन (वाई)	19 किलो	± 0.8 किग्रा			110 सेमी	19.16 किग्रा		18.81 किग्रा	19.51 किग्रा
शरीर का वजन (वाई)	19 किलो	± 0.8 किग्रा			120 सेमी	20.76 किग्रा		20.41 किग्रा	21.11 किग्रा

समाधान.

निष्कर्ष।इस प्रकार, शरीर के वजन के परिकलित मूल्यों के भीतर प्रतिगमन पैमाना आपको इसे विकास के किसी अन्य मूल्य के लिए निर्धारित करने या बच्चे के व्यक्तिगत विकास का आकलन करने की अनुमति देता है। ऐसा करने के लिए, प्रतिगमन रेखा के लंबवत को पुनर्स्थापित करें।

व्लासोव वी.वी. महामारी विज्ञान। - एम .: जियोटार-मेड, 2004. - 464 पी।
लिसित्सिन यू.पी. सार्वजनिक स्वास्थ्य और स्वास्थ्य सेवा। हाई स्कूल के लिए पाठ्यपुस्तक। - एम .: जियोटार-मेड, 2007. - 512 पी।
मेडिक वी.ए., यूरीव वी.के. सार्वजनिक स्वास्थ्य और स्वास्थ्य देखभाल पर व्याख्यान का एक कोर्स: भाग 1। सार्वजनिक स्वास्थ्य। - एम .: मेडिसिन, 2003. - 368 पी।
मिनियेव वी.ए., विष्णकोव एन.आई. और अन्य। सामाजिक चिकित्सा और स्वास्थ्य सेवा संगठन (2 खंडों में गाइड)। - सेंट पीटर्सबर्ग, 1998. -528 पी।
कुचेरेंको वी.जेड., अगरकोव एन.एम. और अन्य। सामाजिक स्वच्छता और स्वास्थ्य देखभाल का संगठन (ट्यूटोरियल) - मॉस्को, 2000. - 432 पी।
एस ग्लांट्ज़। मेडिको-बायोलॉजिकल स्टैटिस्टिक्स। अंग्रेजी से प्रति। - एम।, प्रैक्टिस, 1998. - 459 पी।

प्रतिगमन विश्लेषण एक निश्चित मात्रा की दूसरी मात्रा या कई अन्य मात्राओं पर निर्भरता की जांच करता है। प्रतिगमन विश्लेषण मुख्य रूप से मध्यम अवधि के पूर्वानुमान के साथ-साथ दीर्घकालिक पूर्वानुमान में भी उपयोग किया जाता है। मध्यम और लंबी अवधि की अवधि कारोबारी माहौल में बदलाव स्थापित करना और अध्ययन के तहत संकेतक पर इन परिवर्तनों के प्रभाव को ध्यान में रखना संभव बनाती है।

प्रतिगमन विश्लेषण करने के लिए, यह आवश्यक है:

अध्ययन किए गए संकेतकों पर वार्षिक डेटा की उपलब्धता,

एकमुश्त पूर्वानुमान की उपलब्धता, अर्थात्। पूर्वानुमान जो नए डेटा के साथ सुधार नहीं करते हैं।

प्रतिगमन विश्लेषण आमतौर पर उन वस्तुओं के लिए किया जाता है जिनमें एक जटिल, बहुक्रियात्मक प्रकृति होती है, जैसे कि निवेश की मात्रा, लाभ, बिक्री की मात्रा आदि।

पर मानक पूर्वानुमान विधिलक्ष्य के रूप में ली गई घटना की संभावित अवस्थाओं को प्राप्त करने के तरीके और शर्तें निर्धारित की जाती हैं। हम पूर्व निर्धारित मानदंडों, आदर्शों, प्रोत्साहनों और लक्ष्यों के आधार पर घटना की वांछित अवस्थाओं की उपलब्धि की भविष्यवाणी करने की बात कर रहे हैं। ऐसा पूर्वानुमान इस प्रश्न का उत्तर देता है: वांछित को किन तरीकों से प्राप्त किया जा सकता है? प्रोग्रामेटिक या लक्षित पूर्वानुमानों के लिए मानक पद्धति का अधिक बार उपयोग किया जाता है। मानक की मात्रात्मक अभिव्यक्ति और मूल्यांकन फ़ंक्शन की संभावनाओं के एक निश्चित पैमाने दोनों का उपयोग किया जाता है।

मात्रात्मक अभिव्यक्ति का उपयोग करने के मामले में, उदाहरण के लिए, जनसंख्या के विभिन्न समूहों के लिए विशेषज्ञों द्वारा विकसित कुछ खाद्य और गैर-खाद्य उत्पादों की खपत के लिए शारीरिक और तर्कसंगत मानदंड, इन वस्तुओं की खपत के स्तर को निर्धारित करना संभव है निर्दिष्ट मानदंड की उपलब्धि से पहले के वर्ष। ऐसी गणनाओं को प्रक्षेप कहा जाता है। इंटरपोलेशन उन संकेतकों की गणना करने का एक तरीका है जो एक स्थापित संबंध के आधार पर एक घटना की समय श्रृंखला में गायब हैं। संकेतक के वास्तविक मूल्य और उसके मानकों के मूल्य को गतिशील श्रृंखला के चरम सदस्यों के रूप में लेते हुए, इस श्रृंखला के भीतर मूल्यों के परिमाण को निर्धारित करना संभव है। इसलिए, प्रक्षेप को एक मानक विधि माना जाता है। पहले दिए गए सूत्र (4), एक्सट्रपलेशन में इस्तेमाल किया जा सकता है, इंटरपोलेशन में इस्तेमाल किया जा सकता है, जहां y n अब वास्तविक डेटा को नहीं, बल्कि संकेतक के मानक को चिह्नित करेगा।

यदि मूल्यांकन फ़ंक्शन की संभावनाओं का एक पैमाना (फ़ील्ड, स्पेक्ट्रम), यानी वरीयता वितरण फ़ंक्शन, मानक पद्धति में उपयोग किया जाता है, तो लगभग निम्नलिखित क्रमांकन इंगित किया जाता है: अवांछनीय - कम वांछनीय - अधिक वांछनीय - सबसे वांछनीय - इष्टतम ( नियामक)।

प्रामाणिक पूर्वानुमान पद्धति निष्पक्षता के स्तर को बढ़ाने के लिए सिफारिशों को विकसित करने में मदद करती है, और इसलिए निर्णयों की प्रभावशीलता।

मोडलिंग, शायद सबसे कठिन पूर्वानुमान विधि। गणितीय मॉडलिंग का अर्थ है गणितीय सूत्रों, समीकरणों और असमानताओं के माध्यम से एक आर्थिक घटना का वर्णन। गणितीय उपकरण को भविष्य कहनेवाला पृष्ठभूमि को सटीक रूप से प्रतिबिंबित करना चाहिए, हालांकि भविष्यवाणी की गई वस्तु की संपूर्ण गहराई और जटिलता को पूरी तरह से प्रतिबिंबित करना काफी कठिन है। शब्द "मॉडल" लैटिन शब्द मॉडलस से लिया गया है, जिसका अर्थ है "माप"। इसलिए, मॉडलिंग को एक पूर्वानुमान पद्धति के रूप में नहीं, बल्कि एक मॉडल पर एक समान घटना का अध्ययन करने की एक विधि के रूप में विचार करना अधिक सही होगा।

व्यापक अर्थों में, मॉडल अध्ययन की वस्तु के लिए विकल्प कहलाते हैं, जो इसके साथ ऐसी समानता में होते हैं जो आपको वस्तु के बारे में नया ज्ञान प्राप्त करने की अनुमति देता है। मॉडल को वस्तु के गणितीय विवरण के रूप में माना जाना चाहिए। इस मामले में, मॉडल को एक घटना (वस्तु, स्थापना) के रूप में परिभाषित किया गया है जो अध्ययन के तहत वस्तु के साथ कुछ पत्राचार में है और वस्तु के बारे में जानकारी प्रस्तुत करते हुए इसे शोध प्रक्रिया में बदल सकता है।

मॉडल की एक संकीर्ण समझ के साथ, इसे पूर्वानुमान की वस्तु के रूप में माना जाता है, इसका अध्ययन भविष्य में वस्तु की संभावित अवस्थाओं और इन राज्यों को प्राप्त करने के तरीकों के बारे में जानकारी प्राप्त करने की अनुमति देता है। इस मामले में, भविष्य कहनेवाला मॉडल का उद्देश्य सामान्य रूप से वस्तु के बारे में नहीं, बल्कि उसके भविष्य के राज्यों के बारे में जानकारी प्राप्त करना है। फिर, एक मॉडल का निर्माण करते समय, वस्तु के साथ इसके पत्राचार की सीधे जांच करना असंभव हो सकता है, क्योंकि मॉडल केवल अपनी भविष्य की स्थिति का प्रतिनिधित्व करता है, और वस्तु स्वयं वर्तमान में अनुपस्थित हो सकती है या एक अलग अस्तित्व हो सकता है।

मॉडल सामग्री और आदर्श हो सकते हैं।

अर्थशास्त्र में आदर्श मॉडल का उपयोग किया जाता है। एक सामाजिक-आर्थिक (आर्थिक) घटना के मात्रात्मक विवरण के लिए सबसे आदर्श आदर्श मॉडल एक गणितीय मॉडल है जो संख्याओं, सूत्रों, समीकरणों, एल्गोरिदम या एक ग्राफिकल प्रतिनिधित्व का उपयोग करता है। आर्थिक मॉडल की मदद से निर्धारित करें:

विभिन्न आर्थिक संकेतकों के बीच संबंध;

संकेतकों पर लगाए गए विभिन्न प्रकार के प्रतिबंध;

प्रक्रिया को अनुकूलित करने के लिए मानदंड।

किसी वस्तु का एक सार्थक विवरण उसकी औपचारिक योजना के रूप में दर्शाया जा सकता है, जो इंगित करता है कि आवश्यक मूल्यों की गणना के लिए कौन से पैरामीटर और प्रारंभिक जानकारी एकत्र की जानी चाहिए। एक गणितीय मॉडल, एक औपचारिक योजना के विपरीत, किसी वस्तु की विशेषता वाले विशिष्ट संख्यात्मक डेटा होते हैं। गणितीय मॉडल का विकास मोटे तौर पर मॉडल की जा रही प्रक्रिया के सार के भविष्यवक्ता के विचार पर निर्भर करता है। अपने विचारों के आधार पर वह एक कार्यशील परिकल्पना को सामने रखता है, जिसकी सहायता से सूत्र, समीकरण और असमानताओं के रूप में मॉडल का एक विश्लेषणात्मक रिकॉर्ड बनाया जाता है। समीकरणों की प्रणाली को हल करने के परिणामस्वरूप, फ़ंक्शन के विशिष्ट पैरामीटर प्राप्त होते हैं, जो समय के साथ वांछित चर में परिवर्तन का वर्णन करते हैं।

पूर्वानुमान के संगठन के एक तत्व के रूप में कार्य का क्रम और क्रम उपयोग की जाने वाली पूर्वानुमान पद्धति के आधार पर निर्धारित किया जाता है। आमतौर पर यह काम कई चरणों में किया जाता है।

चरण 1 - भविष्य कहनेवाला पूर्वव्यापीकरण, यानी, पूर्वानुमान की वस्तु की स्थापना और पूर्वानुमान की पृष्ठभूमि। पहले चरण में कार्य निम्नलिखित क्रम में किया जाता है:

अतीत में किसी वस्तु के विवरण का निर्माण, जिसमें वस्तु का पूर्व-पूर्वानुमान विश्लेषण, उसके मापदंडों का आकलन, उनका महत्व और आपसी संबंध शामिल हैं,

सूचना के स्रोतों की पहचान और मूल्यांकन, उनके साथ काम करने की प्रक्रिया और संगठन, पूर्वव्यापी जानकारी का संग्रह और प्लेसमेंट;

अनुसंधान उद्देश्यों की स्थापना।

भविष्य कहनेवाला पूर्वव्यापीकरण के कार्यों को करते हुए, पूर्वानुमानकर्ता अपने व्यवस्थित विवरण प्राप्त करने के लिए वस्तु के विकास के इतिहास और पूर्वानुमान की पृष्ठभूमि का अध्ययन करते हैं।

चरण 2 - भविष्य कहनेवाला निदान, जिसके दौरान उनके विकास में रुझानों की पहचान करने और मॉडल और पूर्वानुमान के तरीकों का चयन करने के लिए पूर्वानुमान की वस्तु और पूर्वानुमान की पृष्ठभूमि का एक व्यवस्थित विवरण का अध्ययन किया जाता है। कार्य निम्नलिखित क्रम में किया जाता है:

वस्तु के औपचारिक विवरण सहित एक पूर्वानुमान वस्तु मॉडल का विकास, वस्तु के लिए मॉडल की पर्याप्तता की डिग्री की जांच करना;

पूर्वानुमान विधियों (मुख्य और सहायक) का चयन, एक एल्गोरिथ्म का विकास और कार्य कार्यक्रम।

तीसरा चरण - संरक्षण, यानी पूर्वानुमान के व्यापक विकास की प्रक्रिया, जिसमें शामिल हैं: 1) किसी निश्चित अवधि के लिए अनुमानित मापदंडों की गणना; 2) पूर्वानुमान के व्यक्तिगत घटकों का संश्लेषण।

चौथा चरण - पूर्वानुमान का मूल्यांकन, इसके सत्यापन सहित, यानी विश्वसनीयता, सटीकता और वैधता की डिग्री निर्धारित करना।

पूर्वेक्षण और मूल्यांकन के दौरान, पूर्वानुमान कार्यों और उसके मूल्यांकन को पिछले चरणों के आधार पर हल किया जाता है।

संकेतित चरण अनुमानित है और मुख्य पूर्वानुमान पद्धति पर निर्भर करता है।

पूर्वानुमान के परिणाम प्रमाण पत्र, रिपोर्ट या अन्य सामग्री के रूप में तैयार किए जाते हैं और ग्राहक को प्रस्तुत किए जाते हैं।

पूर्वानुमान में, वस्तु की वास्तविक स्थिति से पूर्वानुमान के विचलन को इंगित किया जा सकता है, जिसे पूर्वानुमान त्रुटि कहा जाता है, जिसकी गणना सूत्र द्वारा की जाती है:

;
;
. (9.3)

पूर्वानुमान में त्रुटियों के स्रोत

मुख्य स्रोत हो सकते हैं:

1. अतीत से भविष्य में डेटा का सरल स्थानांतरण (एक्सट्रपलेशन) (उदाहरण के लिए, कंपनी के पास बिक्री में 10% की वृद्धि को छोड़कर अन्य पूर्वानुमान विकल्प नहीं हैं)।

2. किसी घटना की प्रायिकता और अध्ययन की जा रही वस्तु पर उसके प्रभाव का सही-सही निर्धारण करने में असमर्थता।

3. योजना के कार्यान्वयन को प्रभावित करने वाली अप्रत्याशित कठिनाइयाँ (विघटनकारी घटनाएँ), उदाहरण के लिए, बिक्री विभाग के प्रमुख की अचानक बर्खास्तगी।

सामान्य तौर पर, पूर्वानुमान में अनुभव के संचय और इसके तरीकों के विकास के साथ पूर्वानुमान की सटीकता बढ़ जाती है।

प्रतिगमन विश्लेषण अधिकांश अर्थमितीय मॉडलों के निर्माण का आधार है, जिनमें लागत अनुमान मॉडल शामिल किए जाने चाहिए। मूल्यांकन मॉडल बनाने के लिए, इस पद्धति का उपयोग किया जा सकता है यदि एनालॉग्स (तुलनीय वस्तुओं) की संख्या और लागत कारकों (तुलना तत्वों) की संख्या एक दूसरे के साथ निम्नानुसार सहसंबंधित होती है: पी> (5 -g-10) x प्रति,वे। लागत कारकों की तुलना में 5-10 गुना अधिक अनुरूप होना चाहिए। डेटा की मात्रा और कारकों की संख्या के अनुपात के लिए समान आवश्यकता अन्य कार्यों पर लागू होती है: किसी वस्तु की लागत और उपभोक्ता मापदंडों के बीच संबंध स्थापित करना; सुधारात्मक सूचकांकों की गणना के लिए प्रक्रिया की पुष्टि; मूल्य प्रवृत्तियों का स्पष्टीकरण; पहनने और प्रभावित करने वाले कारकों में परिवर्तन के बीच संबंध स्थापित करना; लागत मानकों आदि की गणना के लिए निर्भरता प्राप्त करना। यादृच्छिक चर के सामान्य वितरण की आवश्यकता को पूरा नहीं करने वाले डेटा नमूने के साथ काम करने की संभावना को कम करने के लिए इस आवश्यकता की पूर्ति आवश्यक है।

प्रतिगमन संबंध केवल परिणामी चर की औसत प्रवृत्ति को दर्शाता है, जैसे लागत, एक या अधिक कारक चर में परिवर्तन से, जैसे स्थान, कमरों की संख्या, क्षेत्र, फर्श, आदि। यह एक प्रतिगमन संबंध और एक कार्यात्मक एक के बीच का अंतर है, जिसमें परिणामी चर के मूल्य को कारक चर के दिए गए मान के लिए कड़ाई से परिभाषित किया जाता है।

एक प्रतिगमन संबंध की उपस्थिति / परिणामी के बीच परऔर कारक चर एक्स पी ..., एक्स के(कारक) इंगित करता है कि यह संबंध न केवल चयनित कारक चर के प्रभाव से निर्धारित होता है, बल्कि चर के प्रभाव से भी होता है, जिनमें से कुछ आम तौर पर अज्ञात होते हैं, अन्य का आकलन और ध्यान नहीं दिया जा सकता है:

चर के लिए बेहिसाब के प्रभाव को इस समीकरण के दूसरे पद द्वारा दर्शाया गया है ?, जिसे सन्निकटन त्रुटि कहते हैं।

निम्न प्रकार के प्रतिगमन निर्भरताएँ हैं:

? युग्मित प्रतिगमन - दो चर (परिणामी और भाज्य) के बीच संबंध;
? एकाधिक प्रतिगमन - अध्ययन में शामिल एक परिणामी चर और दो या अधिक कारक चर की निर्भरता।

प्रतिगमन विश्लेषण का मुख्य कार्य चर (युग्मित प्रतिगमन में) और कई चर (एकाधिक प्रतिगमन में) के बीच संबंधों की निकटता को मापना है। संबंध की जकड़न को सहसंबंध गुणांक द्वारा निर्धारित किया जाता है।

प्रतिगमन विश्लेषण का उपयोग अध्ययन के तहत संकेतक पर मुख्य कारकों (हेडोनिक विशेषताओं) के प्रभाव की नियमितता को उनकी समग्रता और उनमें से प्रत्येक में व्यक्तिगत रूप से स्थापित करना संभव बनाता है। प्रतिगमन विश्लेषण की मदद से, गणितीय आँकड़ों की एक विधि के रूप में, यह संभव है, सबसे पहले, परिणामी (वांछित) चर के विश्लेषणात्मक निर्भरता के रूप को खोजने और वर्णन करने के लिए, और दूसरे, की निकटता का अनुमान लगाने के लिए यह निर्भरता।

पहली समस्या को हल करके, एक गणितीय प्रतिगमन मॉडल प्राप्त किया जाता है, जिसकी सहायता से दिए गए कारक मूल्यों के लिए वांछित संकेतक की गणना की जाती है। दूसरी समस्या का समाधान परिकलित परिणाम की विश्वसनीयता स्थापित करना संभव बनाता है।

इस प्रकार, प्रतिगमन विश्लेषण को औपचारिक (गणितीय) प्रक्रियाओं के एक सेट के रूप में परिभाषित किया जा सकता है, जो परिणामी और कारक चर के बीच संबंध के रूप की निकटता, दिशा और विश्लेषणात्मक अभिव्यक्ति को मापने के लिए डिज़ाइन किया गया है, अर्थात। इस तरह के विश्लेषण का आउटपुट फॉर्म का संरचनात्मक और मात्रात्मक रूप से परिभाषित सांख्यिकीय मॉडल होना चाहिए:

कहाँ पे वाई -परिणामी चर का औसत मूल्य (वांछित संकेतक, उदाहरण के लिए, लागत, किराया, पूंजीकरण दर) से अधिक पीउसके अवलोकन; x कारक चर (/-वें लागत कारक) का मान है; प्रति -कारक चर की संख्या।

समारोह एफ (एक्स एल, ..., एक्स एलसी),परिणामी चर की फैक्टोरियल पर निर्भरता का वर्णन करने को प्रतिगमन समीकरण (फ़ंक्शन) कहा जाता है। शब्द "प्रतिगमन" (प्रतिगमन (अव्य।) - पीछे हटना, किसी चीज़ पर लौटना) विधि के गठन के चरण में हल किए गए विशिष्ट कार्यों में से एक की बारीकियों से जुड़ा है, और वर्तमान में विधि के संपूर्ण सार को प्रतिबिंबित नहीं करता है। , लेकिन उपयोग जारी है।

प्रतिगमन विश्लेषण में आम तौर पर निम्नलिखित चरण शामिल होते हैं:

? सजातीय वस्तुओं के नमूने का निर्माण और इन वस्तुओं के बारे में प्रारंभिक जानकारी का संग्रह;
? परिणामी चर को प्रभावित करने वाले मुख्य कारकों का चयन;
? सामान्यता के लिए नमूने की जाँच एक्स 2 या द्विपद मानदंड;
? संचार के रूप के बारे में परिकल्पना की स्वीकृति;
? गणितीय डेटा प्रोसेसिंग;
? प्रतिगमन मॉडल प्राप्त करना;
? इसके सांख्यिकीय संकेतकों का आकलन;
? प्रतिगमन मॉडल का उपयोग करके सत्यापन गणना;
? परिणामों का विश्लेषण।

संचालन का संकेतित क्रम एक कारक चर और एक परिणामी चर के बीच एक जोड़ी संबंध और परिणामी चर और कई कारक चर के बीच एक बहु संबंध दोनों के अध्ययन में होता है।

प्रतिगमन विश्लेषण का उपयोग प्रारंभिक जानकारी पर कुछ आवश्यकताओं को लागू करता है:

? वस्तुओं का सांख्यिकीय नमूना कार्यात्मक और रचनात्मक-तकनीकी शब्दों में सजातीय होना चाहिए;
? काफी असंख्य;
? अध्ययन के तहत लागत संकेतक - परिणामी चर (मूल्य, लागत, लागत) - नमूने में सभी वस्तुओं के लिए इसकी गणना के लिए समान शर्तों तक कम किया जाना चाहिए;
? कारक चर को पर्याप्त रूप से सटीक रूप से मापा जाना चाहिए;
? कारक चर स्वतंत्र या न्यूनतम निर्भर होना चाहिए।

नमूने की एकरूपता और पूर्णता के लिए आवश्यकताएं संघर्ष में हैं: वस्तुओं का चयन उनकी एकरूपता के अनुसार जितना अधिक सख्ती से किया जाता है, नमूना उतना ही छोटा होता है, और, इसके विपरीत, नमूने को बड़ा करने के लिए, वस्तुओं को शामिल करना आवश्यक होता है एक दूसरे से बहुत मिलते-जुलते नहीं हैं।

सजातीय वस्तुओं के समूह के लिए डेटा एकत्र किए जाने के बाद, सैद्धांतिक प्रतिगमन रेखा के रूप में परिणामी और कारक चर के बीच संबंध के रूप को स्थापित करने के लिए उनका विश्लेषण किया जाता है। सैद्धांतिक प्रतिगमन रेखा को खोजने की प्रक्रिया में अनुमानित वक्र का उचित विकल्प और इसके समीकरण के गुणांक की गणना शामिल है। प्रतिगमन रेखा एक चिकनी वक्र (एक विशेष मामले में, एक सीधी रेखा) है जो एक गणितीय फ़ंक्शन का उपयोग करते हुए, अध्ययन के तहत निर्भरता की सामान्य प्रवृत्ति का वर्णन करती है और साइड कारकों के प्रभाव से अनियमित, यादृच्छिक आउटलेयर को सुचारू करती है।

मूल्यांकन कार्यों में युग्मित प्रतिगमन निर्भरता प्रदर्शित करने के लिए, निम्नलिखित कार्यों का सबसे अधिक उपयोग किया जाता है: रैखिक - वाई - एक 0 + एआरएस + एसशक्ति - वाई - एजे और आई + सीप्रदर्शनकारी - वाई -रैखिक घातांक - वाई - ए 0 + एआर * + एस।यहां - इयादृच्छिक कारकों के लिए बेहिसाब कार्रवाई के कारण सन्निकटन त्रुटि।

इन कार्यों में, y परिणामी चर है; एक्स - कारक चर (कारक); एक 0 , ए आर ए 2 -प्रतिगमन मॉडल पैरामीटर, प्रतिगमन गुणांक।

रैखिक घातांक मॉडल फॉर्म के तथाकथित हाइब्रिड मॉडल के वर्ग से संबंधित है:

कहाँ पे

जहां x (मैं = 1, /) - कारकों के मूल्य;

बी टी (मैं = 0, /) प्रतीपगमन समीकरण के गुणांक हैं।

इस समीकरण में, घटक ए, बीतथा जेडसंपत्ति के अलग-अलग घटकों की लागत के अनुरूप, उदाहरण के लिए, एक भूमि भूखंड की लागत और सुधार की लागत, और पैरामीटर क्यूवह सामान्य है। यह एक सामान्य प्रभाव कारक, जैसे स्थान के लिए मूल्यवान संपत्ति के सभी घटकों के मूल्य को समायोजित करने के लिए डिज़ाइन किया गया है।

कारकों के मान जो संबंधित गुणांक की डिग्री में हैं, द्विआधारी चर (0 या 1) हैं। डिग्री के आधार पर कारक असतत या निरंतर चर हैं।

गुणन चिह्न गुणांक से जुड़े कारक भी निरंतर या असतत होते हैं।

विनिर्देश, एक नियम के रूप में, एक अनुभवजन्य दृष्टिकोण का उपयोग करके किया जाता है और इसमें दो चरण शामिल होते हैं:

? ग्राफ पर रिग्रेशन फील्ड के प्लॉटिंग पॉइंट्स;
? एक संभावित सन्निकटन वक्र के प्रकार का चित्रमय (दृश्य) विश्लेषण।

प्रतिगमन वक्र का प्रकार हमेशा तुरंत चयन योग्य नहीं होता है। इसे निर्धारित करने के लिए, प्रतिगमन क्षेत्र के बिंदुओं को पहले प्रारंभिक डेटा के अनुसार ग्राफ पर प्लॉट किया जाता है। फिर बिंदुओं की स्थिति के साथ एक रेखा नेत्रहीन रूप से खींची जाती है, जो कनेक्शन के गुणात्मक पैटर्न का पता लगाने की कोशिश कर रही है: एक समान वृद्धि या एक समान कमी, वृद्धि (कमी) के साथ गतिकी की दर में वृद्धि (कमी), एक चिकनी दृष्टिकोण एक निश्चित स्तर।

अध्ययन के तहत कारकों की आर्थिक और भौतिक प्रकृति और उनके पारस्परिक प्रभाव के बारे में पहले से ही ज्ञात विचारों से शुरू होकर, यह अनुभवजन्य दृष्टिकोण तार्किक विश्लेषण द्वारा पूरक है।

उदाहरण के लिए, यह ज्ञात है कि परिणामी चर की निर्भरता - कई कारक चर पर आर्थिक संकेतक (कीमत, किराया) - मूल्य-निर्माण कारक (निपटान, क्षेत्र, आदि के केंद्र से दूरी) गैर-रैखिक हैं , और उन्हें एक शक्ति, घातीय या द्विघात कार्य द्वारा काफी सख्ती से वर्णित किया जा सकता है। लेकिन कारकों की छोटी श्रेणियों के साथ, एक रैखिक फ़ंक्शन का उपयोग करके स्वीकार्य परिणाम भी प्राप्त किए जा सकते हैं।

यदि किसी एक फ़ंक्शन का तुरंत आत्मविश्वास से चुनाव करना अभी भी असंभव है, तो दो या तीन फ़ंक्शन चुने जाते हैं, उनके मापदंडों की गणना की जाती है, और फिर, कनेक्शन की जकड़न के लिए उपयुक्त मानदंड का उपयोग करके, फ़ंक्शन को अंततः चुना जाता है।

सिद्धांत रूप में, वक्र के आकार को खोजने की प्रतिगमन प्रक्रिया को कहा जाता है विनिर्देशमॉडल, और इसके गुणांक - अंशांकनमॉडल।

यदि यह पाया जाता है कि परिणामी चर y कई तथ्यात्मक चर (कारकों) पर निर्भर करता है एक्स ( , एक्स 2 , ..., एक्स के,फिर वे एक बहु प्रतिगमन मॉडल बनाने का सहारा लेते हैं। आमतौर पर बहुसंचार के तीन रूपों का उपयोग किया जाता है: रैखिक - वाई - ए 0 + ए एक्स एक्स एक्स + ए ^ एक्स 2 + ... + एक के एक्स के,प्रदर्शनकारी - वाई - ए 0 ए*मैं ए एक्स टी- ए एक्स बी,शक्ति - वाई - ए 0 एक्स एक्स ix 2 a 2. .x^ या उसके संयोजन।

घातीय और घातीय कार्य अधिक सार्वभौमिक हैं, क्योंकि वे गैर-रैखिक संबंधों का अनुमान लगाते हैं, जो कि मूल्यांकन में अध्ययन किए गए अधिकांश निर्भरताएं हैं। इसके अलावा, उनका उपयोग वस्तुओं के मूल्यांकन में और बड़े पैमाने पर मूल्यांकन के लिए सांख्यिकीय मॉडलिंग की विधि में और सुधार कारकों की स्थापना करते समय व्यक्तिगत मूल्यांकन में प्रत्यक्ष तुलना की विधि में किया जा सकता है।

अंशांकन चरण में, प्रतिगमन मॉडल के मापदंडों की गणना कम से कम वर्ग विधि द्वारा की जाती है, जिसका सार यह है कि परिणामी चर के परिकलित मूल्यों के वर्ग विचलन का योग है पर।, अर्थात। चयनित संबंध समीकरण के अनुसार गणना, वास्तविक मूल्यों से न्यूनतम होना चाहिए:

मान जे) (। और वाईजाना जाता है, इसलिए क्यूसमीकरण के केवल गुणांकों का एक फलन है। न्यूनतम खोजने के लिए एसआंशिक डेरिवेटिव लें क्यूसमीकरण के गुणांकों द्वारा और उन्हें शून्य के बराबर करें:

नतीजतन, हम सामान्य समीकरणों की एक प्रणाली प्राप्त करते हैं, जिसकी संख्या वांछित प्रतिगमन समीकरण के निर्धारित गुणांक की संख्या के बराबर होती है।

मान लीजिए हमें रैखिक समीकरण के गुणांकों को खोजने की आवश्यकता है वाई - ए 0 + एआरएस।वर्ग विचलन का योग है:

/=1

फ़ंक्शन को अलग करें क्यूअज्ञात गुणांकों द्वारा एक 0और और आंशिक डेरिवेटिव को शून्य के बराबर करें:

परिवर्तन के बाद हमें मिलता है:

कहाँ पे पी -वास्तविक वास्तविक मूल्यों की संख्या परउन्हें (एनालॉग की संख्या)।

प्रतिगमन समीकरण के गुणांकों की गणना के लिए उपरोक्त प्रक्रिया गैर-रेखीय निर्भरताओं के लिए भी लागू होती है, यदि इन निर्भरताओं को रैखिक किया जा सकता है, अर्थात। चरों के परिवर्तन का उपयोग करके एक रैखिक रूप में लाना। लघुगणक लेने के बाद शक्ति और घातीय कार्य और चर के संगत परिवर्तन एक रैखिक रूप प्राप्त करते हैं। उदाहरण के लिए, एक लघुगणक लेने के बाद एक शक्ति कार्य रूप लेता है: y \u003d 1n 0 . में +ए एक्स 1 घंटे चरों के परिवर्तन के बाद वाई-में वाई, एल 0 -में और नंबर एक्स- x में हमें एक रेखीय फलन मिलता है

वाई = ए0 + सीजेएक्स,जिनके गुणांक ऊपर वर्णित अनुसार पाए जाते हैं।

बहु प्रतिगमन मॉडल के गुणांकों की गणना के लिए कम से कम वर्ग विधि का भी उपयोग किया जाता है। तो, दो चर के साथ एक रैखिक कार्य की गणना के लिए सामान्य समीकरणों की प्रणाली Xjतथा एक्स 2परिवर्तनों की एक श्रृंखला के बाद, यह इस तरह दिखता है:

आमतौर पर समीकरणों की इस प्रणाली को रैखिक बीजगणित विधियों का उपयोग करके हल किया जाता है। एक बहु घातांकीय फलन को एक रेखीय रूप में लाया जाता है, जिसमें लघुगणक और चरों को एक युग्मित घातांकीय फलन की तरह ही बदल दिया जाता है।

हाइब्रिड मॉडल का उपयोग करते समय, क्रमिक सन्निकटन की विधि की संख्यात्मक प्रक्रियाओं का उपयोग करते हुए कई प्रतिगमन गुणांक पाए जाते हैं।

कई प्रतिगमन समीकरणों के बीच अंतिम विकल्प बनाने के लिए, रिश्ते की जकड़न के लिए प्रत्येक समीकरण का परीक्षण करना आवश्यक है, जिसे सहसंबंध गुणांक, विचरण और भिन्नता के गुणांक द्वारा मापा जाता है। आप मूल्यांकन के लिए छात्र और फिशर मानदंड का भी उपयोग कर सकते हैं। कनेक्शन की जकड़न जितनी अधिक वक्र को प्रकट करती है, उतनी ही बेहतर होती है, अन्य सभी चीजें समान होती हैं।

यदि इस तरह के एक वर्ग की समस्या का समाधान किया जा रहा है, जब लागत कारकों पर लागत संकेतक की निर्भरता स्थापित करना आवश्यक है, तो अधिक से अधिक प्रभावित करने वाले कारकों को ध्यान में रखते हुए और इस तरह एक अधिक सटीक एकाधिक प्रतिगमन मॉडल बनाने की इच्छा है समझने योग्य। हालांकि, दो उद्देश्य सीमाएं कारकों की संख्या के विस्तार में बाधा डालती हैं। सबसे पहले, एक बहु प्रतिगमन मॉडल के निर्माण के लिए युग्मित मॉडल के निर्माण की तुलना में वस्तुओं के बहुत बड़े नमूने की आवश्यकता होती है। यह आम तौर पर स्वीकार किया जाता है कि नमूने में वस्तुओं की संख्या संख्या से अधिक होनी चाहिए पीकारक, कम से कम 5-10 बार। यह इस प्रकार है कि तीन प्रभावित करने वाले कारकों के साथ एक मॉडल बनाने के लिए, कारक मूल्यों के विभिन्न सेटों के साथ लगभग 20 वस्तुओं का एक नमूना एकत्र करना आवश्यक है। दूसरे, मूल्य संकेतक पर उनके प्रभाव में मॉडल के लिए चुने गए कारक एक दूसरे से पर्याप्त रूप से स्वतंत्र होने चाहिए। यह सुनिश्चित करना आसान नहीं है, क्योंकि नमूना आमतौर पर एक ही परिवार से संबंधित वस्तुओं को जोड़ता है, जिसमें वस्तु से वस्तु में कई कारकों में नियमित परिवर्तन होता है।

गुणवत्ता प्रतिगमन मॉडल, एक नियम के रूप में, निम्नलिखित आँकड़ों का उपयोग करके जाँच करें।

प्रतिगमन समीकरण त्रुटि का मानक विचलन (आकलन त्रुटि):

कहाँ पे पी -नमूना आकार (एनालॉग की संख्या);

प्रति -कारकों की संख्या (लागत कारक);

प्रतिगमन समीकरण द्वारा अस्पष्टीकृत त्रुटि (चित्र। 3.2);

वाई -परिणामी चर का वास्तविक मूल्य (उदाहरण के लिए, लागत); वाई टी -परिणामी चर का परिकलित मान।

इस सूचक को भी कहा जाता है अनुमान की मानक त्रुटि (RMS त्रुटि)) आकृति में, बिंदु नमूने के विशिष्ट मूल्यों को इंगित करते हैं, प्रतीक नमूने के औसत मूल्यों की रेखा को इंगित करता है, इच्छुक डैश-बिंदीदार रेखा प्रतिगमन रेखा है।

चावल। 3.2.

अनुमान त्रुटि का मानक विचलन संबंधित परिकलित मानों से y के वास्तविक मानों के विचलन की मात्रा को मापता है। पर( , प्रतिगमन मॉडल का उपयोग करके प्राप्त किया गया। यदि नमूना जिस पर मॉडल बनाया गया है वह सामान्य वितरण कानून के अधीन है, तो यह तर्क दिया जा सकता है कि वास्तविक मूल्यों का 68% परदायरे में हैं पर ± &इप्रतिगमन रेखा से, और 95% - सीमा में पर ± 2डी ई. यह सूचक सुविधाजनक है क्योंकि माप की इकाइयाँ एसजी?माप की इकाइयों का मिलान करें पर,। इस संबंध में, इसका उपयोग मूल्यांकन प्रक्रिया में प्राप्त परिणाम की सटीकता को इंगित करने के लिए किया जा सकता है। उदाहरण के लिए, मूल्य के प्रमाण पत्र में, आप संकेत कर सकते हैं कि प्रतिगमन मॉडल का उपयोग करके प्राप्त बाजार मूल्य का मूल्य वी 95% की संभावना के साथ की सीमा में है (वी-2डी,।)इससे पहले (पर + 2ds)।

परिणामी चर की भिन्नता का गुणांक:

कहाँ पे वाई -परिणामी चर का माध्य मान (चित्र 3.2)।

प्रतिगमन विश्लेषण में, भिन्नता var का गुणांक परिणाम का मानक विचलन है, जिसे परिणाम चर के माध्य के प्रतिशत के रूप में व्यक्त किया जाता है। भिन्नता का गुणांक परिणामी प्रतिगमन मॉडल के भविष्य कहनेवाला गुणों के लिए एक मानदंड के रूप में काम कर सकता है: मान जितना छोटा होगा वर, उच्च मॉडल के भविष्य कहनेवाला गुण हैं। विचरण के गुणांक का उपयोग घातांक और ई के लिए बेहतर है, क्योंकि यह एक सापेक्ष घातांक है। इस सूचक के व्यावहारिक उपयोग में, ऐसे मॉडल का उपयोग न करने की अनुशंसा की जा सकती है जिसका भिन्नता गुणांक 33% से अधिक है, क्योंकि इस मामले में यह नहीं कहा जा सकता है कि ये नमूने सामान्य वितरण कानून के अधीन हैं।

निर्धारण गुणांक (एकाधिक सहसंबंध गुणांक वर्ग):

इस सूचक का उपयोग परिणामी प्रतिगमन मॉडल की समग्र गुणवत्ता का विश्लेषण करने के लिए किया जाता है। यह इंगित करता है कि मॉडल में शामिल सभी कारक चर के प्रभाव के कारण परिणामी चर में भिन्नता का कितना प्रतिशत है। निर्धारण गुणांक हमेशा शून्य से एक की सीमा में होता है। एकता के लिए दृढ़ संकल्प गुणांक का मान जितना करीब होगा, मॉडल उतना ही बेहतर डेटा श्रृंखला का वर्णन करेगा। निर्धारण के गुणांक को दूसरे तरीके से दर्शाया जा सकता है:

यहाँ प्रतिगमन मॉडल द्वारा समझाया गया त्रुटि है,

एक - त्रुटि अस्पष्टीकृत

प्रतिगमन मॉडल। आर्थिक दृष्टिकोण से, यह मानदंड यह निर्धारित करना संभव बनाता है कि प्रतिगमन समीकरण द्वारा मूल्य भिन्नता का कितना प्रतिशत समझाया गया है।

संकेतक की सटीक स्वीकृति सीमा R2सभी मामलों के लिए निर्दिष्ट करना असंभव है। नमूना आकार और समीकरण की सार्थक व्याख्या दोनों को ध्यान में रखा जाना चाहिए। एक नियम के रूप में, लगभग एक ही समय में प्राप्त एक ही प्रकार की वस्तुओं पर डेटा का अध्ययन करते समय, मान R2 0.6-0.7 के स्तर से अधिक नहीं है। यदि सभी पूर्वानुमान त्रुटियाँ शून्य हैं, अर्थात। जब परिणामी और कारक चर के बीच संबंध कार्यात्मक होता है, तब R2 =1.

निर्धारण का समायोजित गुणांक:

निर्धारण के एक समायोजित गुणांक को पेश करने की आवश्यकता को इस तथ्य से समझाया गया है कि कारकों की संख्या में वृद्धि के साथ प्रतिनिर्धारण का सामान्य गुणांक लगभग हमेशा बढ़ता है, लेकिन स्वतंत्रता की डिग्री की संख्या घट जाती है (एन - के- एक)। दर्ज किया गया समायोजन हमेशा मूल्य को कम करता है R2,क्यों कि (पी - 1) > (एन- से -एक)। परिणामस्वरूप, मान आर 2 सीकेओएफ)नकारात्मक भी हो सकता है। इसका मतलब है कि मूल्य R2समायोजन से पहले शून्य के करीब था और चर के प्रतिगमन समीकरण द्वारा समझाया गया विचरण का अनुपात परबहुत छोटे से।

प्रतिगमन मॉडल के दो प्रकारों में से जो निर्धारण के समायोजित गुणांक के मूल्य में भिन्न होते हैं, लेकिन समान रूप से अच्छे अन्य गुणवत्ता मानदंड होते हैं, निर्धारण के समायोजित गुणांक के बड़े मूल्य के साथ संस्करण बेहतर होता है। निर्धारण के गुणांक को समायोजित नहीं किया जाता है यदि (एन - के): के> 20.

फिशर अनुपात:

इस मानदंड का उपयोग निर्धारण गुणांक के महत्व का आकलन करने के लिए किया जाता है। वर्गों का अवशिष्ट योग ज्ञात लागत मूल्यों के प्रतिगमन का उपयोग करके भविष्यवाणी त्रुटि का एक उपाय है पर..वर्गों के प्रतिगमन योग के साथ इसकी तुलना से पता चलता है कि कितनी बार प्रतिगमन निर्भरता माध्य से बेहतर परिणाम की भविष्यवाणी करती है पर. महत्वपूर्ण मूल्यों की एक तालिका है एफ आरअंश की स्वतंत्रता की डिग्री की संख्या के आधार पर फिशर गुणांक - प्रति, हर वी 2 = पी - के- 1 और महत्व स्तर ए। यदि फिशर मानदंड का परिकलित मान एफ आरतालिका मान से अधिक है, तो निर्धारण के गुणांक के महत्व की परिकल्पना, अर्थात्। प्रतिगमन समीकरण और वास्तव में मौजूदा लोगों में अंतर्निहित संबंधों के बीच विसंगति के बारे में, संभावना के साथ p = 1 - a को खारिज कर दिया जाता है।

औसत सन्निकटन त्रुटि(औसत प्रतिशत विचलन) की गणना औसत सापेक्ष अंतर के रूप में की जाती है, जिसे प्रतिशत के रूप में व्यक्त किया जाता है, परिणामी चर के वास्तविक और परिकलित मूल्यों के बीच:

कैसे कम मूल्यदिए गए संकेतक, मॉडल की भविष्य कहनेवाला गुणवत्ता बेहतर है। जब इस सूचक का मूल्य 7% से अधिक नहीं होता है, तो वे मॉडल की उच्च सटीकता का संकेत देते हैं। यदि एक 8 > 15%, मॉडल की असंतोषजनक सटीकता का संकेत देते हैं।

प्रतिगमन गुणांक की मानक त्रुटि:

जहां (/I) -1 .- मैट्रिक्स का विकर्ण तत्व (एक्स जी एक्स) ~ 1 से -कारकों की संख्या;

एक्स-कारक चर मानों का मैट्रिक्स:

एक्स 7 -कारक चर मानों का ट्रांसपोज़्ड मैट्रिक्स;

(जेएल) _| एक मैट्रिक्स के विपरीत एक मैट्रिक्स है।

प्रत्येक प्रतिगमन गुणांक के लिए ये स्कोर जितना छोटा होगा, संबंधित प्रतिगमन गुणांक का अनुमान उतना ही अधिक विश्वसनीय होगा।

छात्र का परीक्षण (टी-सांख्यिकी):

यह मानदंड आपको दिए गए प्रतिगमन गुणांक के कारण रिश्ते की विश्वसनीयता (महत्व) की डिग्री को मापने की अनुमति देता है। यदि परिकलित मान टी. तालिका मान से अधिक

टीए वी, जहां वी - पी - के - 1 स्वतंत्रता की डिग्री की संख्या है, तो परिकल्पना कि यह गुणांक सांख्यिकीय रूप से महत्वहीन है (100 - ए)% की संभावना के साथ खारिज कर दिया गया है। /-वितरण की विशेष तालिकाएँ हैं जो किसी दिए गए स्तर के महत्व और स्वतंत्रता की डिग्री की संख्या द्वारा मानदंड के महत्वपूर्ण मूल्य को निर्धारित करना संभव बनाती हैं। a का सबसे अधिक इस्तेमाल किया जाने वाला मान 5% है।

multicollinearity, अर्थात। कारक चर के बीच पारस्परिक संबंधों के प्रभाव से सीमित संख्या में संतुष्ट होने की आवश्यकता होती है। यदि इसे ध्यान में नहीं रखा जाता है, तो आप एक अतार्किक प्रतिगमन मॉडल के साथ समाप्त हो सकते हैं। बहुसंकेतन के नकारात्मक प्रभाव से बचने के लिए, एक बहु प्रतिगमन मॉडल बनाने से पहले, जोड़ी सहसंबंध गुणांक की गणना की जाती है आरएक्सजेएक्सजेचयनित चर के बीच एक्स।तथा एक्स

यहां एक्सजेएक्स; -दो भाज्य चरों के गुणनफल का माध्य मान;

एक्सजेएक्सजे-दो कारक चर के औसत मूल्यों का उत्पाद;

कारक चर x के प्रसरण का मूल्यांकन..

दो चरों को प्रतिगामी रूप से संबंधित माना जाता है (अर्थात, कोलिनियर) यदि उनका जोड़ीदार सहसंबंध गुणांक निरपेक्ष मान में 0.8 से सख्ती से अधिक है। इस मामले में, इनमें से किसी भी चर को विचार से बाहर रखा जाना चाहिए।

परिणामी प्रतिगमन मॉडल के आर्थिक विश्लेषण की संभावनाओं का विस्तार करने के लिए, औसत का उपयोग किया जाता है लोच के गुणांक,सूत्र द्वारा निर्धारित:

कहाँ पे एक्सजे-संगत कारक चर का माध्य मान;

वाई -परिणामी चर का माध्य मान; एक मैं -संबंधित कारक चर के लिए प्रतिगमन गुणांक।

लोच गुणांक दर्शाता है कि परिणामी चर का मान औसतन कितने प्रतिशत बदलेगा जब कारक चर 1% से बदलता है, अर्थात। परिणामी चर, कारक चर में परिवर्तन पर कैसे प्रतिक्रिया करता है। उदाहरण के लिए, वर्ग की कीमत कैसे होती है। शहर के केंद्र से कुछ दूरी पर अपार्टमेंट का मी क्षेत्र।

किसी विशेष समाश्रयण गुणांक के महत्व का विश्लेषण करने की दृष्टि से उपयोगी अनुमान है निर्धारण का निजी गुणांक:

यहाँ परिणामी के प्रसरण का अनुमान है

चर। यह गुणांक दर्शाता है कि प्रतीपगमन समीकरण में शामिल /-वें कारक चर के परिवर्तन द्वारा परिणामी चर की भिन्नता को कितने प्रतिशत समझाया गया है।

हेडोनिक विशेषताओं को किसी वस्तु की विशेषताओं के रूप में समझा जाता है जो खरीदारों और विक्रेताओं के दृष्टिकोण से इसके उपयोगी (मूल्यवान) गुणों को दर्शाती है।

प्रतिगमन की परिभाषा

चरों के बीच संबंध कितने प्रकार के होते हैं

प्रतिगमन के प्रकार

अतिशयोक्तिपूर्ण, रैखिक और लघुगणक

एकाधिक और गैर-रैखिक

व्युत्क्रम और जोड़ीदार प्रतिगमन

सहसंबंध की अवधारणा

तरीकों

एकाधिक प्रतिगमन के लिए सहसंबंध

कम से कम वर्ग विधि

समीकरण विकल्प

समूहीकृत डेटा

एकाधिक जोड़ी समीकरण प्रतिगमन: एक रिश्ते के महत्व का आकलन

एकाधिक प्रतिगमन का निर्माण करते समय किन कारकों पर विचार किया जाना चाहिए

निर्माण के तरीके

बहुभिन्नरूपी विश्लेषण के तरीके

प्रतिगमन लाइन

कम से कम वर्ग विधि

रैखिक प्रतिगमन धारणाएँ

असामान्य मूल्य (बाहरी) और प्रभाव के बिंदु

रैखिक प्रतिगमन परिकल्पना

रैखिक प्रतिगमन की गुणवत्ता का मूल्यांकन: निर्धारण का गुणांक R 2

एक पूर्वानुमान के लिए एक प्रतिगमन रेखा लागू करना

सरल प्रतिगमन योजनाएं

उदाहरण: सरल प्रतिगमन विश्लेषण

अनुसंधान उद्देश्य

परिणाम देखें

प्रतिगमन गुणांक

चर का वितरण

स्कैटर प्लॉट

महत्व मानदंड

नतीजा

यह भी पढ़ें