सहसंबंध क्या है। सहसंबंध विश्लेषण। सहसंबंध विश्लेषण में सॉफ्टवेयर का उपयोग

पियर्सन का सहसंबंध परीक्षण एक पैरामीट्रिक सांख्यिकी पद्धति है जो आपको दो मात्रात्मक संकेतकों के बीच एक रैखिक संबंध की उपस्थिति या अनुपस्थिति को निर्धारित करने के साथ-साथ इसकी निकटता और सांख्यिकीय महत्व का मूल्यांकन करने की अनुमति देती है। दूसरे शब्दों में, पियर्सन सहसंबंध परीक्षण आपको यह निर्धारित करने की अनुमति देता है कि दो चर के मूल्यों में परिवर्तन के बीच एक रैखिक संबंध है या नहीं। सांख्यिकीय गणना और अनुमानों में, सहसंबंध गुणांक को आमतौर पर दर्शाया जाता है आरएक्सवाईया Rxy.

1. सहसंबंध मानदंड के विकास का इतिहास

पियर्सन सहसंबंध परीक्षण किसके नेतृत्व में ब्रिटिश वैज्ञानिकों की एक टीम द्वारा विकसित किया गया था? कार्ल पियर्सन(1857-1936) 19वीं सदी के 90 के दशक में, दो यादृच्छिक चर के सहप्रसरण के विश्लेषण को सरल बनाने के लिए। कार्ल पियर्सन के अलावा, पियर्सन के सहसंबंध परीक्षण पर भी काम किया गया था फ्रांसिस एडगेवर्थतथा राफेल वेल्डन.

2. पियर्सन सहसंबंध परीक्षण किसके लिए प्रयोग किया जाता है?

पियर्सन सहसंबंध मानदंड आपको यह निर्धारित करने की अनुमति देता है कि मात्रात्मक पैमाने पर मापे गए दो संकेतकों के बीच सहसंबंध की निकटता (या ताकत) क्या है। अतिरिक्त गणनाओं की सहायता से, आप यह भी निर्धारित कर सकते हैं कि पहचाना गया संबंध सांख्यिकीय रूप से कितना महत्वपूर्ण है।

उदाहरण के लिए, पियर्सन सहसंबंध मानदंड का उपयोग करके, कोई इस प्रश्न का उत्तर दे सकता है कि क्या तीव्र श्वसन संक्रमण में शरीर के तापमान और रक्त में ल्यूकोसाइट्स की सामग्री के बीच, रोगी की ऊंचाई और वजन के बीच, सामग्री के बीच संबंध है या नहीं पेय जलफ्लोराइड और जनसंख्या में क्षरण की घटना।

3. पियर्सन के ची-स्क्वायर टेस्ट के उपयोग पर शर्तें और प्रतिबंध

  1. तुलनीय संकेतकों को मापा जाना चाहिए मात्रात्मक पैमाने(उदाहरण के लिए, हृदय गति, शरीर का तापमान, प्रति 1 मिलीलीटर रक्त में ल्यूकोसाइट गिनती, सिस्टोलिक रक्तचाप)।
  2. पियर्सन सहसंबंध मानदंड के माध्यम से, केवल यह निर्धारित करना संभव है एक रैखिक संबंध की उपस्थिति और ताकतमात्राओं के बीच। संबंध की अन्य विशेषताएं, जिसमें दिशा (प्रत्यक्ष या उल्टा), परिवर्तनों की प्रकृति (रेक्टिलिनियर या कर्विलिनियर), साथ ही साथ एक चर की दूसरे पर निर्भरता, प्रतिगमन विश्लेषण का उपयोग करके निर्धारित की जाती है।
  3. तुलना किए जाने वाले मानों की संख्या दो के बराबर होनी चाहिए। तीन या अधिक मापदंडों के संबंध का विश्लेषण करने के मामले में, आपको विधि का उपयोग करना चाहिए कारक विश्लेषण.
  4. पियर्सन का सहसंबंध मानदंड है पैरामीट्रिक, जिसके संबंध में इसके आवेदन की शर्त है सामान्य वितरणमिलान चर। यदि संकेतकों का सहसंबंध विश्लेषण करना आवश्यक है, जिनका वितरण सामान्य से भिन्न होता है, जिसमें एक क्रमिक पैमाने पर मापा जाता है, तो स्पीयरमैन के रैंक सहसंबंध गुणांक का उपयोग किया जाना चाहिए।
  5. निर्भरता और सहसंबंध की अवधारणाओं के बीच स्पष्ट रूप से अंतर करना आवश्यक है। मूल्यों की निर्भरता उनके बीच संबंध की उपस्थिति को निर्धारित करती है, लेकिन इसके विपरीत नहीं।

उदाहरण के लिए, एक बच्चे की वृद्धि उसकी उम्र पर निर्भर करती है, अर्थात क्या बड़ा बच्चा, यह जितना ऊंचा है। यदि हम अलग-अलग उम्र के दो बच्चों को लें, तो उच्च स्तर की संभावना के साथ बड़े बच्चे की वृद्धि छोटे बच्चे की तुलना में अधिक होगी। इस घटना को कहा जाता है लत, संकेतकों के बीच एक कारण संबंध लागू करना। बेशक, वहाँ भी हैं सह - संबंध, जिसका अर्थ है कि एक संकेतक में परिवर्तन दूसरे संकेतक में परिवर्तन के साथ होता है।

एक अन्य स्थिति में, बच्चे की वृद्धि और हृदय गति (एचआर) के बीच संबंध पर विचार करें। जैसा कि आप जानते हैं, ये दोनों मूल्य सीधे उम्र पर निर्भर हैं, इसलिए, ज्यादातर मामलों में, अधिक ऊंचाई वाले बच्चों (और इसलिए बड़ी उम्र के) में हृदय गति का मान कम होगा। वह है, सह - संबंधमनाया जाएगा और इसमें पर्याप्त रूप से उच्च जकड़न हो सकती है। हालाँकि, अगर हम बच्चों को लेते हैं समान आयु, लेकिन अलग ऊंचाई, तो, सबसे अधिक संभावना है, उनकी हृदय गति में मामूली अंतर होगा, जिसके संबंध में हम यह निष्कर्ष निकाल सकते हैं आजादीवृद्धि से हृदय गति।

उपरोक्त उदाहरण से पता चलता है कि आँकड़ों में मूलभूत अवधारणाओं के बीच अंतर करना कितना महत्वपूर्ण है सम्बन्धतथा निर्भरतासही निष्कर्ष निकालने के लिए संकेतक।

4. पियर्सन सहसंबंध गुणांक की गणना कैसे करें?

पियर्सन के सहसंबंध गुणांक की गणना निम्न सूत्र का उपयोग करके की जाती है:

5. पियर्सन सहसंबंध गुणांक के मूल्य की व्याख्या कैसे करें?

पियर्सन सहसंबंध गुणांक के मूल्यों की व्याख्या इसके निरपेक्ष मूल्यों के आधार पर की जाती है। सहसंबंध गुणांक के संभावित मान 0 से ±1 तक भिन्न होते हैं। r xy का निरपेक्ष मान जितना अधिक होगा, दो राशियों के बीच संबंध की निकटता उतनी ही अधिक होगी। r xy = 0 कनेक्शन के पूर्ण अभाव को इंगित करता है। r xy = 1 - एक निरपेक्ष (कार्यात्मक) कनेक्शन की उपस्थिति को इंगित करता है। यदि पियर्सन सहसंबंध मानदंड का मान 1 से अधिक या -1 से कम निकला, तो गणना में एक त्रुटि की गई थी।

सहसंबंध की निकटता, या ताकत का आकलन करने के लिए, आम तौर पर स्वीकृत मानदंडों का उपयोग किया जाता है, जिसके अनुसार r xy के निरपेक्ष मान< 0.3 свидетельствуют о कमज़ोरकनेक्शन, r xy मान 0.3 से 0.7 तक - कनेक्शन के बारे में मध्यमजकड़न, r xy मान > 0.7 - o बलवानसम्बन्ध।

सहसंबंध की ताकत का अधिक सटीक अनुमान का उपयोग करके प्राप्त किया जा सकता है चाडॉक टेबल:

श्रेणी आंकड़ों की महत्तासहसंबंध गुणांक r xy t-परीक्षण का उपयोग करके किया जाता है, जिसकी गणना निम्न सूत्र द्वारा की जाती है:

प्राप्त मूल्य t r की तुलना एक निश्चित स्तर के महत्व और स्वतंत्रता की डिग्री n-2 पर महत्वपूर्ण मूल्य के साथ की जाती है। यदि टी आर टी क्रिट से अधिक है, तो पहचाने गए सहसंबंध के सांख्यिकीय महत्व के बारे में एक निष्कर्ष निकाला जाता है।

6. पियर्सन सहसंबंध गुणांक की गणना का एक उदाहरण

अध्ययन का उद्देश्य दो मात्रात्मक संकेतकों के बीच सहसंबंध की मजबूती और सांख्यिकीय महत्व की पहचान करना, निर्धारित करना था: रक्त में टेस्टोस्टेरोन का स्तर (एक्स) और शरीर में मांसपेशियों का प्रतिशत (वाई)। तालिका में 5 विषयों (एन = 5) के नमूने के प्रारंभिक डेटा को संक्षेप में प्रस्तुत किया गया है।

सहसंबंध के साथएक विशेषता का समान मान दूसरे के विभिन्न मूल्यों से मेल खाता है। उदाहरण के लिए: ऊंचाई और वजन के बीच, घातक नियोप्लाज्म और उम्र आदि की घटनाओं के बीच एक संबंध है।

सहसंबंध गुणांक की गणना के लिए 2 विधियाँ हैं: वर्गों की विधि (पियर्सन), रैंक की विधि (स्पीयरमैन)।

सबसे सटीक वर्ग विधि (पियर्सन) है, जिसमें सहसंबंध गुणांक सूत्र द्वारा निर्धारित किया जाता है: , जहां

r xy सांख्यिकीय श्रृंखला X और Y के बीच सहसंबंध गुणांक है।

d x प्रत्येक संख्या का विचलन है सांख्यिकीय श्रृंखला X अपने अंकगणितीय माध्य से।

d y सांख्यिकीय श्रृंखला Y की प्रत्येक संख्या का उसके अंकगणितीय माध्य से विचलन है।

कनेक्शन की ताकत और उसकी दिशा के आधार पर, सहसंबंध गुणांक 0 से 1 (-1) तक हो सकता है। 0 का सहसंबंध गुणांक कनेक्शन की पूर्ण कमी को इंगित करता है। सहसंबंध गुणांक का स्तर 1 या (-1) के जितना करीब होगा, क्रमशः उतना ही अधिक होगा, इसके द्वारा मापी गई प्रत्यक्ष या प्रतिक्रिया के करीब। 1 या (-1) के बराबर सहसंबंध गुणांक के साथ, कनेक्शन पूर्ण, कार्यात्मक है।

सहसंबंध गुणांक द्वारा सहसंबंध की ताकत का आकलन करने की योजना

कनेक्शन की ताकत

सहसंबंध गुणांक का मान, यदि उपलब्ध हो

सीधा कनेक्शन (+)

प्रतिक्रिया (-)

कोई कनेक्शन नहीं

संचार छोटा (कमजोर) है

0 से +0.29 . तक

0 से -0.29

संचार औसत (मध्यम)

+0.3 से +0.69

-0.3 से -0.69

संचार बड़ा (मजबूत)

+0.7 से +0.99

-0.7 से -0.99

संचार पूरा हो गया है

(कार्यात्मक)

वर्गों की विधि का उपयोग करके सहसंबंध गुणांक की गणना करने के लिए, 7 स्तंभों की एक तालिका संकलित की जाती है। आइए एक उदाहरण का उपयोग करके गणना प्रक्रिया का विश्लेषण करें:

के बीच संबंधों की ताकत और प्रकृति का निर्धारण

यह समय है-

सत्ता

गण्डमाला

(वी आप )

डी एक्स = वी एक्सएम एक्स

डी वाई = वी आपएम आप

डी एक्स डी आप

डी एक्स 2

डी आप 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. पानी में आयोडीन की औसत सामग्री (मिलीग्राम / एल में) निर्धारित करें।

मिलीग्राम/ली

2. गण्डमाला की औसत घटना को% में निर्धारित करें।

3. प्रत्येक V x का M x से विचलन ज्ञात कीजिए, अर्थात्। घ एक्स.

201-138=63; 178-138=40 आदि।

4. इसी प्रकार, हम प्रत्येक V y का M y से विचलन ज्ञात करते हैं, अर्थात्। डी

0.2–3.8=-3.6; 0.6-38=-3.2 आदि।

5. हम विचलन के उत्पादों का निर्धारण करते हैं। परिणामी उत्पाद को सारांशित किया जाता है और प्राप्त किया जाता है।

6. हम d x का वर्ग करते हैं और परिणामों को संक्षेप में प्रस्तुत करते हैं, जो हमें प्राप्त होते हैं।

7. इसी प्रकार, हम d y का वर्ग करते हैं, परिणामों को सारांशित करते हैं, हमें प्राप्त होता है

8. अंत में, हम प्राप्त सभी राशियों को सूत्र में प्रतिस्थापित करते हैं:

सहसंबंध गुणांक की विश्वसनीयता के मुद्दे को हल करने के लिए, इसकी औसत त्रुटि सूत्र द्वारा निर्धारित की जाती है:

(यदि प्रेक्षणों की संख्या 30 से कम है, तो हर n-1 है)।

हमारे उदाहरण में

सहसंबंध गुणांक का मान विश्वसनीय माना जाता है यदि यह अपनी औसत त्रुटि से कम से कम 3 गुना अधिक हो।

हमारे उदाहरण में

इस प्रकार, सहसंबंध गुणांक विश्वसनीय नहीं है, जिससे टिप्पणियों की संख्या में वृद्धि करना आवश्यक हो जाता है।

सहसंबंध गुणांक को कुछ हद तक कम सटीक, लेकिन बहुत आसान तरीके से निर्धारित किया जा सकता है, रैंक विधि (स्पीयरमैन)।

स्पीयरमैन विधि: P=1-(6∑d 2 /n-(n 2 -1))

युग्मित तुलना सुविधाओं की दो पंक्तियाँ बनाएं, क्रमशः पहली और दूसरी पंक्तियों को निर्दिष्ट करते हुए, x और y। उसी समय, विशेषता की पहली पंक्ति को अवरोही या आरोही क्रम में प्रस्तुत करें, और दूसरी पंक्ति के संख्यात्मक मानों को पहली पंक्ति के उन मानों के विपरीत रखें जिनसे वे मेल खाते हैं

प्रत्येक तुलना की गई पंक्तियों में सुविधा के मूल्य को एक क्रमांक (रैंक) द्वारा प्रतिस्थापित किया जाना चाहिए। रैंक, या संख्याएं, पहली और दूसरी पंक्तियों के संकेतकों (मानों) के स्थानों को दर्शाती हैं। उसी समय, रैंकों को दूसरी विशेषता के संख्यात्मक मानों को उसी क्रम में सौंपा जाना चाहिए, जो उनके मूल्यों को पहली विशेषता के मूल्यों में वितरित करते समय अपनाया गया था। श्रृंखला में विशेषता के समान मूल्यों के साथ, रैंकों को इन मूल्यों की क्रमिक संख्याओं के योग से औसत संख्या के रूप में निर्धारित किया जाना चाहिए

x और y (d) के बीच रैंक में अंतर निर्धारित करें: d = x - y

परिणामी रैंक अंतर का वर्ग करें (डी 2)

अंतर के वर्गों का योग प्राप्त करें (Σ d 2) और प्राप्त मूल्यों को सूत्र में बदलें:

उदाहरण:वर्षों में सेवा की लंबाई और चोटों की आवृत्ति के बीच संबंध की दिशा और ताकत स्थापित करने के लिए रैंक पद्धति का उपयोग करना, यदि निम्न डेटा प्राप्त किया जाता है:

विधि के चुनाव के लिए तर्क:समस्या को हल करने के लिए, केवल रैंक सहसंबंध विधि को चुना जा सकता है, क्योंकि विशेषता की पहली पंक्ति "वर्षों में कार्य अनुभव" में खुले विकल्प हैं (1 वर्ष और 7 या अधिक वर्षों तक का कार्य अनुभव), जो अधिक सटीक विधि का उपयोग करने की अनुमति नहीं देता है - वर्गों की विधि - के बीच संबंध स्थापित करने के लिए तुलना विशेषताओं।

समाधान. गणना का क्रम पाठ में वर्णित है, परिणाम तालिका में प्रस्तुत किए गए हैं। 2.

तालिका 2

वर्षों में कार्य अनुभव

चोटों की संख्या

सामान्य संख्या (रैंक)

रैंक अंतर

रैंक अंतर चुकता

डी (एक्स-वाई)

डी 2

युग्मित संकेतों की प्रत्येक पंक्ति को "x" और "y" (कॉलम 1-2) द्वारा दर्शाया जाता है।

प्रत्येक चिन्ह के मान को एक रैंक (सीरियल) संख्या से बदल दिया जाता है। "X" श्रृंखला में रैंकों के वितरण का क्रम इस प्रकार है: विशेषता का न्यूनतम मूल्य (1 वर्ष तक का अनुभव) को क्रमांक "1" सौंपा गया है, जो क्रमशः विशेषता की उसी श्रृंखला के बाद के संस्करण हैं। , दूसरे, तीसरे, चौथे और पांचवें क्रमांक के बढ़ते क्रम में - रैंक (स्तंभ 3 देखें)। दूसरी विशेषता "y" (स्तंभ 4) में रैंक वितरित करते समय एक समान क्रम देखा जाता है। ऐसे मामलों में जहां एक ही आकार के कई प्रकार होते हैं (उदाहरण के लिए, मानक कार्य में, ये प्रति 100 श्रमिकों पर 12 और 12 चोटें हैं, जिनका 3-4 साल और 5-6 साल का अनुभव है), सीरियल नंबर द्वारा दर्शाया गया है उनके सीरियल नंबरों के योग से औसत संख्या। रैंकिंग में चोटों (12 चोटों) की संख्या पर ये डेटा दूसरे और तीसरे स्थान पर होना चाहिए, इसलिए उनकी औसत संख्या (2 + 3) / 2 = 2.5 है। ) समान रैंकिंग संख्या वितरित करनी चाहिए - "2.5" (स्तंभ 4)।

रैंकों में अंतर निर्धारित करें d = (x - y) - (स्तंभ 5)

रैंकों में अंतर (डी 2) और रैंक Σ डी 2 (स्तंभ 6) में अंतर के वर्गों का योग प्राप्त करना।

सूत्र का उपयोग करके रैंक सहसंबंध गुणांक की गणना करें:

जहाँ n पंक्ति "x" और पंक्ति "y" में विकल्पों के मिलान जोड़े की संख्या है

सबसे महत्वपूर्ण लक्ष्य आंकड़ेघटना के बीच वस्तुनिष्ठ मौजूदा संबंधों का अध्ययन है। दौरान सांख्यिकीय अध्ययनइन संबंधों के लिए, संकेतकों के बीच कारण और प्रभाव संबंधों की पहचान करना आवश्यक है, अर्थात। कुछ संकेतकों में परिवर्तन कैसे अन्य संकेतकों में परिवर्तन पर निर्भर करता है।

निर्भरता की दो श्रेणियां (कार्यात्मक और सहसंबंध) और संकेतों के दो समूह (संकेत-कारक और प्रभावी संकेत) हैं। कार्यात्मक संबंध के विपरीत, जहां कारक और परिणामी विशेषताओं के बीच पूर्ण पत्राचार होता है, सहसंबंध संबंध में ऐसा कोई पूर्ण पत्राचार नहीं होता है।

सह - संबंध- यह एक ऐसा संबंध है जहां वास्तविक डेटा के बड़े पैमाने पर अवलोकन के साथ व्यक्तिगत कारकों का प्रभाव केवल एक प्रवृत्ति (औसतन) के रूप में प्रकट होता है। सहसंबंध निर्भरता के उदाहरण बैंक की संपत्ति के आकार और बैंक के लाभ की राशि, श्रम उत्पादकता में वृद्धि और कर्मचारियों की सेवा की लंबाई के बीच निर्भरता हो सकते हैं।

सहसंबंध निर्भरता का सबसे सरल संस्करण युग्म सहसंबंध है, अर्थात। दो संकेतों के बीच निर्भरता (प्रभावी और तथ्यात्मक या दो भाज्य के बीच)। गणितीय रूप से, इस निर्भरता को कारक सूचक x पर प्रभावी संकेतक y की निर्भरता के रूप में व्यक्त किया जा सकता है। कनेक्शन प्रत्यक्ष और विपरीत हो सकते हैं। पहले मामले में, विशेषता x में वृद्धि के साथ, विशेषता y भी बढ़ जाती है; प्रतिक्रिया के साथ, विशेषता x में वृद्धि के साथ, विशेषता y घट जाती है।

सबसे महत्वपूर्ण कार्य समीकरण के मापदंडों की बाद की गणना के साथ कनेक्शन के रूप को निर्धारित करना है, या, दूसरे शब्दों में, कनेक्शन के समीकरण को खोजना ( प्रतिगमन समीकरण).

विभिन्न हो सकते हैं संपर्क प्रपत्र:

सीधा

वक्रीयफॉर्म में: सेकेंड ऑर्डर पैराबोलस (या उच्च ऑर्डर)

अतिशयोक्ति

घातीय कार्य, आदि।

इन सभी युग्मन समीकरणों के पैरामीटर आमतौर पर से निर्धारित होते हैं सामान्य समीकरणों की प्रणाली, जो कम से कम वर्ग विधि (एलएसएम) की आवश्यकता को पूरा करना चाहिए:

यदि संबंध दूसरे क्रम के परवलय द्वारा व्यक्त किया जाता है ( ), तो मापदंडों को खोजने के लिए सामान्य समीकरणों की प्रणाली a0, a1, a2 (इस तरह के कनेक्शन को कई कहा जाता है, क्योंकि यह दो से अधिक कारकों की निर्भरता को दर्शाता है) के रूप में प्रतिनिधित्व किया जा सकता है

एक और प्रमुख कार्य है निर्भरता जकड़न माप- संचार के सभी रूपों के लिए अनुभवजन्य सहसंबंध अनुपात की गणना करके हल किया जा सकता है:

जहां - प्रभावी संकेतक के बराबर मूल्यों की एक श्रृंखला में विचरण;

वास्तविक मूल्यों की एक श्रृंखला में फैलाव y.

एक युग्मित रैखिक निर्भरता की जकड़न की डिग्री निर्धारित करने के लिए, रैखिक सहसंबंध गुणांक r, जिसकी गणना, उदाहरण के लिए, निम्नलिखित दो सूत्रों का उपयोग करके की जा सकती है:

रैखिक सहसंबंध गुणांक -1 से + 1 या मोडुलो 0 से 1 तक के मान ले सकता है। निरपेक्ष मान में यह 1 के जितना करीब होगा, संबंध उतना ही करीब होगा। संकेत कनेक्शन की दिशा को इंगित करता है: "+" - प्रत्यक्ष निर्भरता, "-" उलटा निर्भरता के साथ होता है।

सांख्यिकीय अभ्यास में, ऐसे मामले हो सकते हैं जब कारक और परिणामी विशेषताओं के गुणों को संख्यात्मक रूप से व्यक्त नहीं किया जा सकता है। इसलिए, निर्भरता की निकटता को मापने के लिए, अन्य संकेतकों का उपयोग करना आवश्यक है। इस उद्देश्य के लिए, तथाकथित गैर-पैरामीट्रिक तरीके.

सबसे व्यापक हैं रैंक सहसंबंध गुणांक, जो सांख्यिकीय श्रृंखला के मूल्यों की संख्या के सिद्धांत पर आधारित हैं। रैंकों के सहसंबंध गुणांक का उपयोग करते समय, यह संकेतक x और y के मान नहीं हैं जो सहसंबद्ध हैं, बल्कि केवल उनके स्थानों की संख्या है जो वे मूल्यों की प्रत्येक श्रृंखला में व्याप्त हैं। इस मामले में, प्रत्येक व्यक्तिगत इकाई की संख्या उसकी रैंक होगी।

के. स्पीयरमैन और एम. केंडल द्वारा क्रमबद्ध पद्धति के उपयोग के आधार पर सहसंबंध गुणांक प्रस्तावित किए गए थे।

स्पीयरमैन रैंक सहसंबंध गुणांक(पी) परिणामी और कारक विशेषताओं के मूल्यों के रैंकों के बीच अंतर पर विचार पर आधारित है और सूत्र द्वारा गणना की जा सकती है

जहाँ d = Nx - Ny, अर्थात्। x और y मानों के प्रत्येक युग्म की कोटि का अंतर; n प्रेक्षणों की संख्या है।

केंडल रैंक सहसंबंध गुणांक() सूत्र द्वारा निर्धारित किया जा सकता है

जहां एस = पी + क्यू।

गैर-पैरामीट्रिक अनुसंधान विधियों में शामिल हैं संघ गुणांककूस और आकस्मिकता कारक Kkon, जिनका उपयोग किया जाता है, उदाहरण के लिए, गुणात्मक विशेषताओं के बीच संबंध की निकटता की जांच करना आवश्यक है, जिनमें से प्रत्येक को वैकल्पिक सुविधाओं के रूप में प्रस्तुत किया जाता है।

इन गुणांकों को निर्धारित करने के लिए, एक गणना तालिका ("चार फ़ील्ड" तालिका) बनाई जाती है, जहां सांख्यिकीय विधेय को निम्न रूप में योजनाबद्ध रूप से प्रस्तुत किया जाता है:

लक्षण

यहाँ a, b, c, d दो वैकल्पिक संकेतों के परस्पर संयोजन (संयोजन) की आवृत्तियाँ हैं; एन- कुल राशिआवृत्तियों।

उत्पाद आवंटन गुणांक की गणना सूत्र द्वारा की जाती है

यह ध्यान में रखा जाना चाहिए कि समान डेटा के लिए, आकस्मिकता गुणांक (-1 से +1 तक भिन्न होता है) हमेशा संबद्धता गुणांक से कम होता है।

यदि वैकल्पिक सुविधाओं के बीच संबंध की निकटता का आकलन करना आवश्यक है जो कि किसी भी संख्या में मूल्य विकल्प ले सकते हैं, तो आवेदन करें पियर्सन का पारस्परिक संयुग्मन गुणांक(केपी)।

इस प्रकार के संबंध का अध्ययन करने के लिए प्राथमिक सांख्यिकीय जानकारी को एक तालिका के रूप में रखा गया है:

लक्षण

यहाँ मिज दो गुणकारी विशेषताओं के पारस्परिक संयोजन की आवृत्तियाँ हैं; P प्रेक्षणों के युग्मों की संख्या है।

पियर्सन का पारस्परिक आकस्मिकता गुणांकसूत्र द्वारा निर्धारित किया जाता है

माध्य वर्ग संयुग्मता सूचकांक कहाँ है:

पारस्परिक आकस्मिकता गुणांक 0 से 1 तक भिन्न होता है।

अंत में, इसका उल्लेख किया जाना चाहिए फेचनर गुणांक, जो कनेक्शन की जकड़न की प्राथमिक डिग्री की विशेषता है, जिसे प्रारंभिक जानकारी की एक छोटी राशि होने पर कनेक्शन के अस्तित्व के तथ्य को स्थापित करने के लिए उपयोग करने की सलाह दी जाती है। यह गुणांक सूत्र द्वारा निर्धारित किया जाता है

जहां ना उनके अंकगणितीय माध्य से व्यक्तिगत मूल्यों के विचलन के संकेतों के संयोगों की संख्या है; एनबी - क्रमशः, बेमेल की संख्या।

Fechner गुणांक -1.0 Kf +1.0 के भीतर भिन्न हो सकता है।

सहसंबंध गुणांक सूत्र

मे बया आर्थिक गतिविधिआदमी धीरे-धीरे बनता है पूरी कक्षाविभिन्न सांख्यिकीय पैटर्न की पहचान करने के लिए कार्य।

दूसरों द्वारा कुछ प्रक्रियाओं के नियतत्ववाद की डिग्री का मूल्यांकन करना आवश्यक था, विभिन्न प्रक्रियाओं और चर के बीच अन्योन्याश्रयता की जकड़न को स्थापित करना आवश्यक था।
सहसंबंध एक दूसरे से चरों का संबंध है।

निर्भरता की जकड़न का आकलन करने के लिए, एक सहसंबंध गुणांक पेश किया गया था।

सहसंबंध गुणांक का भौतिक अर्थ

कुरकुरा भौतिक अर्थसहसंबंध गुणांक है, यदि स्वतंत्र चर के सांख्यिकीय पैरामीटर सामान्य वितरण के अधीन हैं, तो ऐसा वितरण ग्राफिक रूप से गाऊसी वक्र का प्रतिनिधित्व करता है। और संबंध रैखिक है।

सहसंबंध गुणांक दिखाता है कि कैसे एक प्रक्रिया दूसरे द्वारा निर्धारित की जाती है। वे। जब एक प्रक्रिया बदलती है, तो कितनी बार निर्भर प्रक्रिया भी बदलती है। यह बिल्कुल नहीं बदलता है - कोई निर्भरता नहीं है, यह हर बार तुरंत बदल जाता है - पूर्ण निर्भरता।

सहसंबंध गुणांक सीमा में मान ले सकता है [-1:1]

गुणांक के शून्य मान का अर्थ है कि माने गए चरों के बीच कोई संबंध नहीं है।
सीमा के चरम मूल्यों का अर्थ है चर के बीच पूर्ण निर्भरता।

यदि गुणांक का मान धनात्मक है, तो निर्भरता प्रत्यक्ष है।

एक नकारात्मक गुणांक के साथ - विपरीत। वे। पहले मामले में, जब तर्क बदलता है, तो फ़ंक्शन आनुपातिक रूप से बदलता है, दूसरे मामले में, विपरीत रूप से।
जब सहसंबंध गुणांक का मान श्रेणी के मध्य में होता है, अर्थात। 0 से 1 तक या -1 से 0 तक, अपूर्ण कार्यात्मक संबंध को इंगित करता है।
गुणांक का मान चरम संकेतकों के जितना करीब होता है, चर या . के बीच संबंध उतना ही अधिक होता है यादृच्छिक चर. मान 0 के जितना निकट होगा, अन्योन्याश्रयता उतनी ही कम होगी।
आमतौर पर सहसंबंध गुणांक मध्यवर्ती मान लेता है।

सहसंबंध गुणांक एक मापहीन मात्रा है

सहसंबंध गुणांक का उपयोग सांख्यिकी में, सहसंबंध विश्लेषण में, सांख्यिकीय परिकल्पनाओं का परीक्षण करने के लिए किया जाता है।

एक यादृच्छिक चर की दूसरे पर निर्भरता की कुछ सांख्यिकीय परिकल्पना को सामने रखते हुए, सहसंबंध गुणांक की गणना की जाती है। इसके अनुसार, एक निर्णय करना संभव है - क्या मात्राओं के बीच संबंध है और यह कितना घना है।

बात यह है कि आप हमेशा कनेक्शन नहीं देख सकते हैं। अक्सर, मूल्य सीधे एक दूसरे से संबंधित नहीं होते हैं, लेकिन कई कारकों पर निर्भर करते हैं। हालाँकि, यह पता चल सकता है कि यादृच्छिक चर मध्यस्थ कनेक्शन के एक सेट के माध्यम से अन्योन्याश्रित हैं। बेशक, इसका मतलब उनका सीधा संबंध नहीं हो सकता है, इसलिए, उदाहरण के लिए, मध्यस्थ के गायब होने के साथ, निर्भरता भी गायब हो सकती है।

सहसंबंध विश्लेषण का उद्देश्ययादृच्छिक चर (सुविधाओं) के बीच संबंध की ताकत के अनुमान की पहचान करना है जो कुछ वास्तविक प्रक्रिया की विशेषता है।
सहसंबंध विश्लेषण की समस्याएं:
क) दो या दो से अधिक परिघटनाओं के संबंध की डिग्री (जकड़न, ताकत, गंभीरता, तीव्रता) का मापन।
बी) घटनाओं के बीच कनेक्टिविटी की डिग्री को मापने के आधार पर परिणामी विशेषता पर सबसे महत्वपूर्ण प्रभाव डालने वाले कारकों का चयन। इस पहलू में महत्वपूर्ण कारकों का उपयोग प्रतिगमन विश्लेषण में आगे किया जाता है।
ग) अज्ञात कारण संबंधों का पता लगाना।

अंतर्संबंधों की अभिव्यक्ति के रूप बहुत विविध हैं। उनके सबसे सामान्य प्रकारों के रूप में, कार्यात्मक (पूर्ण) और सहसंबंध (अपूर्ण) कनेक्शन.
सह - संबंधबड़े पैमाने पर टिप्पणियों के लिए, औसतन खुद को प्रकट करता है, जब आश्रित चर के दिए गए मान स्वतंत्र चर के संभाव्य मूल्यों की एक निश्चित संख्या के अनुरूप होते हैं। कनेक्शन को सहसंबंध कहा जाता है, यदि कारक विशेषता का प्रत्येक मान परिणामी विशेषता के एक सुपरिभाषित गैर-यादृच्छिक मान से मेल खाता है।
सहसंबंध क्षेत्र सहसंबंध तालिका के दृश्य प्रतिनिधित्व के रूप में कार्य करता है। यह एक ऐसा ग्राफ है जहां एक्स मानों को एब्सिस्सा अक्ष पर प्लॉट किया जाता है, वाई मानों को ऑर्डिनेट अक्ष के साथ प्लॉट किया जाता है, और एक्स और वाई के संयोजन डॉट्स द्वारा दिखाए जाते हैं। कनेक्शन की उपस्थिति का अनुमान लगाया जा सकता है बिन्दु।
जकड़न संकेतकगुण-कारक की भिन्नता पर परिणामी गुण की भिन्नता की निर्भरता को चिह्नित करना संभव बनाता है।
जकड़न की डिग्री का एक बेहतर संकेतक सह - संबंधहै रैखिक सहसंबंध गुणांक. इस सूचक की गणना करते समय, न केवल विचलन को ध्यान में रखा जाता है व्यक्तिगत मूल्यमाध्य से संकेत, लेकिन इन विचलनों का परिमाण भी।

इस विषय के प्रमुख मुद्दे परिणामी विशेषता और व्याख्यात्मक चर के बीच प्रतिगमन संबंध के समीकरण हैं, मापदंडों का अनुमान लगाने के लिए सबसे कम वर्ग विधि प्रतिगमन मॉडल, प्राप्त प्रतिगमन समीकरण की गुणवत्ता का विश्लेषण, प्रतिगमन समीकरण के अनुसार परिणामी विशेषता के मूल्यों की भविष्यवाणी के लिए विश्वास अंतराल का निर्माण।

उदाहरण 2


सामान्य समीकरणों की प्रणाली।
एक n + b∑x = y
a∑x + b∑x 2 = y x
हमारे डेटा के लिए, समीकरणों की प्रणाली का रूप है
30ए + 5763 बी = 21460
5763 ए + 1200261 बी = 3800360
पहले समीकरण से हम व्यक्त करते हैं एकऔर दूसरे समीकरण में स्थानापन्न करें:
हमें b = -3.46, a = 1379.33 . मिलता है
प्रतिगमन समीकरण:
वाई = -3.46 x + 1379.33

2. प्रतिगमन समीकरण के मापदंडों की गणना।
नमूना का अर्थ है।



नमूना भिन्नताएं:


मानक विचलन


1.1. सहसंबंध गुणांक
सहप्रसरण.

हम संचार की निकटता के संकेतक की गणना करते हैं। ऐसा संकेतक एक चयनात्मक रैखिक सहसंबंध गुणांक है, जिसकी गणना सूत्र द्वारा की जाती है:

रैखिक सहसंबंध गुणांक -1 से +1 तक मान लेता है।
सुविधाओं के बीच संबंध कमजोर या मजबूत (करीबी) हो सकते हैं। उनके मानदंड का मूल्यांकन चाडॉक पैमाने पर किया जाता है:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
हमारे उदाहरण में, फीचर Y और फ़ैक्टर X के बीच संबंध उच्च और उलटा है।
इसके अलावा, रैखिक जोड़ी सहसंबंध के गुणांक को प्रतिगमन गुणांक b के संदर्भ में निर्धारित किया जा सकता है:

1.2. प्रतिगमन समीकरण(प्रतिगमन समीकरण का मूल्यांकन)।

रैखिक समाश्रयण समीकरण y = -3.46 x + 1379.33 . है

गुणांक b = -3.46 प्रभावी संकेतक (y की इकाइयों में) में औसत परिवर्तन को इसके माप के कारक x के मूल्य में वृद्धि या कमी के साथ दर्शाता है। इस उदाहरण में, 1 इकाई की वृद्धि के साथ, y -3.46 के औसत से घट जाता है।
गुणांक a = 1379.33 औपचारिक रूप से y के अनुमानित स्तर को दर्शाता है, लेकिन केवल अगर x=0 नमूना मूल्यों के करीब है।
लेकिन अगर x = 0 नमूना x मानों से बहुत दूर है, तो एक शाब्दिक व्याख्या गलत परिणाम दे सकती है, और भले ही प्रतिगमन रेखा देखे गए नमूने के मूल्यों का सटीक वर्णन करती है, इस बात की कोई गारंटी नहीं है कि यह भी होगा मामला जब बाईं या दाईं ओर एक्सट्रपलेशन कर रहा हो।
प्रतिगमन समीकरण में x के संगत मानों को प्रतिस्थापित करके, प्रत्येक अवलोकन के लिए प्रभावी संकेतक y(x) के संरेखित (अनुमानित) मान निर्धारित करना संभव है।
y और x के बीच का संबंध प्रतिगमन गुणांक b का संकेत निर्धारित करता है (यदि > 0 - प्रत्यक्ष संबंध, अन्यथा - प्रतिलोम)। हमारे उदाहरण में, संबंध उल्टा है।
1.3. लोच गुणांक।
प्रभावी संकेतक y और कारक विशेषता x की माप की इकाइयों में अंतर होने पर प्रभावी गुण पर कारकों के प्रभाव के प्रत्यक्ष मूल्यांकन के लिए प्रतिगमन गुणांक (उदाहरण के लिए) का उपयोग करना अवांछनीय है।
इन उद्देश्यों के लिए, लोच गुणांक और बीटा गुणांक की गणना की जाती है।
लोच ई का औसत गुणांक दर्शाता है कि कुल में औसतन कितने प्रतिशत परिणाम बदलेगा परकारक बदलते समय इसके औसत मूल्य से एक्सइसके औसत मूल्य का 1%।
लोच का गुणांक सूत्र द्वारा पाया जाता है:


लोच गुणांक 1 से कम है। इसलिए, यदि X 1% से बदलता है, तो Y 1% से कम बदलेगा। दूसरे शब्दों में, Y पर X का प्रभाव महत्वपूर्ण नहीं है।
बीटा गुणांकयह दर्शाता है कि इसके मानक विचलन के मूल्य के किस भाग से प्रभावी विशेषता का मान औसतन बदल जाएगा जब कारक विशेषता अपने मानक विचलन के मान से स्थिर स्तर पर निर्धारित शेष स्वतंत्र चर के मान के साथ बदल जाती है:

वे। मानक विचलन S x के मान से x में वृद्धि से Y के औसत मान में 0.74 मानक विचलन S y की कमी हो जाएगी।
1.4. सन्निकटन त्रुटि।
आइए हम निरपेक्ष सन्निकटन त्रुटि का उपयोग करके प्रतिगमन समीकरण की गुणवत्ता का मूल्यांकन करें। औसत सन्निकटन त्रुटि वास्तविक से परिकलित मानों का औसत विचलन है:


चूंकि त्रुटि 15% से कम है, इसलिए इस समीकरण का उपयोग प्रतिगमन के रूप में किया जा सकता है।
फैलाव विश्लेषण।
प्रसरण के विश्लेषण का कार्य आश्रित चर के प्रसरण का विश्लेषण करना है:
(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
कहाँ पे
(y i - y cp) 2 - वर्ग विचलन का कुल योग;
(y(x) - y cp) 2 - प्रतिगमन के कारण चुकता विचलन का योग ("समझा गया" या "फैक्टोरियल");
(y - y(x)) 2 - वर्ग विचलन का अवशिष्ट योग।
सैद्धांतिक सहसंबंध अनुपातएक रैखिक संबंध के लिए सहसंबंध गुणांक r xy के बराबर है।
निर्भरता के किसी भी रूप के लिए, कनेक्शन की जकड़न का उपयोग करके निर्धारित किया जाता है एकाधिक सहसंबंध गुणांक:

यह गुणांक सार्वभौमिक है, क्योंकि यह कनेक्शन की जकड़न और मॉडल की सटीकता को दर्शाता है, और इसका उपयोग चर के बीच किसी भी प्रकार के कनेक्शन के लिए भी किया जा सकता है। एक-कारक सहसंबंध मॉडल का निर्माण करते समय, एकाधिक सहसंबंध गुणांक युग्म सहसंबंध गुणांक r xy के बराबर होता है।
1.6. निर्धारण गुणांक।
(एकाधिक) सहसंबंध गुणांक के वर्ग को निर्धारण का गुणांक कहा जाता है, जो कारक विशेषता की भिन्नता द्वारा समझाए गए परिणामी विशेषता की भिन्नता के अनुपात को दर्शाता है।
अक्सर, निर्धारण के गुणांक की व्याख्या देते हुए, इसे प्रतिशत के रूप में व्यक्त किया जाता है।
आर 2 \u003d -0.74 2 \u003d 0.5413
वे। 54.13% मामलों में, x में परिवर्तन से y में परिवर्तन होता है। दूसरे शब्दों में, प्रतिगमन समीकरण के चयन की सटीकता औसत है। Y में शेष 45.87% परिवर्तन उन कारकों के कारण है जिन्हें मॉडल में ध्यान में नहीं रखा गया है।

ग्रन्थसूची

  1. अर्थमिति: पाठ्यपुस्तक / एड। आई.आई. एलिसेवा। - एम .: वित्त और सांख्यिकी, 2001, पी। 34..89.
  2. मैग्नस वाई.आर., कातिशेव पी.के., पेरेसेट्स्की ए.ए. अर्थमिति। कोर्स शुरू करना. ट्यूटोरियल. - दूसरा संस्करण।, रेव। - एम।: डेलो, 1998, पी। 17..42.
  3. अर्थमिति पर कार्यशाला: प्रो. भत्ता / आई.आई. एलिसेवा, एस.वी. कुरीशेवा, एन.एम. गोर्डिन्को और अन्य; ईडी। आई.आई. एलिसेवा। - एम .: वित्त और सांख्यिकी, 2001, पी। 5..48.