Linear Regression in Machine Learning – Hindi Easy way
Table of Contents
ToggleLinear Regression क्या है?
Linear Regression एक statistical और predictive modeling technique है जिसका उपयोग दो या अधिक variables के बीच के संबंध को समझने और predict करने के लिए किया जाता है। इसका मुख्य उद्देश्य यह है कि यह dependent variable (जिसे predict करना है) और independent variable (जिसके आधार पर prediction किया जाता है) के बीच एक linear relationship (सीधा संबंध) को model करता है।
सरल भाषा में:
Linear Regression यह दर्शाता है कि जब हम independent variable (जैसे किसी वस्तु का size) को बदलते हैं, तो dependent variable (जैसे उस वस्तु की कीमत) कैसे बदलता है। इस संबंध को एक सीधी रेखा (straight line) के रूप में दिखाया जाता है, जो data points के बीच खींची जाती है। इस सीधी रेखा का equation होता है:
Y
=
𝑚
𝑋
+
𝑐
Y=mX+c
यहाँ:
Y: Dependent variable (जिसे predict किया जा रहा है)
X: Independent variable (जिसके आधार पर prediction किया जा रहा है)
m: Slope (रेखा की ढलान, जो दिखाता है कि Y कितनी तेजी से बदलता है जब X बदलता है)
c: Intercept (वह बिंदु जहाँ रेखा Y-axis को काटती है)
उदाहरण:
मान लीजिए कि आपके पास data है जो दर्शाता है कि किसी व्यक्ति के अनुभव (years of experience) और उसकी salary के बीच क्या संबंध है। Linear Regression की मदद से आप यह predict कर सकते हैं कि अगर किसी के पास 5 साल का अनुभव है, तो उसकी salary कितनी हो सकती है। इस संबंध को एक सीधी रेखा के रूप में दिखाया जा सकता है, जो अनुभव और salary के बीच के संबंध को दर्शाती है।
Dependent और Independent Variables
1.Dependent Variable (Y):
यह वह variable होता है जिसे हम predict करना चाहते हैं।
इसे output या response variable भी कहा जाता है।
इसका मान independent variable पर निर्भर करता है।
उदाहरण: अगर हम छाते की बिक्री predict करना चाहें, तो छाते की बिक्री (Y) dependent variable होगा, क्योंकि यह बारिश के स्तर पर निर्भर करती है।
2. Independent Variable (X):
यह वह variable होता है जिसका उपयोग dependent variable को predict करने के लिए किया जाता है।
इसे input, predictor, या explanatory variable भी कहा जाता है।
यह dependent variable को प्रभावित करता है, लेकिन स्वयं किसी और variable पर निर्भर नहीं होता।
उदाहरण:
अगर हम छाते की बिक्री predict करना चाहें, तो बारिश का स्तर (X) independent variable होगा, क्योंकि यह छाते की बिक्री को प्रभावित करता है।
उदाहरण:
अगर हम predict करना चाहें कि बारिश होने पर कितने छाते बिकेंगे:
Independent Variable (X): बारिश का स्तर (जितनी ज्यादा बारिश होगी, उतनी ज्यादा छाते की बिक्री होगी)
Dependent Variable (Y): छाते की बिक्री (जो बारिश के स्तर पर निर्भर करती है)
इस तरह, Independent Variable (X) वह कारण होता है जो Dependent Variable (Y) को प्रभावित करता है, और Linear Regression के माध्यम से हम इस संबंध को model करके भविष्य की predictions कर सकते हैं।
Linear Equation:
Linear Equation को समझने के लिए, सबसे पहले यह जानना ज़रूरी है कि Linear Regression का मुख्य उद्देश्य दो variables के बीच के संबंध को एक सीधी रेखा (straight line) के रूप में दिखाना है। इस रेखा को mathematically एक equation के रूप में लिखा जा सकता है:
Linear Equation:
Y=mX+ctext{Y} = mX + cY=mX+c
जहाँ:
-
Y = Dependent Variable (Prediction)
यह वह value है जिसे हम predict करना चाहते हैं। -
m = Slope of the Line
यह दिखाता है कि जब X (Independent Variable) में बदलाव होता है, तो Y (Dependent Variable) कितनी तेजी से बदलता है। इसे रेखा की ढलान भी कहा जाता है। -
X = Independent Variable (Input)
यह वह input value है जो Y को प्रभावित करती है। -
c = Intercept
यह वह बिंदु है जहाँ रेखा Y-axis को काटती है। इसका मतलब है कि जब X की value शून्य (0) हो, तो Y की value कितनी होगी।
समझें एक कहानी के माध्यम से:
मान लीजिए, आपका एक दोस्त है जो एक आइसक्रीम की दुकान चलाता है। उसने देखा कि गर्मियों में जब तापमान बढ़ता है, तो उसकी आइसक्रीम की बिक्री भी बढ़ जाती है। लेकिन वह यह नहीं समझ पा रहा कि तापमान और आइसक्रीम बिक्री के बीच संबंध क्या है। उसे समझने के लिए आप लिनियर रिग्रेशन का उपयोग करते हैं।
1. प्रारंभिक अवलोकन (Observation):
आप और आपका दोस्त कुछ समय के लिए तापमान और आइसक्रीम की बिक्री के डेटा को एकत्रित करते हैं।
जैसे:
20°C पर 200 आइसक्रीम बेचीं।
25°C पर 250 आइसक्रीम बेचीं।
30°C पर 300 आइसक्रीम बेचीं।
यह डेटा आपको यह देखने में मदद करता है कि तापमान बढ़ने पर बिक्री भी बढ़ती है।
2. लिनियर रिग्रेशन की सीधी रेखा (The Line of Best Fit):
अब, आप इस डेटा को ग्राफ पर प्लॉट करते हैं। एक्स-एक्सिस पर तापमान (X) और वाई-एक्सिस पर आइसक्रीम बिक्री (Y) रखते हैं।
फिर, आप एक सीधी रेखा खींचते हैं जो सबसे अच्छे तरीके से इन सभी डेटा पॉइंट्स के बीच फिट होती है। इसे ‘लिनियर रिग्रेशन लाइन’ कहते हैं।
यह रेखा आपको यह बताती है कि तापमान और आइसक्रीम बिक्री के बीच संबंध कैसा है।
3. समीकरण (Equation):
अब, इस रेखा का एक गणितीय समीकरण होता है: Y = mX + c
यहाँ,
Y = आइसक्रीम की बिक्री (Dependent Variable)
X = तापमान (Independent Variable)
m = रेखा की ढलान (Slope), जो बताता है कि तापमान बढ़ने पर बिक्री कितनी बढ़ेगी
c = Y-अक्ष पर इंटरसेप्ट (Intercept), जब X=0 होता है, तब Y की वैल्यू
4. भविष्यवाणी (Prediction):
इस रेखा और समीकरण का उपयोग करके, आपका दोस्त भविष्यवाणी कर सकता है कि अगर तापमान 35°C हो, तो कितनी आइसक्रीम बिकेगी।
मान लीजिए, समीकरण से Y = 10X + 100 आता है, तो अगर X=35°C है:
Y = 10(35) + 100 = 450 आइसक्रीम की बिक्री हो सकती है।
5. कहानी का अंत (Conclusion):
इस कहानी के माध्यम से, आपका दोस्त अब समझ सकता है कि तापमान और बिक्री के बीच क्या संबंध है। वह भविष्य में आइसक्रीम की बिक्री की बेहतर योजना बना सकता है।
मशीन लर्निंग में लिनियर रिग्रेशन का साधारण उपयोग:
लिनियर रिग्रेशन का परिचय:
मशीन लर्निंग में, लिनियर रिग्रेशन एक बहुत ही लोकप्रिय और सरल एल्गोरिदम है। इसका उपयोग तब किया जाता है जब हमें दो वेरिएबल्स के बीच के संबंध को समझना और भविष्यवाणी करना होता है।
उदाहरण:
मान लीजिए, किसी कंपनी को अपने उत्पाद की बिक्री का अनुमान लगाना है। बिक्री पर विभिन्न कारकों (जैसे कीमत, विज्ञापन, मौसम) का असर हो सकता है। लिनियर रिग्रेशन इन कारकों और बिक्री के बीच का संबंध समझने और भविष्यवाणी करने में मदद करता है।
सीधी रेखा का उपयोग:
लिनियर रिग्रेशन एक सीधी रेखा (Straight Line) का उपयोग करके डेटा पॉइंट्स के बीच के संबंध को दर्शाता है। इस रेखा के माध्यम से हम अनुमान लगा सकते हैं कि यदि किसी वेरिएबल में परिवर्तन होता है, तो दूसरे वेरिएबल में कितना परिवर्तन होगा।
सुपरवाइज्ड लर्निंग के हिस्से के रूप में इसका महत्व:
सुपरवाइज्ड लर्निंग क्या है?: सुपरवाइज्ड लर्निंग मशीन लर्निंग का वह भाग है जहाँ हमें पहले से लेबल किया हुआ डेटा दिया जाता है। इसका मतलब है कि हमारे पास इनपुट और आउटपुट दोनों की जानकारी होती है, और हमें नए डेटा के लिए सही आउटपुट की भविष्यवाणी करनी होती है।
लिनियर रिग्रेशन और सुपरवाइज्ड लर्निंग:
लिनियर रिग्रेशन सुपरवाइज्ड लर्निंग का एक प्रमुख उदाहरण है। इसमें हम एक मॉडल बनाते हैं जो इनपुट (जैसे तापमान) के आधार पर आउटपुट (जैसे आइसक्रीम बिक्री) की भविष्यवाणी करता है।
ट्रेनिंग और टेस्टिंग: पहले मॉडल को ट्रेनिंग डेटा पर प्रशिक्षित किया जाता है, जिसमें इनपुट और सही आउटपुट दोनों होते हैं। फिर इसे नए डेटा (जिसका आउटपुट हमें नहीं पता) पर टेस्ट किया जाता है, ताकि यह देखा जा सके कि मॉडल कितनी अच्छी तरह से भविष्यवाणी कर रहा है।
महत्व:
लिनियर रिग्रेशन की सादगी और स्पष्टता इसे सुपरवाइज्ड लर्निंग के लिए एक मजबूत टूल बनाती है। इसे आसानी से समझा और लागू किया जा सकता है, और यह कई रियल-लाइफ समस्याओं को हल करने में उपयोगी होता है।
लिनियर रिग्रेशन: एक साधारण लेकिन शक्तिशाली तरीका
कहानी: “रामू की आइसक्रीम की दुकान”
रामू की एक छोटी सी आइसक्रीम की दुकान थी। हर दिन, वह यह सोचता कि कितनी आइसक्रीम बनानी चाहिए ताकि सब बिक जाए और कुछ बची भी न रह जाए। एक दिन, उसके दोस्त श्यामू ने उसे बताया कि वह तापमान के हिसाब से आइसक्रीम की मांग का अनुमान लगा सकता है।
रामू की खोज:
श्यामू ने रामू से कहा, “देखो, जब मौसम ठंडा होता है तो लोग कम आइसक्रीम खरीदते हैं, और जब गर्मी होती है तो आइसक्रीम की मांग बढ़ जाती है। क्यों न हम तापमान और आइसक्रीम की बिक्री का डेटा इकट्ठा करें और देखें कि इनमें क्या संबंध है?”
रामू ने पिछले कुछ महीनों का डेटा देखा:
20°C पर 100 आइसक्रीम बिकीं।
25°C पर 150 आइसक्रीम बिकीं।
30°C पर 200 आइसक्रीम बिकीं।
सरलता का जादू:
श्यामू ने रामू को समझाया, “तुम्हें बस इन डेटा पॉइंट्स को एक ग्राफ पर प्लॉट करना है। अब इन पॉइंट्स के बीच एक सीधी रेखा खींचो। यह रेखा तुम्हें बताएगी कि जैसे-जैसे तापमान बढ़ता है, आइसक्रीम की बिक्री कैसे बढ़ती है।”
रामू को यह देखकर अचंभा हुआ कि एक साधारण सीधी रेखा से वह आसानी से अनुमान लगा सकता है कि किसी भी तापमान पर कितनी आइसक्रीम बिकेंगी।
शक्ति की समझ:
श्यामू ने कहा, “यह रेखा ही तुम्हारा ‘लिनियर रिग्रेशन’ है। यह सरल है, क्योंकि इसे समझने के लिए किसी जटिल गणित की जरूरत नहीं है। लेकिन यह शक्तिशाली भी है, क्योंकि इसके जरिए तुम भविष्य में भी आइसक्रीम की सही मात्रा का अनुमान लगा सकते हो, जिससे तुम्हारा नुकसान कम हो जाएगा।”
निष्कर्ष:
रामू अब हर दिन इसी विधि से आइसक्रीम बनाता और उसका बिजनेस बढ़ने लगा। यह कहानी दिखाती है कि कैसे लिनियर रिग्रेशन, एक सरल सीधी रेखा, छोटे कारोबारियों से लेकर बड़े संगठनों तक के लिए एक शक्तिशाली टूल बन सकता है।
भविष्यवाणी करना (Making Predictions):
श्यामू ने रामू से कहा, “अब जब हमारे पास यह ‘लिनियर रिग्रेशन’ की सीधी रेखा है, तो हम इस समीकरण का उपयोग करके किसी भी तापमान पर आइसक्रीम की बिक्री का अनुमान लगा सकते हैं।”
रामू ने उत्सुकता से पूछा, “क्या हम यह जान सकते हैं कि अगर तापमान 35°C हो, तो कितनी आइसक्रीम बिकेगी?”
श्यामू ने गणना की और बताया, “हाँ, बिल्कुल! इस समीकरण के अनुसार, अगर तापमान 35°C हो, तो अनुमान है कि लगभग 250 आइसक्रीम बिकेंगी।”
कहानी का निष्कर्ष (Story Conclusion):
अब रामू समझ गया था कि तापमान और आइसक्रीम की बिक्री के बीच क्या संबंध है। उसने महसूस किया कि इस सरल रेखा के जरिए वह भविष्य में बेहतर योजना बना सकता है।
“अब जब गर्मी बढ़ेगी, तो मैं ज्यादा आइसक्रीम बना सकता हूँ, और अगर ठंडा मौसम हो, तो कम आइसक्रीम। इस तरह मेरा नुकसान भी कम होगा और बिक्री भी बढ़ेगी,” रामू ने कहा।
इस तरह, रामू ने लिनियर रिग्रेशन का उपयोग करके अपने आइसक्रीम के कारोबार को और भी सफल बना लिया। यह कहानी दिखाती है कि कैसे एक साधारण गणितीय तकनीक आपको भविष्य के लिए तैयार कर सकती है और आपके बिजनेस को आगे बढ़ा सकती है।
dataset
Python Linear Regression
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
# Excel फाइल का path सेट करें
file_path = r'C:UsershpDocumentsicecream.xlsx'
# Path print करें
print("Excel File Path:", file_path)
data = pd.read_excel(file_path)
print("Loaded Data:")
print(data)
# डेटा को X और Y के रूप में अलग करें
X = data['temperature (X)'].values.reshape(-1, 1) # Independent Variable (X)
Y = data['Ice-Cream sale (Y)'].values # Dependent Variable (Y)
# Linear Regression मॉडल तैयार करें
model = LinearRegression()
model.fit(X, Y)
# Y की prediction करें
Y_pred = model.predict(X)
# ग्राफ प्लॉट करें
plt.figure(figsize=(10, 6))
plt.scatter(X, Y, color='blue', label='Actual Data') # Original Data Points
plt.plot(X, Y_pred, color='red', label='Best Fit Line') # Best Fit Line
plt.xlabel('temperature (X)')
plt.ylabel('Ice-Cream sale (Y)')
plt.title('Linear RegressionIce-Cream ')
plt.legend()
plt.grid(True)
plt.show()
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
# Excel फाइल का path सेट करें
file_path = r'C:UsershpDocumentsicecream.xlsx'
# Path print करें
print("Excel File Path:", file_path)
# डेटा लोड करें
data = pd.read_excel(file_path)
print("Loaded Data:")
print(data)
# डेटा को X और Y के रूप में अलग करें
X = data['temperature (X)'].values.reshape(-1, 1) # Independent Variable (X)
Y = data['Ice-Cream sale (Y)'].values # Dependent Variable (Y)
# Linear Regression मॉडल तैयार करें
model = LinearRegression()
model.fit(X, Y)
# Y की prediction करें
Y_pred = model.predict(X)
# न्यू टेम्परेचर 37°C का प्रेडिक्शन करें
new_temperature = 37
new_temperature_array = [[new_temperature]] # 2D Array for prediction
new_prediction = model.predict(new_temperature_array)
print(f"Predicted Ice-Cream Sale for Temperature {new_temperature}°C: {new_prediction[0]}")
# ग्राफ प्लॉट करें
plt.figure(figsize=(10, 6))
plt.scatter(X, Y, color='blue', label='Actual Data') # Original Data Points
plt.plot(X, Y_pred, color='red', label='Best Fit Line') # Best Fit Line
# न्यू टेम्परेचर 37°C का prediction ग्राफ पर प्लॉट करें
plt.scatter(new_temperature, new_prediction, color='green', s=100, label=f'Prediction at {new_temperature}°C')
plt.xlabel('temperature (X)')
plt.ylabel('Ice-Cream sale (Y)')
plt.title('Linear Regression - Ice-Cream Sale vs Temperature')
plt.legend()
plt.grid(True)
plt.show()
Advantage and disadvantage of linear regression
लिनियर रिग्रेशन एक सरल और प्रभावी तकनीक है, लेकिन इसके कुछ लाभ और हानियाँ हैं जो इसे समझना महत्वपूर्ण बनाते हैं।
लाभ (Advantages):
सरलता और समझने में आसान:
लिनियर रिग्रेशन गणितीय दृष्टि से सरल होता है और इसे आसानी से समझा जा सकता है। इसमें एक सीधी रेखा के जरिए डेटा का विश्लेषण किया जाता है।
प्रारंभिक विश्लेषण के लिए उपयोगी:
यह शुरुआती विश्लेषण और डेटा के संबंध को समझने के लिए एक अच्छा टूल है। यह बताता है कि वेरिएबल्स के बीच कैसा संबंध है।
अच्छी व्याख्या (Interpretability):
लिनियर रिग्रेशन में आप मॉडल के आउटपुट को आसानी से व्याख्यायित कर सकते हैं, जैसे कि स्लोप और इंटरसेप्ट को समझना आसान होता है।
फास्ट और कम संसाधन की आवश्यकता:
यह बहुत तेजी से काम करता है और इसकी कम्प्यूटेशनल लागत कम होती है, जिससे यह बड़े डेटा सेट्स पर भी लागू किया जा सकता है।
हानियाँ (Disadvantages):
सीमित लचीलापन:
यह केवल तब अच्छा काम करता है जब डेटा के बीच सीधा संबंध होता है। अगर डेटा में जटिल या गैर-लिनियर पैटर्न हैं, तो यह अच्छा प्रदर्शन नहीं करेगा।
आउटलेयर्स के प्रति संवेदनशीलता:
यह आउटलेयर्स (असामान्य डेटा बिंदु) के प्रति संवेदनशील होता है। एक या दो आउटलेयर्स मॉडल को प्रभावित कर सकते हैं और परिणाम को गलत बना सकते हैं।
लाइनियर रिलेशनशिप की आवश्यकता:
लिनियर रिग्रेशन की सबसे बड़ी सीमा यह है कि यह केवल लाइनियर रिलेशनशिप को समझ सकता है। अगर डेटा के बीच रिलेशनशिप लाइनीयर नहीं है, तो यह उपयोगी नहीं होगा।
मॉडल की जटिलता की कमी:
यह बहुत सरल मॉडल है और कभी-कभी इसमें डेटा की जटिलताओं और अधिक बारीकियों को कैप्चर करने की कमी होती है।
निष्कर्ष:
लिनियर रिग्रेशन एक प्रभावी और समझने में आसान तकनीक है जो सरल संबंधों को समझने और भविष्यवाणी करने के लिए उपयोगी होती है। हालांकि, इसके सीमित लचीलापन और आउटलेयर्स के प्रति संवेदनशीलता जैसे मुद्दों को ध्यान में रखते हुए, इसे अन्य अधिक जटिल तकनीकों के साथ मिलाकर उपयोग करना उचित हो सकता है।