Linear Regression क्या है?

Linear Regression एक statistical और predictive modeling technique है जिसका उपयोग दो या अधिक variables के बीच के संबंध को समझने और predict करने के लिए किया जाता है। इसका मुख्य उद्देश्य dependent variable और independent variable के बीच linear relationship को model करना है।

सरल भाषा में

Linear Regression यह दर्शाता है कि जब हम independent variable (जैसे किसी वस्तु का size) को बदलते हैं, तो dependent variable (जैसे उस वस्तु की कीमत) कैसे बदलता है। इस संबंध को एक सीधी रेखा (straight line) के रूप में दिखाया जाता है।

Linear Equation:

Y = mX + c

यहाँ:

  • Y: Dependent variable (जिसे predict किया जा रहा है)
  • X: Independent variable (जिसके आधार पर prediction किया जा रहा है)
  • m: Slope (रेखा की ढलान, जो दिखाता है कि Y कितनी तेजी से बदलता है जब X बदलता है)
  • c: Intercept (वह बिंदु जहाँ रेखा Y-axis को काटती है)

उदाहरण:

मान लीजिए कि आपके पास data है जो दर्शाता है कि किसी व्यक्ति के अनुभव (years of experience) और उसकी salary के बीच क्या संबंध है। Linear Regression की मदद से आप यह predict कर सकते हैं कि अगर किसी के पास 5 साल का अनुभव है, तो उसकी salary कितनी हो सकती है।

इस संबंध को एक सीधी रेखा के रूप में दिखाया जा सकता है, जो अनुभव और salary के बीच के संबंध को दर्शाती है।

Linear Regression क्या है?

Dependent और Independent Variables

1. Dependent Variable (Y)

Definition: यह वह variable होता है जिसे हम predict करना चाहते हैं। इसे output या response variable भी कहा जाता है। इसका मान independent variable पर निर्भर करता है।

उदाहरण: अगर हम छाते की बिक्री predict करना चाहें, तो छाते की बिक्री (Y) dependent variable होगा, क्योंकि यह बारिश के स्तर पर निर्भर करती है।

2. Independent Variable (X)

Definition: यह वह variable होता है जिसका उपयोग dependent variable को predict करने के लिए किया जाता है। इसे input, predictor, या explanatory variable भी कहा जाता है। यह dependent variable को प्रभावित करता है, लेकिन स्वयं किसी और variable पर निर्भर नहीं होता।

उदाहरण: अगर हम छाते की बिक्री predict करना चाहें, तो बारिश का स्तर (X) independent variable होगा, क्योंकि यह छाते की बिक्री को प्रभावित करता है।

Linear Equation

Linear Regression का मुख्य उद्देश्य दो variables के बीच के संबंध को एक सीधी रेखा (straight line) के रूप में दिखाना है। इसे mathematically एक equation के रूप में लिखा जा सकता है:

Y = mX + c
      

जहाँ:

  • Y: Dependent Variable (Prediction) – वह value जिसे हम predict करना चाहते हैं।
  • m: Slope of the Line – यह दिखाता है कि जब X (Independent Variable) में बदलाव होता है, तो Y (Dependent Variable) कितनी तेजी से बदलता है। इसे रेखा की ढलान भी कहा जाता है।
  • X: Independent Variable (Input) – यह वह input value है जो Y को प्रभावित करती है।
  • c: Intercept – यह वह बिंदु है जहाँ रेखा Y-axis को काटती है। इसका मतलब है कि जब X की value शून्य (0) हो, तो Y की value कितनी होगी।

समझें एक कहानी के माध्यम से: लिनियर रिग्रेशन

1. प्रारंभिक अवलोकन (Observation)

मान लीजिए, आपका एक दोस्त है जो एक आइसक्रीम की दुकान चलाता है। उसने देखा कि गर्मियों में जब तापमान बढ़ता है, तो उसकी आइसक्रीम की बिक्री भी बढ़ जाती है। लेकिन वह यह नहीं समझ पा रहा था कि तापमान और आइसक्रीम बिक्री के बीच क्या संबंध है। इस संबंध को समझने के लिए आप लिनियर रिग्रेशन का उपयोग करते हैं।

आप और आपका दोस्त कुछ समय के लिए तापमान और आइसक्रीम की बिक्री के डेटा को एकत्रित करते हैं। उदाहरण के लिए:

  • 20°C पर 200 आइसक्रीम बेचीं
  • 25°C पर 250 आइसक्रीम बेचीं
  • 30°C पर 300 आइसक्रीम बेचीं
यह डेटा आपको यह देखने में मदद करता है कि तापमान बढ़ने पर बिक्री भी बढ़ती है।

2. लिनियर रिग्रेशन की सीधी रेखा (The Line of Best Fit)

अब, आप इस डेटा को ग्राफ पर प्लॉट करते हैं। एक्स-एक्सिस पर तापमान (X) और वाई-एक्सिस पर आइसक्रीम बिक्री (Y) रखते हैं। फिर, आप एक सीधी रेखा खींचते हैं जो सबसे अच्छे तरीके से इन सभी डेटा पॉइंट्स के बीच फिट होती है। इसे ‘लिनियर रिग्रेशन लाइन’ कहते हैं। यह रेखा आपको यह बताती है कि तापमान और आइसक्रीम बिक्री के बीच संबंध कैसा है।

3. समीकरण (Equation)

अब, इस रेखा का एक गणितीय समीकरण होता है:

Y = mX + c
        
यहाँ:
  • Y: आइसक्रीम की बिक्री (Dependent Variable)
  • X: तापमान (Independent Variable)
  • m: रेखा की ढलान (Slope), जो बताता है कि तापमान बढ़ने पर बिक्री कितनी बढ़ेगी
  • c: Y-अक्ष पर इंटरसेप्ट (Intercept), जब X=0 होता है, तब Y की वैल्यू

4. भविष्यवाणी (Prediction)

इस रेखा और समीकरण का उपयोग करके, आपका दोस्त भविष्यवाणी कर सकता है कि अगर तापमान 35°C हो, तो कितनी आइसक्रीम बिकेगी। मान लीजिए, समीकरण से Y = 10X + 100 आता है, तो अगर X=35°C है:

Y = 10(35) + 100 = 450 आइसक्रीम की बिक्री हो सकती है।
      

5. कहानी का अंत (Conclusion)

इस कहानी के माध्यम से, आपका दोस्त अब समझ सकता है कि तापमान और आइसक्रीम बिक्री के बीच क्या संबंध है। वह भविष्य में आइसक्रीम की बिक्री की बेहतर योजना बना सकता है।

मशीन लर्निंग में लिनियर रिग्रेशन का साधारण उपयोग

मशीन लर्निंग में, लिनियर रिग्रेशन एक बहुत ही लोकप्रिय और सरल एल्गोरिदम है। इसका उपयोग तब किया जाता है जब हमें दो वेरिएबल्स के बीच के संबंध को समझना और भविष्यवाणी करना होता है।

उदाहरण

मान लीजिए, किसी कंपनी को अपने उत्पाद की बिक्री का अनुमान लगाना है। बिक्री पर विभिन्न कारकों (जैसे कीमत, विज्ञापन, मौसम) का असर हो सकता है। लिनियर रिग्रेशन इन कारकों और बिक्री के बीच का संबंध समझने और भविष्यवाणी करने में मदद करता है।

सीधी रेखा का उपयोग

लिनियर रिग्रेशन एक सीधी रेखा (Straight Line) का उपयोग करके डेटा पॉइंट्स के बीच के संबंध को दर्शाता है। इस रेखा के माध्यम से हम अनुमान लगा सकते हैं कि यदि किसी वेरिएबल में परिवर्तन होता है, तो दूसरे वेरिएबल में कितना परिवर्तन होगा।

सुपरवाइज्ड लर्निंग के हिस्से के रूप में इसका महत्व

सुपरवाइज्ड लर्निंग क्या है? सुपरवाइज्ड लर्निंग मशीन लर्निंग का वह भाग है जहाँ हमें पहले से लेबल किया हुआ डेटा दिया जाता है। इसका मतलब है कि हमारे पास इनपुट और आउटपुट दोनों की जानकारी होती है, और हमें नए डेटा के लिए सही आउटपुट की भविष्यवाणी करनी होती है।

लिनियर रिग्रेशन और सुपरवाइज्ड लर्निंग

लिनियर रिग्रेशन सुपरवाइज्ड लर्निंग का एक प्रमुख उदाहरण है। इसमें हम एक मॉडल बनाते हैं जो इनपुट (जैसे तापमान) के आधार पर आउटपुट (जैसे आइसक्रीम बिक्री) की भविष्यवाणी करता है।

ट्रेनिंग और टेस्टिंग

पहले मॉडल को ट्रेनिंग डेटा पर प्रशिक्षित किया जाता है, जिसमें इनपुट और सही आउटपुट दोनों होते हैं। फिर इसे नए डेटा (जिसका आउटपुट हमें नहीं पता) पर टेस्ट किया जाता है, ताकि यह देखा जा सके कि मॉडल कितनी अच्छी तरह से भविष्यवाणी कर रहा है।

महत्व

लिनियर रिग्रेशन की सादगी और स्पष्टता इसे सुपरवाइज्ड लर्निंग के लिए एक मजबूत टूल बनाती है। इसे आसानी से समझा और लागू किया जा सकता है, और यह कई रियल-लाइफ समस्याओं को हल करने में उपयोगी होता है।

लिनियर रिग्रेशन: एक साधारण लेकिन शक्तिशाली तरीका

लिनियर रिग्रेशन: एक साधारण लेकिन शक्तिशाली तरीका

रामू की एक छोटी सी आइसक्रीम की दुकान थी। हर दिन, वह यह सोचता कि कितनी आइसक्रीम बनानी चाहिए ताकि सब बिक जाए और कुछ बची भी न रह जाए। एक दिन, उसके दोस्त श्यामू ने उसे बताया कि वह तापमान के हिसाब से आइसक्रीम की मांग का अनुमान लगा सकता है।

रामू की खोज:

श्यामू ने रामू से कहा, “देखो, जब मौसम ठंडा होता है तो लोग कम आइसक्रीम खरीदते हैं, और जब गर्मी होती है तो आइसक्रीम की मांग बढ़ जाती है। क्यों न हम तापमान और आइसक्रीम की बिक्री का डेटा इकट्ठा करें और देखें कि इनमें क्या संबंध है?”

रामू ने पिछले कुछ महीनों का डेटा देखा:

  • 20°C पर 100 आइसक्रीम बिकीं।
  • 25°C पर 150 आइसक्रीम बिकीं।
  • 30°C पर 200 आइसक्रीम बिकीं।

सरलता का जादू:

श्यामू ने रामू को समझाया, “तुम्हें बस इन डेटा पॉइंट्स को एक ग्राफ पर प्लॉट करना है। अब इन पॉइंट्स के बीच एक सीधी रेखा खींचो। यह रेखा तुम्हें बताएगी कि जैसे-जैसे तापमान बढ़ता है, आइसक्रीम की बिक्री कैसे बढ़ती है।”

रामू को यह देखकर अचंभा हुआ कि एक साधारण सीधी रेखा से वह आसानी से अनुमान लगा सकता है कि किसी भी तापमान पर कितनी आइसक्रीम बिकेंगी।

शक्ति की समझ:

श्यामू ने कहा, “यह रेखा ही तुम्हारा ‘लिनियर रिग्रेशन’ है। यह सरल है, क्योंकि इसे समझने के लिए किसी जटिल गणित की जरूरत नहीं है। लेकिन यह शक्तिशाली भी है, क्योंकि इसके जरिए तुम भविष्य में भी आइसक्रीम की सही मात्रा का अनुमान लगा सकते हो, जिससे तुम्हारा नुकसान कम हो जाएगा।”

निष्कर्ष:

रामू अब हर दिन इसी विधि से आइसक्रीम बनाता और उसका बिजनेस बढ़ने लगा। यह कहानी दिखाती है कि कैसे एक साधारण लेकिन शक्तिशाली तकनीक, जैसे लिनियर रिग्रेशन, किसी के व्यवसाय को बेहतर बना सकती है।

भविष्यवाणी करना (Making Predictions)

श्यामू ने रामू से कहा, “अब जब हमारे पास यह ‘लिनियर रिग्रेशन’ की सीधी रेखा है, तो हम इस समीकरण का उपयोग करके किसी भी तापमान पर आइसक्रीम की बिक्री का अनुमान लगा सकते हैं।”

रामू ने उत्सुकता से पूछा, “क्या हम यह जान सकते हैं कि अगर तापमान 35°C हो, तो कितनी आइसक्रीम बिकेगी?”

श्यामू ने गणना की और बताया, “हाँ, बिल्कुल! इस समीकरण के अनुसार, अगर तापमान 35°C हो, तो अनुमान है कि लगभग 250 आइसक्रीम बिकेंगी।”

कहानी का निष्कर्ष (Story Conclusion):

अब रामू समझ गया था कि तापमान और आइसक्रीम की बिक्री के बीच क्या संबंध है। उसने महसूस किया कि इस सरल रेखा के जरिए वह भविष्य में बेहतर योजना बना सकता है।

“अब जब गर्मी बढ़ेगी, तो मैं ज्यादा आइसक्रीम बना सकता हूँ, और अगर ठंडा मौसम हो, तो कम आइसक्रीम। इस तरह मेरा नुकसान भी कम होगा और बिक्री भी बढ़ेगी,” रामू ने कहा।

इस तरह, रामू ने लिनियर रिग्रेशन का उपयोग करके अपने आइसक्रीम के कारोबार को और भी सफल बना लिया। यह कहानी दिखाती है कि कैसे एक साधारण गणितीय तकनीक आपको भविष्य के लिए तैयार कर सकती है और आपके बिजनेस को आगे बढ़ा सकती है।

Python Linear Regression

import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression

# Excel फाइल का path सेट करें
file_path = r'C:\Users\hp\Documents\icecream.xlsx'

# Path print करें
print("Excel File Path:", file_path)


data = pd.read_excel(file_path)
print("Loaded Data:")
print(data)


# डेटा को X और Y के रूप में अलग करें
X = data['temperature (X)'].values.reshape(-1, 1) # Independent Variable (X)
Y = data['Ice-Cream sale (Y)'].values # Dependent Variable (Y)

# Linear Regression मॉडल तैयार करें
model = LinearRegression()
model.fit(X, Y)

# Y की prediction करें
Y_pred = model.predict(X)

# ग्राफ प्लॉट करें
plt.figure(figsize=(10, 6))
plt.scatter(X, Y, color='blue', label='Actual Data') # Original Data Points
plt.plot(X, Y_pred, color='red', label='Best Fit Line') # Best Fit Line
plt.xlabel('temperature (X)')
plt.ylabel('Ice-Cream sale (Y)')
plt.title('Linear RegressionIce-Cream ')
plt.legend()
plt.grid(True)
plt.show()
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Excel फाइल का path सेट करें
file_path = r'C:\Users\hp\Documents\icecream.xlsx'

# Path print करें
print("Excel File Path:", file_path)

# डेटा लोड करें
data = pd.read_excel(file_path)
print("Loaded Data:")
print(data)

# डेटा को X और Y के रूप में अलग करें
X = data['temperature (X)'].values.reshape(-1, 1) # Independent Variable (X)
Y = data['Ice-Cream sale (Y)'].values # Dependent Variable (Y)

# Linear Regression मॉडल तैयार करें
model = LinearRegression()
model.fit(X, Y)

# Y की prediction करें
Y_pred = model.predict(X)

# न्यू टेम्परेचर 37°C का प्रेडिक्शन करें
new_temperature = 37
new_temperature_array = [[new_temperature]] # 2D Array for prediction
new_prediction = model.predict(new_temperature_array)
print(f"Predicted Ice-Cream Sale for Temperature {new_temperature}°C: {new_prediction[0]}")

# ग्राफ प्लॉट करें
plt.figure(figsize=(10, 6))
plt.scatter(X, Y, color='blue', label='Actual Data') # Original Data Points
plt.plot(X, Y_pred, color='red', label='Best Fit Line') # Best Fit Line

# न्यू टेम्परेचर 37°C का prediction ग्राफ पर प्लॉट करें
plt.scatter(new_temperature, new_prediction, color='green', s=100, label=f'Prediction at {new_temperature}°C')

plt.xlabel('temperature (X)')
plt.ylabel('Ice-Cream sale (Y)')
plt.title('Linear Regression - Ice-Cream Sale vs Temperature')
plt.legend()
plt.grid(True)
plt.show()
python machine learning linear regression

Advantage and Disadvantage of Linear Regression

लाभ (Advantages):

  • सरलता और समझने में आसान: लिनियर रिग्रेशन गणितीय दृष्टि से सरल होता है और इसे आसानी से समझा जा सकता है। इसमें एक सीधी रेखा के जरिए डेटा का विश्लेषण किया जाता है।
  • प्रारंभिक विश्लेषण के लिए उपयोगी: यह शुरुआती विश्लेषण और डेटा के संबंध को समझने के लिए एक अच्छा टूल है। यह बताता है कि वेरिएबल्स के बीच कैसा संबंध है।
  • अच्छी व्याख्या (Interpretability): लिनियर रिग्रेशन में आप मॉडल के आउटपुट को आसानी से व्याख्यायित कर सकते हैं, जैसे कि स्लोप और इंटरसेप्ट को समझना आसान होता है।
  • फास्ट और कम संसाधन की आवश्यकता: यह बहुत तेजी से काम करता है और इसकी कम्प्यूटेशनल लागत कम होती है, जिससे यह बड़े डेटा सेट्स पर भी लागू किया जा सकता है।

हानियाँ (Disadvantages):

  • सीमित लचीलापन: यह केवल तब अच्छा काम करता है जब डेटा के बीच सीधा संबंध होता है। अगर डेटा में जटिल या गैर-लिनियर पैटर्न हैं, तो यह अच्छा प्रदर्शन नहीं करेगा।
  • आउटलेयर्स के प्रति संवेदनशीलता: यह आउटलेयर्स (असामान्य डेटा बिंदु) के प्रति संवेदनशील होता है। एक या दो आउटलेयर्स मॉडल को प्रभावित कर सकते हैं और परिणाम को गलत बना सकते हैं।
  • लाइनियर रिलेशनशिप की आवश्यकता: लिनियर रिग्रेशन की सबसे बड़ी सीमा यह है कि यह केवल लाइनियर रिलेशनशिप को समझ सकता है। अगर डेटा के बीच रिलेशनशिप लाइनीयर नहीं है, तो यह उपयोगी नहीं होगा।
  • मॉडल की जटिलता की कमी: यह बहुत सरल मॉडल है और कभी-कभी इसमें डेटा की जटिलताओं और अधिक बारीकियों को कैप्चर करने की कमी होती है।

निष्कर्ष: लिनियर रिग्रेशन एक प्रभावी और समझने में आसान तकनीक है जो सरल संबंधों को समझने और भविष्यवाणी करने के लिए उपयोगी होती है। हालांकि, इसके सीमित लचीलापन और आउटलेयर्स के प्रति संवेदनशीलता जैसे मुद्दों को ध्यान में रखते हुए, इसे अन्य अधिक जटिल तकनीकों के साथ मिलाकर उपयोग करना उचित हो सकता है।

FAQ

inear Regression एक statistical तकनीक है जिसका उपयोग यह समझने के लिए किया जाता है कि दो या अधिक variables के बीच क्या संबंध है। इसका मुख्य लक्ष्य यह है कि एक dependent variable (जिसे predict करना है) और एक या अधिक independent variables (जो prediction को प्रभावित करते हैं) के बीच linear संबंध को model करना।

Linear Regression तब उपयोग किया जाता है जब आप यह जानना चाहते हैं कि किसी factor (independent variable) में बदलाव आने पर किसी अन्य factor (dependent variable) में कैसा और कितना बदलाव आएगा। यह विशेष रूप से तब उपयोगी होता है जब दो variables के बीच एक सीधा संबंध होता है।

Simple Linear Regression में केवल एक independent variable होता है, जबकि Multiple Linear Regression में दो या उससे अधिक independent variables होते हैं।

उदाहरण:

Simple Linear Regression: अनुभव और वेतन के बीच संबंध।
Multiple Linear Regression: अनुभव, शिक्षा, और स्थान के आधार पर वेतन का अनुमान।
Linear Regression में Dependent और Independent Variables क्या होते हैं?

Dependent Variable (Y): यह वह variable होता है जिसे हम predict करना चाहते हैं।
Independent Variable (X): यह वह variable होता है जिसका उपयोग dependent variable को predict करने के लिए किया जाता है।

Linear Regression की equation होती है:
Y=mX+cY = mX + c जहाँ:

  • Y: Dependent variable
  • X: Independent variable
  • m: Slope (रेखा की ढलान)
  • c: Intercept (रेखा Y-axis को जहाँ काटती है)
  • सरलता और समझने में आसान।
  • प्रारंभिक डेटा विश्लेषण के लिए उपयोगी।
  • Computationally सस्ता और तेजी से काम करता है।
  • Model का output आसानी से व्याख्यायित किया जा सकता है।

यह केवल linear relationships को समझ सकता है। अगर डेटा nonlinear है, तो यह प्रभावी नहीं होता।
यह outliers के प्रति संवेदनशील होता है, जिससे prediction गलत हो सकती है।
बहुत जटिल या अधिक बारीकी वाले पैटर्न को यह capture नहीं कर पाता।

Linear Regression का उद्देश्य data points के बीच best fit line (सीधी रेखा) खोजना होता है। यह रेखा dependent और independent variables के बीच संबंध को दर्शाती है और इसे mathematical equation के रूप में व्यक्त किया जाता है।

किसी कर्मचारी के अनुभव के आधार पर वेतन की prediction करना।
तापमान के आधार पर ice-cream बिक्री का अनुमान लगाना।
विज्ञापन खर्च के आधार पर उत्पाद की बिक्री का अनुमान।

Linear Regression के लिए सबसे common algorithm ordinary least squares (OLS) है, जो residuals (error) को minimize करने के लिए best fit line को खोजता है।

Linear Regression supervised learning का एक महत्वपूर्ण हिस्सा है, जिसका उपयोग input variables के आधार पर output variables की future values को predict करने में होता है। यह training data के आधार पर model को प्रशिक्षित करता है और फिर नए डेटा पर prediction करता है।

Slope (m): यह दिखाता है कि independent variable में बदलाव आने पर dependent variable कितनी तेजी से बदलता है।
Intercept (c): यह वह point होता है जहाँ best fit line Y-axis को intercept करती है, यानी जब independent variable (X) की value शून्य होती है, तब dependent variable (Y) की value क्या होगी।

R² एक statistical measure है जो बताता है कि model कितना अच्छा fit है। इसकी value 0 से 1 के बीच होती है, जहाँ 1 दर्शाता है कि model ने dependent variable के सभी variation को अच्छे से explain कर दिया है, और 0 का मतलब है कि model बिल्कुल भी अच्छा fit नहीं है।

Data normalization जरूरी नहीं है, लेकिन यह तब मददगार हो सकता है जब independent variables की units या scales बहुत अलग हों। इससे model की performance और convergence बेहतर हो सकती है।

Non-linear relationships के लिए अन्य algorithms उपयोगी हो सकते हैं, जैसे कि Polynomial Regression, Decision Trees, Random Forests, और Support Vector Machines (SVMs)।

Vista Academy Contact Information

📍 Address: 316/336, Park Rd, Laxman Chowk, Dehradun, Uttarakhand 248001

📞 Phone: 094117 78145

Call Now

The Complete Guide to Machine Learning from Basics to Advanced Techniques in Hindi

Dive into this comprehensive guide that covers everything from the basics to advanced machine learning techniques, all explained in Hindi. Perfect for beginners and those looking to solidify their ML foundations!

Explore the Guide

Linear Regression in Machine Learning – Hindi Easy Way

Learn linear regression in a simple, easy-to-understand manner in Hindi. This article simplifies the concept and helps you grasp the essentials of ML quickly.

Read the Guide

Supervised Machine Learning vs Unsupervised Machine Learning

This article compares supervised and unsupervised learning, explaining the key differences and use cases for each approach in machine learning.

Compare ML Approaches

10 Best Python Libraries for Machine Learning – A Comprehensive Guide

Discover the top 10 Python libraries that will make your Machine Learning projects more efficient and powerful. This guide covers essential libraries like TensorFlow, Keras, and scikit-learn.

Explore Python Libraries