AI को सिखाने के लिए सही और साफ-सुथरा डेटा बेहद ज़रूरी होता है। लेकिन यह डेटा ऐसे ही नहीं आ जाता – उसे पहले इकट्ठा (Collect) किया जाता है और फिर साफ़ (Clean) किया जाता है। इस लेसन में हम जानेंगे कि Data Collection और Data Cleaning क्या होता है और ये AI मॉडल्स के लिए क्यों आवश्यक हैं।
Data Collection मतलब है – अलग-अलग स्रोतों से डेटा इकट्ठा करना, ताकि हम उसे AI मॉडल को ट्रेन करने के लिए इस्तेमाल कर सकें।
उदाहरण:
Tool Examples: Web Scraping, APIs, Data Entry, IoT Sensors
Data Cleaning का मतलब है – गलत, अधूरा, या डुप्लिकेट डेटा हटाना ताकि मशीन लर्निंग मॉडल सिर्फ सही और रिलेवेंट डेटा से सीख सके।
उदाहरण:
Tools: Python (Pandas), Excel, OpenRefine
निष्कर्ष: AI का आधार होता है सही डेटा। अगर डेटा गंदा होगा, तो परिणाम भी गलत होंगे – इसे ही कहा जाता है “Garbage In, Garbage Out!” इसलिए Data Collection और Cleaning पहला और सबसे महत्वपूर्ण कदम है।
