AI Seeds में आपने सीखा कि AI उदाहरणों से सीखता है - जैसे बच्चे तस्वीरों की किताबों से जानवरों को पहचानना सीखते हैं। लेकिन ये उदाहरण कहाँ से आते हैं?
जवाब है डेटा - और यह AI का सबसे महत्वपूर्ण तत्व है। खराब डेटा = खराब AI। बढ़िया डेटा = बढ़िया AI।
डेटा बस रिकॉर्ड की गई जानकारी है। हर डिजिटल कार्य डेटा बनाता है:
AI में हम यह जानकारी इकट्ठा करते हैं, व्यवस्थित करते हैं, और मशीनों को सिखाने के लिए उपयोग करते हैं।
डेटा जो पंक्तियों और स्तंभों में फिट होता है - जैसे स्प्रेडशीट।
| नाम | उम्र | शहर | पसंदीदा रंग | |-----|------|------|------------| | आयशा | 14 | लंदन | नीला | | रवि | 16 | हैदराबाद | हरा | | एम्मा | 15 | एम्स्टर्डम | लाल |
डेटा जो टेबल में फिट नहीं होता - इमेज, वीडियो, ऑडियो, ईमेल, सोशल मीडिया पोस्ट।
दुनिया का 80% से ज़्यादा डेटा अनस्ट्रक्चर्ड है! फ़ोटो, वीडियो और मैसेज स्प्रेडशीट से बहुत ज़्यादा हैं। आधुनिक डीप लर्निंग इस अव्यवस्थित डेटा को संभालने के लिए ही बनाई गई है।
जब आप परीक्षा की तैयारी करते हैं, तो सिर्फ किताब नहीं पढ़ते - प्रैक्टिस प्रश्न भी हल करते हैं, फिर असली परीक्षा देते हैं। AI भी ऐसा ही करता है:
सबसे बड़ा हिस्सा - सभी डेटा का 70–80%। AI मॉडल इससे पैटर्न सीखता है।
लगभग 10–15%। ट्रेनिंग के दौरान प्रगति जांचने के लिए।
बचा हुआ 10–15%। ट्रेनिंग के बाद उपयोग होता है। मॉडल ने यह डेटा कभी नहीं देखा।
from sklearn.model_selection import train_test_split
# विभाजन: 80% ट्रेनिंग, 20% अस्थायी
train_data, temp_data = train_test_split(all_data, test_size=0.2)
# अस्थायी सेट का विभाजन: आधा वैलिडेशन, आधा टेस्ट
val_data, test_data = train_test_split(temp_data, test_size=0.5)
print(f"Training: {len(train_data)}")
print(f"Validation: {len(val_data)}")
print(f"Test: {len(test_data)}")
हम मॉडल को उसी डेटा पर क्यों नहीं टेस्ट कर सकते जिस पर उसने ट्रेनिंग ली? क्योंकि यह ऐसा होगा जैसे छात्र को पहले से परीक्षा के प्रश्न दे दें - पूरे नंबर मिलेंगे लेकिन असली समझ नहीं आएगी।
Sign in to join the discussion
AI उतना ही निष्पक्ष है जितना वह डेटा जिससे वह सीखता है।
अगर आप फ़ेशियल रिकग्निशन सिस्टम को ज़्यादातर गोरी त्वचा वाले लोगों की फ़ोटो से ट्रेन करें, तो यह काली त्वचा वाले चेहरों पर खराब काम करेगा।
बायस के उदाहरण:
बायस हमेशा स्पष्ट नहीं होता। अगर आपके डेटासेट में 90% अंग्रेज़ी टेक्स्ट है, तो आपकी AI अंग्रेज़ी में उत्कृष्ट लेकिन हिंदी, तेलुगू या डच में कमज़ोर होगी। हमेशा पूछें: "इस डेटा में कौन गायब है?"
पूरा MNIST डेटासेट 15 MB से कम है - एक स्मार्टफोन फ़ोटो से भी छोटा! फिर भी इसने हज़ारों AI करियर शुरू किए।
प्रसिद्ध Iris डेटासेट एक्सप्लोर करें - 4 विशेषताओं वाले 150 फूलों की माप।
import pandas as pd
from sklearn.datasets import load_iris
# डेटासेट लोड करें
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[t] for t in iris.target]
# बुनियादी अन्वेषण
print("Shape:", df.shape)
print("\nपहली 5 पंक्तियाँ:")
print(df.head())
print("\nप्रजातियों की गिनती:")
print(df['species'].value_counts())
print("\nबुनियादी आंकड़े:")
print(df.describe())
डेटासेट एक्सप्लोर करते समय हमेशा पूछें:
अब आप जानते हैं AI को क्या शक्ति देता है। अगले पाठ में हम एल्गोरिदम जानेंगे - वे स्टेप-बाय-स्टेप रेसिपी जो डेटा को बुद्धिमान निर्णयों में बदलती हैं!