एक लार्ज लैंग्वेज मॉडल (LLM) एक न्यूरल नेटवर्क है जो विशाल मात्रा में टेक्स्ट पर ट्रेन किया गया है। इसके मूल में, LLM एक काम करता है: अगला टोकन प्रेडिक्ट करना।
कल्पना करें कि आपने हर किताब, लेख और वेबसाइट पढ़ी है। इतना पढ़ने के बाद, आप किसी भी वाक्य में अगला शब्द अनुमान लगाने में काफी अच्छे होंगे। LLM यही करता है, लेकिन गणितीय सटीकता के साथ।
हर आधुनिक LLM Transformer आर्किटेक्चर पर बना है। मुख्य नवाचार: सेल्फ-अटेंशन — टेक्स्ट को शब्द-दर-शब्द पढ़ने के बजाय, यह सभी शब्दों को एक साथ देखता है।
"नदी के किनारे का बैंक खड़ा था"
"बैंक" शब्द के लिए अटेंशन स्कोर:
"बैंक" ←→ "नदी" = 0.45 (उच्च — अर्थ स्पष्ट करता है)
"बैंक" ←→ "खड़ा" = 0.30 (मध्यम)
हर Transformer लेयर: सेल्फ-अटेंशन → जोड़ें + नॉर्मलाइज़ → फीड-फॉरवर्ड → जोड़ें + नॉर्मलाइज़। 50-100+ ब्लॉक स्टैक करें और आपके पास एक आधुनिक LLM है।
मॉडल किताबों, वेबसाइटों और कोड से ट्रिलियन टोकन पढ़ता है — व्याकरण, तथ्य और तर्क पैटर्न सीखता है।
प्रश्न-उत्तर जोड़ियों पर ट्रेन किया जाता है।
Reinforcement Learning from Human Feedback मॉडल को सिखाता है कि मनुष्य क्या सहायक और सुरक्षित मानते हैं।
RLHF वह है जो टेक्स्ट पूरा करने वाले मॉडल और सहायक असिस्टेंट के बीच अंतर बनाता है। AI सुरक्षा अनुसंधान इसलिए महत्वपूर्ण बना हुआ है।
┌──────────────┬─────────────┬──────────────────────────────┐
│ मॉडल परिवार │ निर्माता │ मुख्य विशेषताएँ │
├──────────────┼─────────────┼──────────────────────────────┤
│ GPT-4/4o │ OpenAI │ मजबूत तर्क, मल्टीमोडल │
│ Claude │ Anthropic │ सुरक्षा-केंद्रित, लंबा कॉन्टेक्स्ट │
│ Llama │ Meta │ ओपन-वेट, लोकली चल सकता है │
│ Gemini │ Google │ मल्टीमोडल-नेटिव │
│ Mistral │ Mistral AI │ कुशल, यूरोपीय │
└──────────────┴─────────────┴──────────────────────────────┘
LLM धाराप्रवाह टेक्स्ट जनरेट करते हैं, सारांशित करते हैं, अनुवाद करते हैं और कोड लिखते हैं। लेकिन हैलुसिनेशन, गणित, हालिया जानकारी और वास्तविक तर्क में कठिनाई होती है।
LLM ब्रिलियंट लेकिन अविश्वसनीय इंटर्न की तरह हैं। वे शानदार काम कर सकते हैं, लेकिन हमेशा उनके आउटपुट की जाँच करें।
LLM टोकन पढ़ते हैं (लगभग ¾ शब्द)। कॉन्टेक्स्ट विंडो एक बार में प्रोसेस किए जा सकने वाले अधिकतम टोकन हैं। GPT-4o 128K टोकन सपोर्ट करता है, Claude 200K।
input_tokens = 1000
output_tokens = 500
price_per_1k = 0.01
cost = ((input_tokens + output_tokens) / 1000) * price_per_1k
print(f"प्रति अनुरोध लागत: ${cost:.4f}")
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "आप किशोरों के लिए विज्ञान ट्यूटर हैं।"},
{"role": "user", "content": "प्रकाश संश्लेषण सरल शब्दों में समझाइए।"}
],
temperature=0.7,
max_tokens=300
)
print(response.choices[0].message.content)
messages ऐरे आपका वार्तालाप इतिहास है। मॉडल "याद" नहीं रखता — आप हर बार पूरा कॉन्टेक्स्ट भेजते हैं।
अगली लेसन में हम प्रॉम्प्ट इंजीनियरिंग सीखेंगे — LLM से सर्वोत्तम परिणाम प्राप्त करने की कला। ✨