AI EducademyAIEducademy
🌳

AI की नींव

🌱
AI Seeds

शून्य से शुरू करें

🌿
AI Sprouts

नींव बनाएं

🌳
AI Branches

व्यवहार में लागू करें

🏕️
AI Canopy

गहराई में जाएं

🌲
AI Forest

AI में महारत हासिल करें

🔨

AI में महारत

✏️
AI Sketch

शून्य से शुरू करें

🪨
AI Chisel

नींव बनाएं

⚒️
AI Craft

व्यवहार में लागू करें

💎
AI Polish

गहराई में जाएं

🏆
AI Masterpiece

AI में महारत हासिल करें

🚀

करियर रेडी

🚀
इंटरव्यू लॉन्चपैड

अपनी यात्रा शुरू करें

🌟
व्यवहारिक इंटरव्यू में महारत

सॉफ्ट स्किल्स में महारत

💻
तकनीकी इंटरव्यू

कोडिंग राउंड में सफल हों

🤖
AI और ML इंटरव्यू

ML इंटरव्यू में महारत

🏆
ऑफर और उससे आगे

सबसे अच्छा ऑफर पाएं

सभी कार्यक्रम देखें→

लैब

7 प्रयोग लोड हुए
🧠न्यूरल नेटवर्क प्लेग्राउंड🤖AI या इंसान?💬प्रॉम्प्ट लैब🎨इमेज जनरेटर😊सेंटिमेंट एनालाइज़र💡चैटबॉट बिल्डर⚖️एथिक्स सिमुलेटर
🎯मॉक इंटरव्यूलैब में जाएँ→
nav.journeyब्लॉग
🎯
हमारे बारे में

हर जगह, हर किसी के लिए AI शिक्षा सुलभ बनाना

❓
nav.faq

Common questions answered

✉️
Contact

Get in touch with us

⭐
ओपन सोर्स

GitHub पर सार्वजनिक रूप से निर्मित

सीखना शुरू करें - यह मुफ्त है
AI EducademyAIEducademy

MIT लाइसेंस - ओपन सोर्स

सीखें

  • कार्यक्रम
  • पाठ
  • लैब

समुदाय

  • GitHub
  • योगदान करें
  • आचार संहिता
  • हमारे बारे में
  • सामान्य प्रश्न

सहायता

  • कॉफ़ी खरीदें ☕
  • footer.terms
  • footer.privacy
  • footer.contact
AI और इंजीनियरिंग प्रोग्राम›🌿 AI Sprouts›पाठ›एम्बेडिंग्स और वेक्टर डेटाबेस
🧭
AI Sprouts • मध्यम⏱️ 16 मिनट पढ़ने का समय

एम्बेडिंग्स और वेक्टर डेटाबेस

एम्बेडिंग्स - AI अर्थ कैसे समझता है

टोकनाइज़ेशन के बाद, हर टोकन बस एक संख्या है - शब्दकोश में एक इंडेक्स। लेकिन इंडेक्स 4,821 मॉडल को अर्थ के बारे में कुछ नहीं बताता। AI को कैसे पता चलता है कि "king" और "queen" संबंधित हैं, या "bank" का मतलब नदी का किनारा या बैंक हो सकता है? इसका जवाब है एम्बेडिंग्स।

One-Hot Encoding की समस्या

भोले दृष्टिकोण में हर शब्द को एक वेक्टर से दर्शाया जाता है जिसमें एक 1 और हज़ारों 0 होते हैं। "Cat" हो सकता है [0, 0, 1, 0, ..., 0] और "dog" [0, 0, 0, 1, ..., 0]।

इसमें दो गंभीर दोष हैं:

  • कोई समानता नहीं: "Cat" और "dog" एक-दूसरे से उतनी ही दूर हैं जितना "cat" और "democracy"। एन्कोडिंग शून्य सिमैंटिक जानकारी पकड़ती है।
  • विशाल आकार: 50,000 शब्दों के शब्दकोश में, हर शब्द को 50,000-आयामी वेक्टर चाहिए। बेहद अकुशल।

वर्ड एम्बेडिंग्स - ज्यॉमेट्री के रूप में अर्थ

एक एम्बेडिंग हर टोकन को, मान लें, 256 या 768 आयामों के एक सघन वेक्टर में मैप करती है। one-hot वेक्टर के विपरीत, ये आयाम ट्रेनिंग के दौरान सीखे जाते हैं और अर्थ को एन्कोड करते हैं।

समान संदर्भों में उपयोग होने वाले शब्द इस स्थान में पास-पास आ जाते हैं। "Puppy" "kitten" के पास होता है। "London" "Paris" के पास होता है। स्थान की ज्यॉमेट्री ही अर्थ है।

वर्ड एम्बेडिंग्स का 2D प्रोजेक्शन जिसमें क्लस्टर दिखाए गए हैं: जानवर (cat, dog, fish) एक साथ समूहित, शहर (London, Paris, Tokyo) एक साथ समूहित, और प्रसिद्ध king-queen एनालॉजी वेक्टर अरिथमेटिक के रूप में
एम्बेडिंग स्पेस में, अर्थ ज्यॉमेट्री बन जाता है। समान अवधारणाएँ एक साथ क्लस्टर होती हैं।

Word2Vec - King − Man + Woman = Queen

2013 के Word2Vec पेपर ने कुछ उल्लेखनीय दिखाया। बड़े टेक्स्ट कॉर्पस पर ट्रेन किए गए वेक्टर अरिथमेटिक संबंध प्रदर्शित करते हैं:

vector("king") − vector("man") + vector("woman") ≈ vector("queen")

"man" से "woman" की दिशा जेंडर की अवधारणा को पकड़ती है। इसे "king" में जोड़ने पर "queen" पर पहुँच जाते हैं। यह प्रोग्राम नहीं किया गया - यह भाषा के पैटर्न से स्वयं उभरता है।

अन्य उदाहरण: , ।

पाठ 9 / 160% पूर्ण
←टोकनाइज़ेशन

Discussion

Sign in to join the discussion

lessons.suggestEdit
Paris − France + Italy ≈ Rome
bigger − big + small ≈ smaller
🤯

Word2Vec को 2013 में Google में Tomáš Mikolov ने बनाया था। इस पेपर के 40,000 से अधिक साइटेशन हैं और इसे अब तक प्रकाशित सबसे प्रभावशाली NLP पेपरों में से एक माना जाता है। इसने प्रदर्शित किया कि कच्चे टेक्स्ट पर ट्रेन किए गए सरल न्यूरल नेटवर्क अद्भुत सिमैंटिक संबंध सीख सकते हैं।

एम्बेडिंग आयाम

आधुनिक मॉडल अलग-अलग एम्बेडिंग आकारों का उपयोग करते हैं:

| मॉडल | एम्बेडिंग आयाम | |-------|---------------------| | Word2Vec | 100–300 | | BERT | 768 | | GPT-3 | 12,288 | | OpenAI text-embedding-3-large | 3,072 |

अधिक आयाम सूक्ष्म भेदों को पकड़ते हैं लेकिन अधिक मेमोरी और कम्प्यूट की आवश्यकता होती है। इसे किसी व्यक्ति का वर्णन करने जैसा सोचें: 3 आयाम (ऊँचाई, वज़न, उम्र) एक मोटा रेखाचित्र देते हैं; 768 आयाम एक विस्तृत चित्र बनाते हैं।

🧠त्वरित जांच

प्रसिद्ध समीकरण 'king − man + woman ≈ queen' क्या प्रदर्शित करता है?

शब्दों से वाक्यों तक

वर्ड एम्बेडिंग्स अलग-अलग शब्दों को दर्शाती हैं, लेकिन अक्सर हमें पूरे वाक्यों या दस्तावेज़ों की तुलना करनी होती है। सेंटेंस एम्बेडिंग्स (Sentence-BERT या OpenAI के एम्बेडिंग API जैसे मॉडलों से) पूरे पैसेज को एक ही वेक्टर में संक्षिप्त करती हैं।

"How do I reset my password?" और "I forgot my login credentials" में बहुत समान सेंटेंस एम्बेडिंग्स होंगी, भले ही उनमें लगभग कोई शब्द साझा न हो। एम्बेडिंग इरादे को पकड़ती है, केवल शब्दावली को नहीं।

समानता मापना - Cosine Similarity

दो एम्बेडिंग्स की तुलना करने के लिए, हम cosine similarity का उपयोग करते हैं - दो वेक्टर के बीच के कोण का कोसाइन। यह −1 (विपरीत) से +1 (समान दिशा) तक होता है।

  • "Happy" और "joyful": cosine ≈ 0.85 (बहुत समान)।
  • "Happy" और "table": cosine ≈ 0.10 (असंबंधित)।
  • "Love" और "hate": cosine ≈ 0.40 हो सकता है (संबंधित लेकिन विपरीत)।

Cosine similarity वेक्टर परिमाण को नज़रअंदाज़ करती है, केवल दिशा पर ध्यान केंद्रित करती है - और अर्थ वहीं रहता है।

🤔
Think about it:

"Love" और "hate" अर्थ में विपरीत हैं लेकिन उनकी cosine similarity मध्यम हो सकती है क्योंकि वे समान संदर्भों (भावनाएँ, रिश्ते) में दिखाई देते हैं। यह हमें शब्द सह-घटना पर पूरी तरह ट्रेन की गई एम्बेडिंग्स की सीमाओं के बारे में क्या बताता है?

वेक्टर डेटाबेस - अर्थ से खोज

एक वेक्टर डेटाबेस लाखों एम्बेडिंग्स स्टोर करता है और सबसे समान एम्बेडिंग्स को बेहद तेज़ी से खोजता है। कीवर्ड मैचिंग ("'machine learning' वाले दस्तावेज़ ढूँढें") के बजाय, आप अर्थ से खोजते हैं ("AI शिक्षा के बारे में दस्तावेज़ ढूँढें")।

लोकप्रिय वेक्टर डेटाबेस में शामिल हैं:

  • Pinecone - पूरी तरह प्रबंधित, आसानी से स्केल होता है।
  • Weaviate - ओपन-सोर्स, हाइब्रिड सर्च (वेक्टर + कीवर्ड) के साथ।
  • ChromaDB - हल्का, प्रोटोटाइपिंग के लिए बढ़िया।
  • pgvector - PostgreSQL में वेक्टर सर्च जोड़ता है।

ये डेटाबेस HNSW (Hierarchical Navigable Small World) जैसे एल्गोरिदम का उपयोग करके अरबों वेक्टर को मिलीसेकंड में खोजते हैं।

🧠त्वरित जांच

पारंपरिक कीवर्ड सर्च की तुलना में वेक्टर सर्च का क्या फ़ायदा है?

RAG - Retrieval-Augmented Generation

RAG आधुनिक AI में सबसे महत्वपूर्ण पैटर्न में से एक है। यह वेक्टर सर्च को भाषा मॉडलों के साथ जोड़ता है:

  1. अपने दस्तावेज़ों को एम्बेड करें और वेक्टर डेटाबेस में स्टोर करें।
  2. जब कोई उपयोगकर्ता प्रश्न पूछे, क्वेरी को एम्बेड करें।
  3. वेक्टर सर्च के माध्यम से सबसे समान दस्तावेज़ खंड प्राप्त करें।
  4. उन खंडों को भाषा मॉडल को संदर्भ के रूप में दें।
  5. मॉडल आपके डेटा पर आधारित उत्तर उत्पन्न करता है।

RAG भाषा मॉडलों को आपके विशिष्ट डेटा - कंपनी के दस्तावेज़, उत्पाद कैटलॉग, शोध पत्र - के बारे में सवालों के जवाब देने देता है बिना रीट्रेनिंग के। यह हैलुसिनेशन को काफ़ी कम करता है क्योंकि मॉडल के पास संदर्भ के लिए वास्तविक स्रोत होते हैं।

🧠त्वरित जांच

RAG सिस्टम में, वेक्टर डेटाबेस क्या भूमिका निभाता है?

व्यावहारिक अनुप्रयोग

एम्बेडिंग्स अनगिनत वास्तविक-दुनिया की प्रणालियों को शक्ति प्रदान करती हैं:

  • सिमैंटिक सर्च - सटीक शब्दावली की परवाह किए बिना प्रासंगिक परिणाम ढूँढें।
  • रिकमेंडेशन - "जिन उपयोगकर्ताओं को यह पसंद आया उन्हें यह भी पसंद आया..." एम्बेडिंग समानता के माध्यम से।
  • क्लस्टरिंग - समान सपोर्ट टिकट, समीक्षाएँ, या दस्तावेज़ों को स्वचालित रूप से समूहित करें।
  • एनोमली डिटेक्शन - किसी भी क्लस्टर से दूर रहने वाले आउटलायर्स को पहचानें।
  • डुप्लिकेट डिटेक्शन - बड़े कॉर्पस में लगभग समान कंटेंट खोजें।
🤯

Spotify गाने रिकमेंड करने के लिए ऑडियो एम्बेडिंग्स का उपयोग करता है। हर ट्रैक को उसकी ध्वनिक विशेषताओं के आधार पर एम्बेड किया जाता है, और रिकमेंडेशन पास के वेक्टर ढूँढने से आती हैं - वे गाने जो एम्बेडिंग स्पेस में "समान लगते हैं"।

🤔
Think about it:

अगर आपने एक ऑनलाइन दुकान के हर उत्पाद को एम्बेड किया, तो आप खरीद इतिहास पर निर्भर हुए बिना "जिन ग्राहकों ने यह आइटम देखा उन्हें यह भी पसंद आ सकता है..." कहने वाला रिकमेंडेशन सिस्टम कैसे बनाएँगे?

मुख्य सारांश

  • एम्बेडिंग्स सघन वेक्टर प्रतिनिधित्व हैं जहाँ अर्थ ज्यॉमेट्री बन जाता है।
  • समान अवधारणाएँ एक साथ क्लस्टर होती हैं; संबंध दिशाओं के रूप में दिखते हैं।
  • Cosine similarity मापती है कि दो अर्थ कितने करीब हैं।
  • वेक्टर डेटाबेस विशाल पैमाने पर अर्थ के आधार पर खोज संभव बनाते हैं।
  • RAG वेक्टर सर्च को भाषा मॉडलों के साथ जोड़कर आपके अपने डेटा से सवालों के जवाब देता है।

📚 आगे पढ़ें

  • Jay Alammar - The Illustrated Word2Vec - वर्ड एम्बेडिंग्स कैसे काम करती हैं, इसकी दृश्य, सहज व्याख्या
  • Pinecone Learning Centre - What Are Embeddings? - एम्बेडिंग्स और वेक्टर सर्च की व्यावहारिक गाइड
  • OpenAI Embeddings Guide - OpenAI API के साथ एम्बेडिंग्स कैसे बनाएँ और उपयोग करें