AI और इंजीनियरिंग प्रोग्राम›🌿 AI Sprouts›पाठ›टोकनाइज़ेशन

🔤

AI Sprouts • मध्यम⏱️ 14 मिनट पढ़ने का समय

टोकनाइज़ेशन

टोकनाइज़ेशन - AI टेक्स्ट कैसे पढ़ता है

न्यूरल नेटवर्क संख्याओं के साथ काम करते हैं। वे "hello" शब्द को उस तरह नहीं पढ़ सकते जैसे आप पढ़ते हैं। किसी भी भाषा मॉडल द्वारा टेक्स्ट को प्रोसेस करने से पहले, इसे टोकन नामक छोटे संख्यात्मक टुकड़ों में तोड़ना होता है। यह देखने में सरल लगने वाला कदम AI भाषा को कैसे समझता - और गलत समझता - है, इसके लिए गहरे परिणाम रखता है।

AI सीधे कैरेक्टर्स क्यों नहीं पढ़ सकता?

सबसे सरल तरीका: हर कैरेक्टर को एक टोकन मानें। "Hello" बन जाता है ['H', 'e', 'l', 'l', 'o'] - पाँच टोकन।

समस्या? शब्द बेहद लंबी सीक्वेंस बन जाते हैं। 500 शब्दों का एक निबंध 2,500+ कैरेक्टर टोकन बन सकता है। चूँकि Transformer मॉडल सीक्वेंस लंबाई के साथ द्विघात रूप से स्केल करते हैं, यह कम्प्यूटेशनल रूप से बहुत भारी है। इससे भी बुरा, अकेले कैरेक्टर्स लगभग कोई अर्थ नहीं रखते - मॉडल को सीखना होगा कि 'c', 'a', 't' मिलकर एक प्यारे जानवर का मतलब रखते हैं।

शब्द-स्तरीय टोकनाइज़ेशन

दूसरी चरम सीमा: हर शब्द एक टोकन। "The cat sat" बन जाता है ['The', 'cat', 'sat'] - संक्षिप्त और अर्थपूर्ण।

लेकिन इससे एक अलग समस्या बनती है: शब्दकोश विस्फोट। अकेली अंग्रेज़ी में सैकड़ों हज़ारों शब्द हैं। गलत वर्तनी, तकनीकी शब्दावली और कोड जोड़ें, तो शब्दकोश असंभालनीय हो जाता है। शब्दकोश में न मिलने वाला कोई भी शब्द अज्ञात [UNK] टोकन बन जाता है - समझ के लिए एक बंद रास्ता।

🤔

Think about it:

अगर शब्द-स्तरीय टोकन उपयोग करने वाला कोई मॉडल पहली बार "ChatGPT" का सामना करता है और यह शब्दकोश में नहीं है, तो यह [UNK] बन जाता है। यह नई तकनीक पर चर्चा करने की मॉडल की क्षमता को कैसे प्रभावित कर सकता है?

स्वीट स्पॉट - सबवर्ड टोकनाइज़ेशन

आधुनिक भाषा मॉडल सबवर्ड टोकनाइज़ेशन का उपयोग करते हैं, जो कैरेक्टर्स और शब्दों के बीच में बैठता है। आम शब्द पूरे रहते हैं ("the", "and"), जबकि दुर्लभ शब्द अर्थपूर्ण टुकड़ों में विभाजित होते हैं ("un" + "believ" + "able")।

इससे हमें एक प्रबंधनीय शब्दकोश (आमतौर पर 32,000–100,000 टोकन) मिलता है जबकि किसी भी टेक्स्ट को संभालने की क्षमता बनी रहती है - यहाँ तक कि वे शब्द भी जो मॉडल ने पहले कभी नहीं देखे।

शब्द 'unbelievable' को तीन सबवर्ड टोकन में विभाजित किया गया: 'un', 'believ', और 'able', जिसमें तीर दिखाते हैं कि वे कैसे पुनः जुड़ते हैं — सबवर्ड टोकनाइज़ेशन दुर्लभ शब्दों को पुन: प्रयोग योग्य टुकड़ों में विभाजित करता है जबकि आम शब्दों को पूरा रखता है।

Byte Pair Encoding (BPE) - कदम दर कदम

BPE वह एल्गोरिदम है जो GPT मॉडलों के पीछे है। यह शब्दकोश कैसे बनाता है:

पाठ 8 / 160% पूर्ण

←लॉस फंक्शन और ऑप्टिमाइज़र

Discussion

lessons.suggestEdit

शुरू करें अलग-अलग कैरेक्टर्स से: {'h', 'e', 'l', 'o', 'w', 'r', 'd', ' '}।
गिनें कि ट्रेनिंग टेक्स्ट में कौन सी आसन्न टोकन जोड़ी सबसे अधिक बार दिखती है।
मर्ज करें सबसे अधिक बार आने वाली जोड़ी को एक नए टोकन में। अगर 'l' + 'o' सबसे ज़्यादा आता है, तो 'lo' बनाएँ।
वांछित शब्दकोश आकार तक पहुँचने तक चरण 2–3 दोहराएँ।

"low lower lowest" टेक्स्ट के साथ कार्यात्मक उदाहरण:

| चरण | सबसे अधिक बार आने वाली जोड़ी | नया टोकन | शब्दकोश बढ़ता है | |------|-------------------|-----------|-----------------| | 1 | l + o | lo | ...lo... | | 2 | lo + w | low | ...low... | | 3 | e + r | er | ...er... | | 4 | low + e | lowe | ...lowe... |

पर्याप्त मर्ज के बाद, डेटा से स्वाभाविक रूप से आम शब्द और शब्द खंड उभरते हैं।

🤯

BPE मूल रूप से 1994 में एक डेटा कम्प्रेशन एल्गोरिदम के रूप में आविष्कार किया गया था। इसे 2015 में Sennrich et al. द्वारा NLP के लिए पुनर्उपयोग किया गया - विषयों के बीच विचारों के आदान-प्रदान का एक सुंदर उदाहरण।

अन्य टोकनाइज़ेशन विधियाँ

BERT और संबंधित मॉडलों द्वारा उपयोग किया जाता है। BPE के समान, लेकिन सबसे अधिक बार आने वाली जोड़ी मर्ज करने के बजाय, वह जोड़ी मर्ज करता है जो ट्रेनिंग डेटा की likelihood को अधिकतम करती है। सबवर्ड टुकड़ों के आगे ## लगता है (जैसे, "playing" → ['play', '##ing'])।

इनपुट को एक रॉ बाइट स्ट्रीम के रूप में लेता है - स्पेस द्वारा पहले से टोकनाइज़ेशन नहीं। यह जापानी और चीनी जैसी भाषाओं के लिए महत्वपूर्ण है जो शब्दों के बीच स्पेस का उपयोग नहीं करतीं। GPT-4 और LLaMA SentencePiece-शैली के दृष्टिकोण उपयोग करते हैं।

GPT-4 टेक्स्ट को कैसे टोकनाइज़ करता है

GPT-4 cl100k_base नामक एक BPE वैरिएंट का उपयोग करता है जिसमें लगभग 100,000 टोकन का शब्दकोश है। कुछ आश्चर्यजनक व्यवहार:

"Hello world" → 2 टोकन (Hello, world - ध्यान दें कि स्पेस जुड़ा हुआ है)।
"indivisibility" → 4 टोकन (ind, iv, isibility - यह दुर्लभ शब्दों को विभाजित करता है)।
एक इमोजी 🎉 → अक्सर 1–3 टोकन।
Python कोड def hello(): → हर कीवर्ड और सिंबल आमतौर पर अपना अलग टोकन होता है।

🧠त्वरित जांच

भाषा मॉडल पूरे शब्दों के बजाय सबवर्ड टोकनाइज़ेशन क्यों उपयोग करते हैं?

शब्दकोश आकार का ट्रेड-ऑफ

| शब्दकोश आकार | फ़ायदे | नुकसान | |----------------|------|------| | छोटा (8k) | छोटा मॉडल, कम एम्बेडिंग्स | लंबी सीक्वेंस, धीमी प्रोसेसिंग | | बड़ा (100k+) | छोटी सीक्वेंस, समृद्ध टोकन | बड़ी एम्बेडिंग टेबल, अधिक मेमोरी |

सही संतुलन खोजना एक इंजीनियरिंग निर्णय है जो मॉडल की गति, मेमोरी और क्षमता को प्रभावित करता है।

बहुभाषी चुनौतियाँ

मुख्य रूप से अंग्रेज़ी टेक्स्ट पर ट्रेन किए गए टोकनाइज़र पक्षपाती होते हैं। हिंदी या अरबी में वही वाक्य अपने अंग्रेज़ी समकक्ष से 3–5× अधिक टोकन ले सकता है, क्योंकि वे लिपियाँ ट्रेनिंग डेटा में कम प्रतिनिधित्व वाली थीं। इसका मतलब:

गैर-अंग्रेज़ी उपयोगकर्ता कॉन्टेक्स्ट सीमा जल्दी पूरी कर लेते हैं।
गैर-अंग्रेज़ी टेक्स्ट के लिए API लागत प्रति शब्द अधिक है।
गैर-अंग्रेज़ी तर्क के लिए मॉडल के पास कम "सोचने की जगह" होती है।

🧠त्वरित जांच

वही वाक्य हिंदी में अंग्रेज़ी की तुलना में अधिक API टोकन क्यों ले सकता है?

टोकन गणना और लागत प्रभाव

GPT-4, Claude, या Gemini की हर API कॉल प्रति टोकन बिल की जाती है। टोकनाइज़ेशन समझने से आपको मदद मिलती है:

बड़ी जॉब चलाने से पहले लागत का अनुमान लगाएँ।
प्रॉम्प्ट्स को ऑप्टिमाइज़ करें - एक ही अर्थ के साथ छोटे प्रॉम्प्ट पैसे बचाते हैं।
कॉन्टेक्स्ट विंडो का सम्मान करें - GPT-4 Turbo 128k टोकन स्वीकार करता है; इससे अधिक होने पर आपका इनपुट चुपचाप काट दिया जाता है।

अंग्रेज़ी के लिए एक मोटा अनुमान: 1 टोकन ≈ ¾ शब्द, या लगभग 4 कैरेक्टर।

🧠त्वरित जांच

1,000 शब्दों का एक अंग्रेज़ी निबंध लगभग कितने टोकन का होता है?

🤯

OpenAI की ओपन-सोर्स tiktoken लाइब्रेरी आपको GPT-4 जैसे ही एल्गोरिदम से स्थानीय रूप से टेक्स्ट टोकनाइज़ करने देती है। अपने खुद के लेखन पर इसे आज़माएँ और देखें कि आपके संदेश वास्तव में कितने टोकन खर्च करते हैं।

🤔

Think about it:

अगर आप वेल्श जैसी कम-संसाधन भाषा के लिए एक भाषा मॉडल बना रहे होते, तो निष्पक्ष और कुशल एन्कोडिंग सुनिश्चित करने के लिए टोकनाइज़ेशन के प्रति कैसा दृष्टिकोण अपनाते?

मुख्य सारांश

टोकनाइज़ेशन कच्चे टेक्स्ट को संख्यात्मक टोकन में बदलता है जिन्हें मॉडल प्रोसेस कर सकते हैं।
BPE सबसे अधिक बार आने वाली कैरेक्टर जोड़ियों को बार-बार मर्ज करके शब्दकोश बनाता है।
सबवर्ड टोकनाइज़ेशन शब्दकोश आकार को किसी भी टेक्स्ट को संभालने की क्षमता के साथ संतुलित करता है।
टोकनाइज़र पक्षपात गैर-अंग्रेज़ी भाषाओं को लागत और क्षमता में नुकसान पहुँचाता है।
टोकन समझने से आपको लागत का अनुमान लगाने और प्रॉम्प्ट्स को ऑप्टिमाइज़ करने में मदद मिलती है।

📚 आगे पढ़ें

Andrej Karpathy - nn-zero-to-hero (Tokenizer lecture) - Karpathy के साथ शुरू से BPE टोकनाइज़र बनाएँ
OpenAI Tokenizer Tool - देखें कि GPT मॉडल आपके टेक्स्ट को कैसे टोकनाइज़ करते हैं, इसके लिए इंटरैक्टिव टूल
Hugging Face - Summary of Tokenizers - BPE, WordPiece, और SentencePiece की स्पष्ट तुलना

AI की नींव

AI में महारत

करियर रेडी

लैब

टोकनाइज़ेशन

टोकनाइज़ेशन - AI टेक्स्ट कैसे पढ़ता है

AI सीधे कैरेक्टर्स क्यों नहीं पढ़ सकता?

शब्द-स्तरीय टोकनाइज़ेशन

स्वीट स्पॉट - सबवर्ड टोकनाइज़ेशन

Byte Pair Encoding (BPE) - कदम दर कदम

Discussion

अन्य टोकनाइज़ेशन विधियाँ

WordPiece

SentencePiece

GPT-4 टेक्स्ट को कैसे टोकनाइज़ करता है

शब्दकोश आकार का ट्रेड-ऑफ

बहुभाषी चुनौतियाँ

टोकन गणना और लागत प्रभाव

मुख्य सारांश

📚 आगे पढ़ें