आपने एक मॉडल ट्रेन किया। लॉस कम हुआ। लेकिन क्या यह वास्तव में अच्छा है? जवाब पूरी तरह इस पर निर्भर करता है कि आप इसे कैसे मापते हैं - और गलत मेट्रिक चुनना आपको खतरनाक रूप से भ्रामक आत्मविश्वास दे सकता है। यह पाठ उन मेट्रिक्स को कवर करता है जो हर AI प्रैक्टिशनर को समझनी चाहिए।
एक्यूरेसी = सही प्रेडिक्शन ÷ कुल प्रेडिक्शन। सही लगता है - जब तक आपका सामना क्लास इम्बैलेंस से नहीं हो जाता।
कल्पना करें एक धोखाधड़ी पहचान मॉडल। 10,000 लेन-देन में से केवल 50 धोखाधड़ी वाले हैं। एक मॉडल जो हर लेन-देन के लिए बस "धोखाधड़ी नहीं" प्रेडिक्ट करता है, 99.5% एक्यूरेसी हासिल करता है - जबकि शून्य धोखाधड़ी पकड़ता है। पूरी तरह बेकार, फिर भी एक्यूरेसी शानदार दिखती है।
यही कारण है कि वास्तविक दुनिया के AI के लिए अकेली एक्यूरेसी कभी पर्याप्त नहीं होती।
दुर्लभ बीमारियों की चिकित्सा जाँच में, एक मॉडल जो हमेशा "स्वस्थ" प्रेडिक्ट करता है, 99.9% से अधिक एक्यूरेसी प्राप्त कर सकता है। यही कारण है कि डॉक्टर और डेटा साइंटिस्ट स्क्रीनिंग टेस्ट के लिए प्राथमिक मेट्रिक के रूप में sensitivity (recall) पर निर्भर करते हैं।
बेहतर मेट्रिक्स में जाने से पहले, हमें कन्फ्यूज़न मैट्रिक्स चाहिए - एक 2×2 टेबल जो हर प्रेडिक्शन को विभाजित करती है:
| | प्रेडिक्टेड पॉज़िटिव | प्रेडिक्टेड नेगेटिव | |---|---|---| | वास्तव में पॉज़िटिव | True Positive (TP) | False Negative (FN) | | वास्तव में नेगेटिव | False Positive (FP) | True Negative (TN) |
ठोस उदाहरण - 1,000 ईमेल पर ईमेल स्पैम फ़िल्टर (100 स्पैम, 900 वैध):
| | प्रेडिक्टेड स्पैम | प्रेडिक्टेड वैध | |---|---|---| | वास्तव में स्पैम | 80 (TP) | 20 (FN) | | वास्तव में वैध | 30 (FP) | 870 (TN) |
इस एक टेबल से हम हर क्लासिफिकेशन मेट्रिक निकाल सकते हैं।
Precision = TP ÷ (TP + FP) = 80 ÷ (80 + 30) = 72.7%
हमारे स्पैम फ़िल्टर में: स्पैम के रूप में चिह्नित सभी ईमेल में से 72.7% वास्तव में स्पैम थे। बाकी 27.3% वैध ईमेल गलत तरीके से पकड़े गए - false positives।
Sign in to join the discussion
Precision कब सबसे ज़्यादा मायने रखता है: जब false positives महँगे हों। एक स्पैम फ़िल्टर जो महत्वपूर्ण क्लाइंट ईमेल को जंक में भेज दे, गंभीर समस्या है।
Recall = TP ÷ (TP + FN) = 80 ÷ (80 + 20) = 80%
मॉडल ने 100 वास्तविक स्पैम ईमेल में से 80 पकड़े - इसने 80% को recall किया। बाकी 20 false negatives के रूप में निकल गए।
Recall कब सबसे ज़्यादा मायने रखता है: जब पॉज़िटिव केस छूटना खतरनाक हो। कैंसर स्क्रीनिंग में, ट्यूमर का पता न लगना (false negative) जानलेवा हो सकता है।
एक अस्पताल चाहता है कि मॉडल एक खतरनाक बीमारी की जाँच करे। उन्हें किस मेट्रिक को प्राथमिकता देनी चाहिए?
Precision और recall विपरीत दिशाओं में खींचते हैं। स्पैम थ्रेशोल्ड को कड़ा करने से कम वैध ईमेल पकड़ में आती हैं (precision बढ़ता है) लेकिन ज़्यादा स्पैम निकल जाता है (recall घटता है)। इसे ढीला करने पर ज़्यादा स्पैम पकड़ में आता है (recall बढ़ता है) लेकिन ज़्यादा अच्छी ईमेल भी फँस जाती हैं (precision घटता है)।
कोई मुफ़्त भोज नहीं - आपको तय करना होगा कि आपके विशिष्ट उपयोग के लिए कौन सी त्रुटियाँ ज़्यादा महँगी हैं।
जब आपको precision और recall को संतुलित करने वाली एक संख्या चाहिए, तो F1 स्कोर उपयोग करें:
F1 = 2 × (Precision × Recall) ÷ (Precision + Recall)
हमारे स्पैम फ़िल्टर के लिए: F1 = 2 × (0.727 × 0.80) ÷ (0.727 + 0.80) = 0.762 - लगभग 76.2%।
हार्मोनिक मीन चरम असंतुलन को दंडित करता है। अगर precision या recall में से कोई भी बहुत कम है, तो F1 तेज़ी से गिरता है।
एक कंटेंट मॉडरेशन सिस्टम में 95% precision है लेकिन केवल 30% recall। F1 स्कोर सिर्फ़ 46% है। यह आपको सिस्टम के वास्तविक-दुनिया के व्यवहार के बारे में क्या बताता है, और क्या आप इसे डिप्लॉय करेंगे?
ROC वक्र (Receiver Operating Characteristic) हर संभव क्लासिफिकेशन थ्रेशोल्ड पर True Positive Rate को False Positive Rate के विरुद्ध प्लॉट करता है। यह दिखाता है कि मॉडल सभी थ्रेशोल्ड पर, केवल एक पर नहीं, कितनी अच्छी तरह क्लासेज़ को अलग करता है।
AUC (Area Under the Curve) इसे एक संख्या में सारांशित करता है:
AUC थ्रेशोल्ड-स्वतंत्र है, जो इसे किसी विशिष्ट ऑपरेटिंग पॉइंट तय करने से पहले मॉडलों की तुलना करने के लिए उत्कृष्ट बनाता है।
0.5 के AUC का क्या मतलब है?
क्लासिफिकेशन मेट्रिक्स उन भाषा मॉडलों पर लागू नहीं होती जो टेक्स्ट जनरेट करते हैं। अलग-अलग कार्यों को अलग-अलग माप चाहिए।
BLEU (Bilingual Evaluation Understudy) मापता है कि जनरेट किया गया अनुवाद संदर्भ अनुवादों से कितना ओवरलैप करता है, मिलान करने वाले n-grams (शब्द अनुक्रम) गिनकर। स्कोर 0 से 1 तक होता है।
BLEU मशीन अनुवाद में व्यापक रूप से उपयोग होता है लेकिन इसकी महत्वपूर्ण सीमाएँ हैं: यह शब्द ओवरलैप को पुरस्कृत करता है, अर्थ को नहीं। "The cat sat on the mat" और "A feline rested upon the rug" समान अर्थ के बावजूद एक-दूसरे के विरुद्ध खराब स्कोर करते हैं।
Perplexity मापती है कि नए टेक्स्ट से भाषा मॉडल कितना आश्चर्यचकित होता है। कम बेहतर है - 20 की perplexity का मतलब है कि मॉडल औसतन 20 समान रूप से संभावित अगले शब्दों में से चुन रहा है। एक अच्छे मॉडल की perplexity कम होती है क्योंकि वह टेक्स्ट की अच्छी प्रेडिक्शन करता है।
GPT-4 अंग्रेज़ी टेक्स्ट पर उल्लेखनीय रूप से कम perplexity प्राप्त करता है, जो इसकी मज़बूत भाषा समझ को दर्शाता है।
BLEU मेट्रिक 2002 में पेश किया गया था और जल्दी ही मशीन अनुवाद मूल्यांकन का मानक बन गया। ज्ञात खामियों के बावजूद, यह लगभग दो दशकों तक प्रमुख बना रहा क्योंकि कोई सरल विकल्प लगातार मानव निर्णय से बेहतर सहसंबंध नहीं रखता था।
ऑफ़लाइन मेट्रिक्स आवश्यक हैं लेकिन पर्याप्त नहीं। अंतिम परीक्षा A/B टेस्टिंग है: दो मॉडल वर्शन अलग-अलग उपयोगकर्ता समूहों में डिप्लॉय करें और वास्तविक-दुनिया के परिणाम मापें।
प्रोडक्शन मेट्रिक्स अक्सर ऑफ़लाइन मेट्रिक्स से भिन्न होती हैं क्योंकि उपयोगकर्ता अप्रत्याशित रूप से व्यवहार करते हैं।
उत्कृष्ट ऑफ़लाइन मेट्रिक्स वाला मॉडल A/B टेस्टिंग में खराब प्रदर्शन क्यों कर सकता है?
| परिदृश्य | प्राथमिक मेट्रिक | |----------|---------------| | संतुलित क्लासिफिकेशन | Accuracy, F1 | | असंतुलित क्लासेज़ | Precision, Recall, AUC | | चिकित्सा स्क्रीनिंग | Recall (sensitivity) | | स्पैम फ़िल्टरिंग | Precision + Recall संतुलन | | मशीन अनुवाद | BLEU, METEOR | | भाषा मॉडल गुणवत्ता | Perplexity | | प्रोडक्शन प्रभाव | A/B टेस्ट परिणाम |
आप एक सेल्फ-ड्राइविंग कार का पैदल यात्री पहचान सिस्टम बना रहे हैं। False negative का मतलब है पैदल यात्री को न देखना; false positive का मतलब है किसी छाया के लिए ब्रेक लगाना। आप कौन सी मेट्रिक ऑप्टिमाइज़ करेंगे, और कौन सा ट्रेड-ऑफ स्वीकार करने को तैयार हैं?