AI और इंजीनियरिंग प्रोग्राम›🌿 AI Sprouts›पाठ›मूल्यांकन मेट्रिक्स

📊

AI Sprouts • मध्यम⏱️ 15 मिनट पढ़ने का समय

मूल्यांकन मेट्रिक्स

मूल्यांकन मेट्रिक्स - क्या आपका AI वास्तव में अच्छा है?

आपने एक मॉडल ट्रेन किया। लॉस कम हुआ। लेकिन क्या यह वास्तव में अच्छा है? जवाब पूरी तरह इस पर निर्भर करता है कि आप इसे कैसे मापते हैं - और गलत मेट्रिक चुनना आपको खतरनाक रूप से भ्रामक आत्मविश्वास दे सकता है। यह पाठ उन मेट्रिक्स को कवर करता है जो हर AI प्रैक्टिशनर को समझनी चाहिए।

एक्यूरेसी का जाल

एक्यूरेसी = सही प्रेडिक्शन ÷ कुल प्रेडिक्शन। सही लगता है - जब तक आपका सामना क्लास इम्बैलेंस से नहीं हो जाता।

कल्पना करें एक धोखाधड़ी पहचान मॉडल। 10,000 लेन-देन में से केवल 50 धोखाधड़ी वाले हैं। एक मॉडल जो हर लेन-देन के लिए बस "धोखाधड़ी नहीं" प्रेडिक्ट करता है, 99.5% एक्यूरेसी हासिल करता है - जबकि शून्य धोखाधड़ी पकड़ता है। पूरी तरह बेकार, फिर भी एक्यूरेसी शानदार दिखती है।

यही कारण है कि वास्तविक दुनिया के AI के लिए अकेली एक्यूरेसी कभी पर्याप्त नहीं होती।

🤯

दुर्लभ बीमारियों की चिकित्सा जाँच में, एक मॉडल जो हमेशा "स्वस्थ" प्रेडिक्ट करता है, 99.9% से अधिक एक्यूरेसी प्राप्त कर सकता है। यही कारण है कि डॉक्टर और डेटा साइंटिस्ट स्क्रीनिंग टेस्ट के लिए प्राथमिक मेट्रिक के रूप में sensitivity (recall) पर निर्भर करते हैं।

कन्फ्यूज़न मैट्रिक्स

बेहतर मेट्रिक्स में जाने से पहले, हमें कन्फ्यूज़न मैट्रिक्स चाहिए - एक 2×2 टेबल जो हर प्रेडिक्शन को विभाजित करती है:

| | प्रेडिक्टेड पॉज़िटिव | प्रेडिक्टेड नेगेटिव | |---|---|---| | वास्तव में पॉज़िटिव | True Positive (TP) | False Negative (FN) | | वास्तव में नेगेटिव | False Positive (FP) | True Negative (TN) |

ठोस उदाहरण - 1,000 ईमेल पर ईमेल स्पैम फ़िल्टर (100 स्पैम, 900 वैध):

| | प्रेडिक्टेड स्पैम | प्रेडिक्टेड वैध | |---|---|---| | वास्तव में स्पैम | 80 (TP) | 20 (FN) | | वास्तव में वैध | 30 (FP) | 870 (TN) |

इस एक टेबल से हम हर क्लासिफिकेशन मेट्रिक निकाल सकते हैं।

एक स्पैम फ़िल्टर के लिए कन्फ्यूज़न मैट्रिक्स जिसमें चार क्वाड्रंट रंग-कोडित हैं: TP और TN के लिए हरा, FP और FN के लिए लाल, साथ में precision और recall के फ़ॉर्मूले — कन्फ्यूज़न मैट्रिक्स सभी क्लासिफिकेशन मेट्रिक्स की नींव है।

Precision - "मैंने जो कुछ फ़्लैग किया, उसमें कितना सही था?"

Precision = TP ÷ (TP + FP) = 80 ÷ (80 + 30) = 72.7%

हमारे स्पैम फ़िल्टर में: स्पैम के रूप में चिह्नित सभी ईमेल में से 72.7% वास्तव में स्पैम थे। बाकी 27.3% वैध ईमेल गलत तरीके से पकड़े गए - false positives।

पाठ 10 / 160% पूर्ण

←एम्बेडिंग्स और वेक्टर डेटाबेस

Discussion

lessons.suggestEdit

Precision कब सबसे ज़्यादा मायने रखता है: जब false positives महँगे हों। एक स्पैम फ़िल्टर जो महत्वपूर्ण क्लाइंट ईमेल को जंक में भेज दे, गंभीर समस्या है।

Recall - "जो कुछ पॉज़िटिव था, उसमें कितना मैंने पकड़ा?"

Recall = TP ÷ (TP + FN) = 80 ÷ (80 + 20) = 80%

मॉडल ने 100 वास्तविक स्पैम ईमेल में से 80 पकड़े - इसने 80% को recall किया। बाकी 20 false negatives के रूप में निकल गए।

Recall कब सबसे ज़्यादा मायने रखता है: जब पॉज़िटिव केस छूटना खतरनाक हो। कैंसर स्क्रीनिंग में, ट्यूमर का पता न लगना (false negative) जानलेवा हो सकता है।

🧠त्वरित जांच

एक अस्पताल चाहता है कि मॉडल एक खतरनाक बीमारी की जाँच करे। उन्हें किस मेट्रिक को प्राथमिकता देनी चाहिए?

Precision–Recall ट्रेड-ऑफ

Precision और recall विपरीत दिशाओं में खींचते हैं। स्पैम थ्रेशोल्ड को कड़ा करने से कम वैध ईमेल पकड़ में आती हैं (precision बढ़ता है) लेकिन ज़्यादा स्पैम निकल जाता है (recall घटता है)। इसे ढीला करने पर ज़्यादा स्पैम पकड़ में आता है (recall बढ़ता है) लेकिन ज़्यादा अच्छी ईमेल भी फँस जाती हैं (precision घटता है)।

कोई मुफ़्त भोज नहीं - आपको तय करना होगा कि आपके विशिष्ट उपयोग के लिए कौन सी त्रुटियाँ ज़्यादा महँगी हैं।

F1 स्कोर - हार्मोनिक मीन

जब आपको precision और recall को संतुलित करने वाली एक संख्या चाहिए, तो F1 स्कोर उपयोग करें:

F1 = 2 × (Precision × Recall) ÷ (Precision + Recall)

हमारे स्पैम फ़िल्टर के लिए: F1 = 2 × (0.727 × 0.80) ÷ (0.727 + 0.80) = 0.762 - लगभग 76.2%।

हार्मोनिक मीन चरम असंतुलन को दंडित करता है। अगर precision या recall में से कोई भी बहुत कम है, तो F1 तेज़ी से गिरता है।

🤔

Think about it:

एक कंटेंट मॉडरेशन सिस्टम में 95% precision है लेकिन केवल 30% recall। F1 स्कोर सिर्फ़ 46% है। यह आपको सिस्टम के वास्तविक-दुनिया के व्यवहार के बारे में क्या बताता है, और क्या आप इसे डिप्लॉय करेंगे?

ROC वक्र और AUC

ROC वक्र (Receiver Operating Characteristic) हर संभव क्लासिफिकेशन थ्रेशोल्ड पर True Positive Rate को False Positive Rate के विरुद्ध प्लॉट करता है। यह दिखाता है कि मॉडल सभी थ्रेशोल्ड पर, केवल एक पर नहीं, कितनी अच्छी तरह क्लासेज़ को अलग करता है।

AUC (Area Under the Curve) इसे एक संख्या में सारांशित करता है:

AUC = 1.0 - परफेक्ट सेपरेशन।
AUC = 0.5 - रैंडम गेसिंग से बेहतर नहीं (डायगोनल लाइन)।
AUC < 0.5 - रैंडम से भी बुरा (आपके लेबल शायद उलटे हैं!)।

AUC थ्रेशोल्ड-स्वतंत्र है, जो इसे किसी विशिष्ट ऑपरेटिंग पॉइंट तय करने से पहले मॉडलों की तुलना करने के लिए उत्कृष्ट बनाता है।

🧠त्वरित जांच

0.5 के AUC का क्या मतलब है?

टेक्स्ट जनरेशन के लिए मेट्रिक्स

क्लासिफिकेशन मेट्रिक्स उन भाषा मॉडलों पर लागू नहीं होती जो टेक्स्ट जनरेट करते हैं। अलग-अलग कार्यों को अलग-अलग माप चाहिए।

BLEU स्कोर

BLEU (Bilingual Evaluation Understudy) मापता है कि जनरेट किया गया अनुवाद संदर्भ अनुवादों से कितना ओवरलैप करता है, मिलान करने वाले n-grams (शब्द अनुक्रम) गिनकर। स्कोर 0 से 1 तक होता है।

BLEU मशीन अनुवाद में व्यापक रूप से उपयोग होता है लेकिन इसकी महत्वपूर्ण सीमाएँ हैं: यह शब्द ओवरलैप को पुरस्कृत करता है, अर्थ को नहीं। "The cat sat on the mat" और "A feline rested upon the rug" समान अर्थ के बावजूद एक-दूसरे के विरुद्ध खराब स्कोर करते हैं।

Perplexity मापती है कि नए टेक्स्ट से भाषा मॉडल कितना आश्चर्यचकित होता है। कम बेहतर है - 20 की perplexity का मतलब है कि मॉडल औसतन 20 समान रूप से संभावित अगले शब्दों में से चुन रहा है। एक अच्छे मॉडल की perplexity कम होती है क्योंकि वह टेक्स्ट की अच्छी प्रेडिक्शन करता है।

GPT-4 अंग्रेज़ी टेक्स्ट पर उल्लेखनीय रूप से कम perplexity प्राप्त करता है, जो इसकी मज़बूत भाषा समझ को दर्शाता है।

🤯

BLEU मेट्रिक 2002 में पेश किया गया था और जल्दी ही मशीन अनुवाद मूल्यांकन का मानक बन गया। ज्ञात खामियों के बावजूद, यह लगभग दो दशकों तक प्रमुख बना रहा क्योंकि कोई सरल विकल्प लगातार मानव निर्णय से बेहतर सहसंबंध नहीं रखता था।

प्रोडक्शन में A/B टेस्टिंग

ऑफ़लाइन मेट्रिक्स आवश्यक हैं लेकिन पर्याप्त नहीं। अंतिम परीक्षा A/B टेस्टिंग है: दो मॉडल वर्शन अलग-अलग उपयोगकर्ता समूहों में डिप्लॉय करें और वास्तविक-दुनिया के परिणाम मापें।

क्या नया रिकमेंडेशन मॉडल क्लिक-थ्रू रेट बढ़ाता है?
क्या बेहतर चैटबॉट सपोर्ट टिकट एस्केलेशन कम करता है?
क्या अपडेटेड स्पैम फ़िल्टर को कम "not spam" करेक्शन मिलते हैं?

प्रोडक्शन मेट्रिक्स अक्सर ऑफ़लाइन मेट्रिक्स से भिन्न होती हैं क्योंकि उपयोगकर्ता अप्रत्याशित रूप से व्यवहार करते हैं।

🧠त्वरित जांच

उत्कृष्ट ऑफ़लाइन मेट्रिक्स वाला मॉडल A/B टेस्टिंग में खराब प्रदर्शन क्यों कर सकता है?

कौन सी मेट्रिक कब उपयोग करें

| परिदृश्य | प्राथमिक मेट्रिक | |----------|---------------| | संतुलित क्लासिफिकेशन | Accuracy, F1 | | असंतुलित क्लासेज़ | Precision, Recall, AUC | | चिकित्सा स्क्रीनिंग | Recall (sensitivity) | | स्पैम फ़िल्टरिंग | Precision + Recall संतुलन | | मशीन अनुवाद | BLEU, METEOR | | भाषा मॉडल गुणवत्ता | Perplexity | | प्रोडक्शन प्रभाव | A/B टेस्ट परिणाम |

🤔

Think about it:

आप एक सेल्फ-ड्राइविंग कार का पैदल यात्री पहचान सिस्टम बना रहे हैं। False negative का मतलब है पैदल यात्री को न देखना; false positive का मतलब है किसी छाया के लिए ब्रेक लगाना। आप कौन सी मेट्रिक ऑप्टिमाइज़ करेंगे, और कौन सा ट्रेड-ऑफ स्वीकार करने को तैयार हैं?

मुख्य सारांश

असंतुलित डेटा में एक्यूरेसी भ्रामक है - हमेशा कन्फ्यूज़न मैट्रिक्स जाँचें।
Precision पॉज़िटिव प्रेडिक्शन की शुद्धता मापता है; recall पूर्णता मापता है।
F1 दोनों को संतुलित करता है; AUC सभी थ्रेशोल्ड पर मूल्यांकन करता है।
टेक्स्ट जनरेशन क्लासिफिकेशन मेट्रिक्स के बजाय BLEU और perplexity उपयोग करता है।
A/B टेस्टिंग वास्तविक-दुनिया के मॉडल प्रभाव को मापने का स्वर्ण मानक है।

📚 आगे पढ़ें

Google ML Crash Course - Classification Metrics - Precision, recall, और ROC वक्र की इंटरैक्टिव वॉकथ्रू
Towards Data Science - Beyond Accuracy - मेट्रिक चयन के वास्तविक-दुनिया उदाहरणों के साथ व्यावहारिक गाइड

AI की नींव

AI में महारत

करियर रेडी

लैब

मूल्यांकन मेट्रिक्स

मूल्यांकन मेट्रिक्स - क्या आपका AI वास्तव में अच्छा है?

एक्यूरेसी का जाल

कन्फ्यूज़न मैट्रिक्स

Precision - "मैंने जो कुछ फ़्लैग किया, उसमें कितना सही था?"

Discussion

Recall - "जो कुछ पॉज़िटिव था, उसमें कितना मैंने पकड़ा?"

Precision–Recall ट्रेड-ऑफ

F1 स्कोर - हार्मोनिक मीन

ROC वक्र और AUC

टेक्स्ट जनरेशन के लिए मेट्रिक्स

BLEU स्कोर

Perplexity

प्रोडक्शन में A/B टेस्टिंग

कौन सी मेट्रिक कब उपयोग करें

मुख्य सारांश

📚 आगे पढ़ें