AI & ఇంజనీరింగ్ ప్రోగ్రామ్‌లు›🌿 AI Sprouts›పాఠాలు›ఎవాల్యుయేషన్ మెట్రిక్స్

📊

AI Sprouts • మధ్యస్థం⏱️ 15 నిమిషాల పఠన సమయం

ఎవాల్యుయేషన్ మెట్రిక్స్

ఎవాల్యుయేషన్ మెట్రిక్స్ - మీ AI నిజంగా మంచిదా?

మీరు మోడల్‌ను ట్రైన్ చేశారు. లాస్ తగ్గింది. కానీ ఇది నిజంగా మంచిదా? సమాధానం మీరు దాన్ని ఎలా కొలుస్తారనే దానిపై పూర్తిగా ఆధారపడి ఉంటుంది - తప్పు మెట్రిక్ ఎంచుకుంటే ప్రమాదకరంగా తప్పుదారి పట్టించే నమ్మకాన్ని ఇవ్వవచ్చు. ప్రతి AI ప్రాక్టీషనర్ అర్థం చేసుకోవలసిన మెట్రిక్స్ ఈ పాఠంలో ఉన్నాయి.

ఆక్యురసీ ఉచ్చు

ఆక్యురసీ = సరైన ప్రిడిక్షన్‌లు ÷ మొత్తం ప్రిడిక్షన్‌లు. సహేతుకంగా అనిపిస్తుంది - క్లాస్ ఇంబ్యాలన్స్ ఎదురయ్యే వరకు.

ఫ్రాడ్ డిటెక్షన్ మోడల్ ఊహించుకోండి. 10,000 లావాదేవీలలో, కేవలం 50 మాత్రమే మోసపూరితమైనవి. ప్రతి లావాదేవీకి "ఫ్రాడ్ కాదు" అని అంచనా వేసే మోడల్ 99.5% ఆక్యురసీ సాధిస్తుంది - సున్నా ఫ్రాడ్ పట్టుకోకపోయినా. పూర్తిగా నిరుపయోగం, కానీ ఆక్యురసీ అద్భుతంగా కనిపిస్తుంది.

అందుకే వాస్తవ-ప్రపంచ AI కోసం ఆక్యురసీ ఒక్కటే ఎప్పుడూ సరిపోదు.

🤯

అరుదైన వ్యాధుల వైద్య స్క్రీనింగ్‌లో, ఎల్లప్పుడూ "ఆరోగ్యకరమైనది" అని అంచనా వేసే మోడల్ 99.9% కంటే ఎక్కువ ఆక్యురసీ సాధించగలదు. అందుకే వైద్యులు మరియు డేటా సైంటిస్ట్‌లు స్క్రీనింగ్ పరీక్షల కోసం ప్రాథమిక మెట్రిక్‌గా సెన్సిటివిటీ (recall) పై ఆధారపడతారు.

కన్ఫ్యూజన్ మ్యాట్రిక్స్

మెరుగైన మెట్రిక్స్‌లోకి వెళ్ళే ముందు, మనకు కన్ఫ్యూజన్ మ్యాట్రిక్స్ అవసరం - ప్రతి ప్రిడిక్షన్‌ను విభజించే 2×2 టేబుల్:

| | అంచనా పాజిటివ్ | అంచనా నెగటివ్ | |---|---|---| | నిజంగా పాజిటివ్ | True Positive (TP) | False Negative (FN) | | నిజంగా నెగటివ్ | False Positive (FP) | True Negative (TN) |

నిర్దిష్ట ఉదాహరణ - 1,000 ఇమెయిల్‌లపై ఇమెయిల్ స్పామ్ ఫిల్టర్ (100 స్పామ్, 900 చట్టబద్ధమైనవి):

| | స్పామ్ అని అంచనా | చట్టబద్ధమని అంచనా | |---|---|---| | నిజంగా స్పామ్ | 80 (TP) | 20 (FN) | | నిజంగా చట్టబద్ధం | 30 (FP) | 870 (TN) |

ఈ ఒక్క టేబుల్ నుండి, ప్రతి క్లాసిఫికేషన్ మెట్రిక్‌ను రాబట్టవచ్చు.

స్పామ్ ఫిల్టర్ కోసం కన్ఫ్యూజన్ మ్యాట్రిక్స్, నాలుగు క్వాడ్రంట్‌లు రంగులతో కోడ్ చేయబడ్డాయి: TP మరియు TN కోసం ఆకుపచ్చ, FP మరియు FN కోసం ఎరుపు, precision మరియు recall ఫార్ములాలతో — కన్ఫ్యూజన్ మ్యాట్రిక్స్ అన్ని క్లాసిఫికేషన్ మెట్రిక్స్ కు పునాది.

Precision - "నేను ఫ్లాగ్ చేసిన వాటన్నింటిలో, ఎంత సరైనది?"

Precision = TP ÷ (TP + FP) = 80 ÷ (80 + 30) = 72.7%

మన స్పామ్ ఫిల్టర్‌లో: స్పామ్ అని మార్క్ చేయబడిన అన్ని ఇమెయిల్‌లలో, 72.7% నిజంగా స్పామ్. మిగతా 27.3% తప్పుగా పట్టుబడిన చట్టబద్ధ ఇమెయిల్‌లు - false positives.

పాఠం 10 / 160% పూర్తి

←ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ డేటాబేస్‌లు

Discussion

lessons.suggestEdit

Precision ఎప్పుడు ఎక్కువగా ముఖ్యం: False positives ఖరీదైనప్పుడు. ముఖ్యమైన క్లయింట్ ఇమెయిల్‌లను జంక్‌లోకి పంపే స్పామ్ ఫిల్టర్ తీవ్రమైన సమస్య.

Recall - "పాజిటివ్ అయిన వాటన్నింటిలో, ఎంత కనుగొన్నాను?"

Recall = TP ÷ (TP + FN) = 80 ÷ (80 + 20) = 80%

మోడల్ 100 నిజమైన స్పామ్ ఇమెయిల్‌లలో 80 ని పట్టుకుంది - ఇది 80% గుర్తించింది. మిగతా 20 false negatives గా జారిపోయాయి.

Recall ఎప్పుడు ఎక్కువగా ముఖ్యం: పాజిటివ్ కేసును మిస్ చేయడం ప్రమాదకరమైనప్పుడు. క్యాన్సర్ స్క్రీనింగ్‌లో, ట్యూమర్‌ను గుర్తించడంలో విఫలం (false negative) ప్రాణాలను బలి తీసుకోవచ్చు.

🧠త్వరిత తనిఖీ

ప్రమాదకరమైన వ్యాధి కోసం స్క్రీన్ చేయడానికి ఆసుపత్రికి మోడల్ కావాలి. ఏ మెట్రిక్‌కు ప్రాధాన్యత ఇవ్వాలి?

Precision–Recall ట్రేడ్-ఆఫ్

Precision మరియు recall వ్యతిరేక దిశల్లో లాగుతాయి. స్పామ్ థ్రెషోల్డ్‌ను కఠినం చేస్తే తక్కువ చట్టబద్ధ ఇమెయిల్‌లు పట్టుబడతాయి (precision పెరుగుతుంది) కానీ ఎక్కువ స్పామ్ జారిపోతుంది (recall తగ్గుతుంది). సడలిస్తే ఎక్కువ స్పామ్ పట్టుబడుతుంది (recall పెరుగుతుంది) కానీ ఎక్కువ మంచి ఇమెయిల్‌లు పట్టుబడతాయి (precision తగ్గుతుంది).

ఉచిత భోజనం లేదు - మీ నిర్దిష్ట ఉపయోగ కేసుకు ఏ ఎర్రర్‌లు ఎక్కువ ఖరీదైనవో మీరు నిర్ణయించుకోవాలి.

F1 స్కోర్ - హార్మోనిక్ మీన్

Precision మరియు recall ను బ్యాలన్స్ చేసే ఒక్క సంఖ్య కావాలంటే, F1 స్కోర్ ఉపయోగించండి:

F1 = 2 × (Precision × Recall) ÷ (Precision + Recall)

మన స్పామ్ ఫిల్టర్ కోసం: F1 = 2 × (0.727 × 0.80) ÷ (0.727 + 0.80) = 0.762 - సుమారు 76.2%.

హార్మోనిక్ మీన్ తీవ్ర అసమతుల్యతలను శిక్షిస్తుంది. Precision లేదా recall చాలా తక్కువగా ఉంటే, F1 తీవ్రంగా పడిపోతుంది.

🤔

Think about it:

కంటెంట్ మోడరేషన్ సిస్టమ్ 95% precision కానీ కేవలం 30% recall కలిగి ఉంది. F1 స్కోర్ కేవలం 46%. సిస్టమ్ యొక్క వాస్తవ-ప్రపంచ ప్రవర్తన గురించి ఇది మీకు ఏమి చెబుతుంది, మీరు దీన్ని డిప్లాయ్ చేస్తారా?

ROC వక్రాలు మరియు AUC

ROC వక్రం (Receiver Operating Characteristic) ప్రతి సాధ్య క్లాసిఫికేషన్ థ్రెషోల్డ్ వద్ద True Positive Rate ను False Positive Rate కి వ్యతిరేకంగా ప్లాట్ చేస్తుంది. కేవలం ఒక్కటి కాకుండా అన్ని థ్రెషోల్డ్‌లలో మోడల్ క్లాసులను ఎంత బాగా విభజిస్తుందో చూపిస్తుంది.

AUC (Area Under the Curve) దీన్ని ఒకే సంఖ్యగా సారాంశం చేస్తుంది:

AUC = 1.0 - ఖచ్చితమైన విభజన.
AUC = 0.5 - యాదృచ్ఛిక అంచనా కంటే మెరుగు కాదు (కర్ణ రేఖ).
AUC < 0.5 - యాదృచ్ఛికం కంటే చెడ్డది (మీ లేబుల్‌లు తారుమారైనట్లు ఉండవచ్చు!).

AUC థ్రెషోల్డ్-స్వతంత్రం, నిర్దిష్ట ఆపరేటింగ్ పాయింట్ నిర్ణయించడానికి ముందు మోడల్‌లను పోల్చడానికి అద్భుతం.

🧠త్వరిత తనిఖీ

AUC 0.5 అంటే ఏమిటి?

టెక్స్ట్ జనరేషన్ కోసం మెట్రిక్స్

క్లాసిఫికేషన్ మెట్రిక్స్ టెక్స్ట్ జనరేట్ చేసే భాషా మోడల్‌లకు వర్తించవు. వివిధ టాస్క్‌లకు వివిధ కొలతలు అవసరం.

BLEU స్కోర్

BLEU (Bilingual Evaluation Understudy) జనరేట్ చేయబడిన అనువాదం రిఫరెన్స్ అనువాదాలతో ఎంత ఓవర్‌లాప్ అవుతుందో కొలుస్తుంది, మ్యాచింగ్ n-grams (పద సీక్వెన్స్‌లు) లెక్కిస్తుంది. స్కోర్‌లు 0 నుండి 1 వరకు ఉంటాయి.

BLEU మెషిన్ ట్రాన్స్‌లేషన్‌లో విస్తృతంగా ఉపయోగించబడుతుంది కానీ గణనీయమైన పరిమితులు ఉన్నాయి: ఇది అర్థం కాకుండా పద ఓవర్‌లాప్‌ను బహుమతిగా ఇస్తుంది. "The cat sat on the mat" మరియు "A feline rested upon the rug" సారూప్య అర్థం ఉన్నప్పటికీ ఒకదానికొకటి వ్యతిరేకంగా తక్కువ స్కోర్ పొందుతాయి.

Perplexity కొత్త టెక్స్ట్ చూసి భాషా మోడల్ ఎంత ఆశ్చర్యపోతుందో కొలుస్తుంది. తక్కువ ఉంటే మంచిది - perplexity 20 అంటే మోడల్ సగటున 20 సమానంగా సంభావ్యమైన తదుపరి పదాల మధ్య ఎంచుకుంటోంది. మంచి మోడల్ తక్కువ perplexity కలిగి ఉంటుంది, ఎందుకంటే ఇది టెక్స్ట్‌ను బాగా అంచనా వేస్తుంది.

GPT-4 ఇంగ్లీష్ టెక్స్ట్‌పై చాలా తక్కువ perplexity సాధిస్తుంది, ఇది బలమైన భాషా అవగాహనను ప్రతిబింబిస్తుంది.

🤯

BLEU మెట్రిక్ 2002లో ప్రవేశపెట్టబడింది మరియు త్వరగా మెషిన్ ట్రాన్స్‌లేషన్ ఎవాల్యుయేషన్ కోసం ప్రమాణంగా మారింది. తెలిసిన లోపాలు ఉన్నప్పటికీ, ఏ సాధారణ ప్రత్యామ్నాయమూ మానవ తీర్పుతో స్థిరంగా బాగా సహసంబంధం కలిగి లేనందున ఇది దాదాపు రెండు దశాబ్దాలు ఆధిపత్యం చేసింది.

ప్రొడక్షన్‌లో A/B టెస్టింగ్

ఆఫ్‌లైన్ మెట్రిక్స్ అవసరం కానీ సరిపోవు. అంతిమ పరీక్ష A/B టెస్టింగ్: రెండు మోడల్ వెర్షన్‌లను వివిధ వినియోగదారుల గ్రూపులకు డిప్లాయ్ చేసి వాస్తవ-ప్రపంచ ఫలితాలను కొలవడం.

కొత్త రికమెండేషన్ మోడల్ క్లిక్-త్రూ రేట్‌లను పెంచుతుందా?
మెరుగుపడిన చాట్‌బాట్ సపోర్ట్ టికెట్ ఎస్కలేషన్‌లను తగ్గిస్తుందా?
అప్‌డేట్ చేయబడిన స్పామ్ ఫిల్టర్ తక్కువ "స్పామ్ కాదు" సవరణలు పొందుతుందా?

వినియోగదారులు ఊహించనంతగా ప్రవర్తించడం వల్ల ప్రొడక్షన్ మెట్రిక్స్ తరచుగా ఆఫ్‌లైన్ మెట్రిక్స్ నుండి భిన్నంగా ఉంటాయి.

🧠త్వరిత తనిఖీ

అద్భుతమైన ఆఫ్‌లైన్ మెట్రిక్స్ ఉన్న మోడల్ A/B టెస్టింగ్‌లో ఎందుకు తక్కువగా పనిచేయవచ్చు?

ఏ మెట్రిక్ ఎప్పుడు ఉపయోగించాలి

| దృశ్యం | ప్రాథమిక మెట్రిక్ | |----------|---------------| | సమతుల్య క్లాసిఫికేషన్ | Accuracy, F1 | | అసమతుల్య క్లాసులు | Precision, Recall, AUC | | వైద్య స్క్రీనింగ్ | Recall (sensitivity) | | స్పామ్ ఫిల్టరింగ్ | Precision + Recall బ్యాలన్స్ | | మెషిన్ ట్రాన్స్‌లేషన్ | BLEU, METEOR | | భాషా మోడల్ నాణ్యత | Perplexity | | ప్రొడక్షన్ ప్రభావం | A/B టెస్ట్ ఫలితాలు |

🤔

Think about it:

మీరు సెల్ఫ్-డ్రైవింగ్ కారు పాదచారి గుర్తింపు సిస్టమ్ నిర్మిస్తున్నారు. False negative అంటే పాదచారిని చూడకపోవడం; false positive అంటే నీడ కోసం బ్రేక్ వేయడం. మీరు ఏ మెట్రిక్‌ను ఆప్టిమైజ్ చేస్తారు, ఏ ట్రేడ్-ఆఫ్‌ను అంగీకరించడానికి సిద్ధంగా ఉన్నారు?

ముఖ్యమైన అంశాలు

అసమతుల్య డేటాతో ఆక్యురసీ తప్పుదారి పట్టిస్తుంది - ఎల్లప్పుడూ కన్ఫ్యూజన్ మ్యాట్రిక్స్ తనిఖీ చేయండి.
Precision పాజిటివ్ ప్రిడిక్షన్‌ల సరైనతను కొలుస్తుంది; recall సంపూర్ణతను కొలుస్తుంది.
F1 రెండింటినీ బ్యాలన్స్ చేస్తుంది; AUC అన్ని థ్రెషోల్డ్‌లలో ఎవాల్యుయేట్ చేస్తుంది.
టెక్స్ట్ జనరేషన్ క్లాసిఫికేషన్ మెట్రిక్స్ కు బదులుగా BLEU మరియు perplexity ఉపయోగిస్తుంది.
వాస్తవ-ప్రపంచ మోడల్ ప్రభావాన్ని కొలవడానికి A/B టెస్టింగ్ గోల్డ్ స్టాండర్డ్.

📚 మరింత చదవండి

Google ML Crash Course - Classification Metrics - Precision, recall, మరియు ROC వక్రాల ఇంటరాక్టివ్ వాక్‌త్రూ
Towards Data Science - Beyond Accuracy - మెట్రిక్ ఎంపిక యొక్క వాస్తవ-ప్రపంచ ఉదాహరణలతో ఆచరణాత్మక గైడ్

AI పునాదులు

AI నైపుణ్యం

కెరీర్ రెడీ

ల్యాబ్

ఎవాల్యుయేషన్ మెట్రిక్స్

ఎవాల్యుయేషన్ మెట్రిక్స్ - మీ AI నిజంగా మంచిదా?

ఆక్యురసీ ఉచ్చు

కన్ఫ్యూజన్ మ్యాట్రిక్స్

Precision - "నేను ఫ్లాగ్ చేసిన వాటన్నింటిలో, ఎంత సరైనది?"

Discussion

Recall - "పాజిటివ్ అయిన వాటన్నింటిలో, ఎంత కనుగొన్నాను?"

Precision–Recall ట్రేడ్-ఆఫ్

F1 స్కోర్ - హార్మోనిక్ మీన్

ROC వక్రాలు మరియు AUC

టెక్స్ట్ జనరేషన్ కోసం మెట్రిక్స్

BLEU స్కోర్

Perplexity

ప్రొడక్షన్‌లో A/B టెస్టింగ్

ఏ మెట్రిక్ ఎప్పుడు ఉపయోగించాలి

ముఖ్యమైన అంశాలు

📚 మరింత చదవండి