మీరు మోడల్ను ట్రైన్ చేశారు. లాస్ తగ్గింది. కానీ ఇది నిజంగా మంచిదా? సమాధానం మీరు దాన్ని ఎలా కొలుస్తారనే దానిపై పూర్తిగా ఆధారపడి ఉంటుంది - తప్పు మెట్రిక్ ఎంచుకుంటే ప్రమాదకరంగా తప్పుదారి పట్టించే నమ్మకాన్ని ఇవ్వవచ్చు. ప్రతి AI ప్రాక్టీషనర్ అర్థం చేసుకోవలసిన మెట్రిక్స్ ఈ పాఠంలో ఉన్నాయి.
ఆక్యురసీ = సరైన ప్రిడిక్షన్లు ÷ మొత్తం ప్రిడిక్షన్లు. సహేతుకంగా అనిపిస్తుంది - క్లాస్ ఇంబ్యాలన్స్ ఎదురయ్యే వరకు.
ఫ్రాడ్ డిటెక్షన్ మోడల్ ఊహించుకోండి. 10,000 లావాదేవీలలో, కేవలం 50 మాత్రమే మోసపూరితమైనవి. ప్రతి లావాదేవీకి "ఫ్రాడ్ కాదు" అని అంచనా వేసే మోడల్ 99.5% ఆక్యురసీ సాధిస్తుంది - సున్నా ఫ్రాడ్ పట్టుకోకపోయినా. పూర్తిగా నిరుపయోగం, కానీ ఆక్యురసీ అద్భుతంగా కనిపిస్తుంది.
అందుకే వాస్తవ-ప్రపంచ AI కోసం ఆక్యురసీ ఒక్కటే ఎప్పుడూ సరిపోదు.
అరుదైన వ్యాధుల వైద్య స్క్రీనింగ్లో, ఎల్లప్పుడూ "ఆరోగ్యకరమైనది" అని అంచనా వేసే మోడల్ 99.9% కంటే ఎక్కువ ఆక్యురసీ సాధించగలదు. అందుకే వైద్యులు మరియు డేటా సైంటిస్ట్లు స్క్రీనింగ్ పరీక్షల కోసం ప్రాథమిక మెట్రిక్గా సెన్సిటివిటీ (recall) పై ఆధారపడతారు.
మెరుగైన మెట్రిక్స్లోకి వెళ్ళే ముందు, మనకు కన్ఫ్యూజన్ మ్యాట్రిక్స్ అవసరం - ప్రతి ప్రిడిక్షన్ను విభజించే 2×2 టేబుల్:
| | అంచనా పాజిటివ్ | అంచనా నెగటివ్ | |---|---|---| | నిజంగా పాజిటివ్ | True Positive (TP) | False Negative (FN) | | నిజంగా నెగటివ్ | False Positive (FP) | True Negative (TN) |
నిర్దిష్ట ఉదాహరణ - 1,000 ఇమెయిల్లపై ఇమెయిల్ స్పామ్ ఫిల్టర్ (100 స్పామ్, 900 చట్టబద్ధమైనవి):
| | స్పామ్ అని అంచనా | చట్టబద్ధమని అంచనా | |---|---|---| | నిజంగా స్పామ్ | 80 (TP) | 20 (FN) | | నిజంగా చట్టబద్ధం | 30 (FP) | 870 (TN) |
ఈ ఒక్క టేబుల్ నుండి, ప్రతి క్లాసిఫికేషన్ మెట్రిక్ను రాబట్టవచ్చు.
Precision = TP ÷ (TP + FP) = 80 ÷ (80 + 30) = 72.7%
మన స్పామ్ ఫిల్టర్లో: స్పామ్ అని మార్క్ చేయబడిన అన్ని ఇమెయిల్లలో, 72.7% నిజంగా స్పామ్. మిగతా 27.3% తప్పుగా పట్టుబడిన చట్టబద్ధ ఇమెయిల్లు - false positives.
Sign in to join the discussion
Precision ఎప్పుడు ఎక్కువగా ముఖ్యం: False positives ఖరీదైనప్పుడు. ముఖ్యమైన క్లయింట్ ఇమెయిల్లను జంక్లోకి పంపే స్పామ్ ఫిల్టర్ తీవ్రమైన సమస్య.
Recall = TP ÷ (TP + FN) = 80 ÷ (80 + 20) = 80%
మోడల్ 100 నిజమైన స్పామ్ ఇమెయిల్లలో 80 ని పట్టుకుంది - ఇది 80% గుర్తించింది. మిగతా 20 false negatives గా జారిపోయాయి.
Recall ఎప్పుడు ఎక్కువగా ముఖ్యం: పాజిటివ్ కేసును మిస్ చేయడం ప్రమాదకరమైనప్పుడు. క్యాన్సర్ స్క్రీనింగ్లో, ట్యూమర్ను గుర్తించడంలో విఫలం (false negative) ప్రాణాలను బలి తీసుకోవచ్చు.
ప్రమాదకరమైన వ్యాధి కోసం స్క్రీన్ చేయడానికి ఆసుపత్రికి మోడల్ కావాలి. ఏ మెట్రిక్కు ప్రాధాన్యత ఇవ్వాలి?
Precision మరియు recall వ్యతిరేక దిశల్లో లాగుతాయి. స్పామ్ థ్రెషోల్డ్ను కఠినం చేస్తే తక్కువ చట్టబద్ధ ఇమెయిల్లు పట్టుబడతాయి (precision పెరుగుతుంది) కానీ ఎక్కువ స్పామ్ జారిపోతుంది (recall తగ్గుతుంది). సడలిస్తే ఎక్కువ స్పామ్ పట్టుబడుతుంది (recall పెరుగుతుంది) కానీ ఎక్కువ మంచి ఇమెయిల్లు పట్టుబడతాయి (precision తగ్గుతుంది).
ఉచిత భోజనం లేదు - మీ నిర్దిష్ట ఉపయోగ కేసుకు ఏ ఎర్రర్లు ఎక్కువ ఖరీదైనవో మీరు నిర్ణయించుకోవాలి.
Precision మరియు recall ను బ్యాలన్స్ చేసే ఒక్క సంఖ్య కావాలంటే, F1 స్కోర్ ఉపయోగించండి:
F1 = 2 × (Precision × Recall) ÷ (Precision + Recall)
మన స్పామ్ ఫిల్టర్ కోసం: F1 = 2 × (0.727 × 0.80) ÷ (0.727 + 0.80) = 0.762 - సుమారు 76.2%.
హార్మోనిక్ మీన్ తీవ్ర అసమతుల్యతలను శిక్షిస్తుంది. Precision లేదా recall చాలా తక్కువగా ఉంటే, F1 తీవ్రంగా పడిపోతుంది.
కంటెంట్ మోడరేషన్ సిస్టమ్ 95% precision కానీ కేవలం 30% recall కలిగి ఉంది. F1 స్కోర్ కేవలం 46%. సిస్టమ్ యొక్క వాస్తవ-ప్రపంచ ప్రవర్తన గురించి ఇది మీకు ఏమి చెబుతుంది, మీరు దీన్ని డిప్లాయ్ చేస్తారా?
ROC వక్రం (Receiver Operating Characteristic) ప్రతి సాధ్య క్లాసిఫికేషన్ థ్రెషోల్డ్ వద్ద True Positive Rate ను False Positive Rate కి వ్యతిరేకంగా ప్లాట్ చేస్తుంది. కేవలం ఒక్కటి కాకుండా అన్ని థ్రెషోల్డ్లలో మోడల్ క్లాసులను ఎంత బాగా విభజిస్తుందో చూపిస్తుంది.
AUC (Area Under the Curve) దీన్ని ఒకే సంఖ్యగా సారాంశం చేస్తుంది:
AUC థ్రెషోల్డ్-స్వతంత్రం, నిర్దిష్ట ఆపరేటింగ్ పాయింట్ నిర్ణయించడానికి ముందు మోడల్లను పోల్చడానికి అద్భుతం.
AUC 0.5 అంటే ఏమిటి?
క్లాసిఫికేషన్ మెట్రిక్స్ టెక్స్ట్ జనరేట్ చేసే భాషా మోడల్లకు వర్తించవు. వివిధ టాస్క్లకు వివిధ కొలతలు అవసరం.
BLEU (Bilingual Evaluation Understudy) జనరేట్ చేయబడిన అనువాదం రిఫరెన్స్ అనువాదాలతో ఎంత ఓవర్లాప్ అవుతుందో కొలుస్తుంది, మ్యాచింగ్ n-grams (పద సీక్వెన్స్లు) లెక్కిస్తుంది. స్కోర్లు 0 నుండి 1 వరకు ఉంటాయి.
BLEU మెషిన్ ట్రాన్స్లేషన్లో విస్తృతంగా ఉపయోగించబడుతుంది కానీ గణనీయమైన పరిమితులు ఉన్నాయి: ఇది అర్థం కాకుండా పద ఓవర్లాప్ను బహుమతిగా ఇస్తుంది. "The cat sat on the mat" మరియు "A feline rested upon the rug" సారూప్య అర్థం ఉన్నప్పటికీ ఒకదానికొకటి వ్యతిరేకంగా తక్కువ స్కోర్ పొందుతాయి.
Perplexity కొత్త టెక్స్ట్ చూసి భాషా మోడల్ ఎంత ఆశ్చర్యపోతుందో కొలుస్తుంది. తక్కువ ఉంటే మంచిది - perplexity 20 అంటే మోడల్ సగటున 20 సమానంగా సంభావ్యమైన తదుపరి పదాల మధ్య ఎంచుకుంటోంది. మంచి మోడల్ తక్కువ perplexity కలిగి ఉంటుంది, ఎందుకంటే ఇది టెక్స్ట్ను బాగా అంచనా వేస్తుంది.
GPT-4 ఇంగ్లీష్ టెక్స్ట్పై చాలా తక్కువ perplexity సాధిస్తుంది, ఇది బలమైన భాషా అవగాహనను ప్రతిబింబిస్తుంది.
BLEU మెట్రిక్ 2002లో ప్రవేశపెట్టబడింది మరియు త్వరగా మెషిన్ ట్రాన్స్లేషన్ ఎవాల్యుయేషన్ కోసం ప్రమాణంగా మారింది. తెలిసిన లోపాలు ఉన్నప్పటికీ, ఏ సాధారణ ప్రత్యామ్నాయమూ మానవ తీర్పుతో స్థిరంగా బాగా సహసంబంధం కలిగి లేనందున ఇది దాదాపు రెండు దశాబ్దాలు ఆధిపత్యం చేసింది.
ఆఫ్లైన్ మెట్రిక్స్ అవసరం కానీ సరిపోవు. అంతిమ పరీక్ష A/B టెస్టింగ్: రెండు మోడల్ వెర్షన్లను వివిధ వినియోగదారుల గ్రూపులకు డిప్లాయ్ చేసి వాస్తవ-ప్రపంచ ఫలితాలను కొలవడం.
వినియోగదారులు ఊహించనంతగా ప్రవర్తించడం వల్ల ప్రొడక్షన్ మెట్రిక్స్ తరచుగా ఆఫ్లైన్ మెట్రిక్స్ నుండి భిన్నంగా ఉంటాయి.
అద్భుతమైన ఆఫ్లైన్ మెట్రిక్స్ ఉన్న మోడల్ A/B టెస్టింగ్లో ఎందుకు తక్కువగా పనిచేయవచ్చు?
| దృశ్యం | ప్రాథమిక మెట్రిక్ | |----------|---------------| | సమతుల్య క్లాసిఫికేషన్ | Accuracy, F1 | | అసమతుల్య క్లాసులు | Precision, Recall, AUC | | వైద్య స్క్రీనింగ్ | Recall (sensitivity) | | స్పామ్ ఫిల్టరింగ్ | Precision + Recall బ్యాలన్స్ | | మెషిన్ ట్రాన్స్లేషన్ | BLEU, METEOR | | భాషా మోడల్ నాణ్యత | Perplexity | | ప్రొడక్షన్ ప్రభావం | A/B టెస్ట్ ఫలితాలు |
మీరు సెల్ఫ్-డ్రైవింగ్ కారు పాదచారి గుర్తింపు సిస్టమ్ నిర్మిస్తున్నారు. False negative అంటే పాదచారిని చూడకపోవడం; false positive అంటే నీడ కోసం బ్రేక్ వేయడం. మీరు ఏ మెట్రిక్ను ఆప్టిమైజ్ చేస్తారు, ఏ ట్రేడ్-ఆఫ్ను అంగీకరించడానికి సిద్ధంగా ఉన్నారు?