మీరు ఒక ఫోటోను చూసి బీచ్లో కుక్క ఉందని తక్షణమే గుర్తిస్తారు. కంప్యూటర్కు అదే చిత్రం సంఖ్యల భారీ గ్రిడ్ తప్ప మరేమీ కాదు. కంప్యూటర్ విజన్ అనేది ఆ సంఖ్యల నుండి అర్థాన్ని తీయడం మెషీన్లకు నేర్పించే AI శాఖ - మరియు ఇది ఇప్పటికే మీ చుట్టూ ఉన్న పరిశ్రమలను పునర్నిర్మిస్తోంది.
మీరు ఒక ఫోటోగ్రాఫ్ను చూసినప్పుడు, మీ మెదడు ఆకారాలు, రంగులు మరియు లోతును తక్షణమే గుర్తిస్తుంది. కంప్యూటర్కు అలాంటి అంతర్దృష్టి ఏదీ లేదు. బదులుగా, అది ముడి సంఖ్యలతో పని చేస్తుంది.
డిజిటల్ చిత్రం పిక్సెల్ల గ్రిడ్. ప్రతి పిక్సెల్ రంగు విలువలను నిల్వ చేస్తుంది - సాధారణంగా మూడు ఛానెల్లు: ఎరుపు, ఆకుపచ్చ మరియు నీలం (RGB). 1920 × 1080 HD చిత్రంలో రెండు మిలియన్ల కంటే ఎక్కువ పిక్సెల్లు ఉంటాయి, ప్రతి దానిలో 0 నుండి 255 వరకు మూడు విలువలు ఉంటాయి. వాటిని గుణించండి మరియు ఒకే ఫ్రేమ్లో కూడా మిలియన్ల సంఖ్యలు ఉంటాయి.
రిజల్యూషన్ గ్రిడ్ ఎంత వివరాన్ని క్యాప్చర్ చేస్తుందో నిర్ణయిస్తుంది. అధిక రిజల్యూషన్ అంటే ఎక్కువ పిక్సెల్లు మరియు గొప్ప వివరం - కానీ AI ప్రాసెస్ చేయడానికి చాలా ఎక్కువ డేటా కూడా. 4K చిత్రంలో HD కంటే నాలుగు రెట్లు ఎక్కువ పిక్సెల్లు ఉంటాయి, అంటే నాలుగు రెట్లు ఎక్కువ కంప్యూటేషనల్ ఖర్చు.
గ్రేస్కేల్ చిత్రాలకు ఒకే ఛానెల్ (ప్రకాశం) ఉంటుంది, అయితే కొన్ని ప్రత్యేక ఫార్మాట్లు - ఉపగ్రహ చిత్రాలు లేదా వైద్య స్కాన్లు వంటివి - మానవ కంటికి కనిపించని తరంగదైర్ఘ్యాలను క్యాప్చర్ చేసే డజన్ల కొద్దీ ఛానెల్లను కలిగి ఉండవచ్చు.
మానవ కన్ను సుమారు 1 కోటి రంగులను గుర్తించగలదు. ప్రామాణిక 8-బిట్ RGB చిత్రం 1 కోటి 67 లక్షలకు పైగా ప్రత్యేక రంగు కలయికలను సూచించగలదు - మనం నిజంగా గ్రహించగలిగే దాని కంటే ఎక్కువ!
కంప్యూటర్ విజన్లో ప్రారంభ ప్రయత్నాలు చేతితో తయారు చేసిన నియమాలపై ఆధారపడ్డాయి - "ఇక్కడ అంచులను చూడు, అక్కడ ఈ టెంప్లేట్తో సరిపోల్చు." దృశ్యం మారినప్పుడల్లా ఈ దుర్బలమైన విధానాలు విఫలమయ్యాయి. ఆధునిక వ్యవస్థలు కన్వల్యూషనల్ న్యూరల్ నెట్వర్క్లు (CNNs) ను ఉపయోగిస్తాయి, ఇవి వేలాది లేబుల్ చేయబడిన ఉదాహరణల నుండి వాటి సొంత నియమాలను నేర్చుకుంటాయి.
CNN ను ప్యాటర్న్ డిటెక్టర్ల అసెంబ్లీ లైన్గా భావించండి, ప్రతి పొర దాని ముందు ఉన్న పొరపై నిర్మితమవుతుంది:
Sign in to join the discussion
అందం ఏమిటంటే ఎవరూ ఈ ఫిల్టర్లను చేతితో ప్రోగ్రామ్ చేయరు. నెట్వర్క్ శిక్షణ సమయంలో వాటిని నేర్చుకుంటుంది, యాదృచ్ఛిక శబ్దం నుండి ప్రారంభించి క్రమంగా ఉపయోగకరమైన డిటెక్టర్లుగా పదును పెడుతుంది.
మీరు స్నేహితుని ముఖాన్ని గుర్తించడం నేర్చుకునేటప్పుడు, మీరు ప్రతి పిక్సెల్ను గుర్తుంచుకోరు - కంటి ఆకారం, హేర్స్టైల్ మరియు భావ వ్యక్తీకరణ వంటి ముఖ్యమైన లక్షణాలను గ్రహిస్తారు. CNNs చాలా సారూప్యంగా ఏదో చేస్తాయి. CNN మొదట ఏ లక్షణాలను నేర్చుకుంటుందని మీరు అనుకుంటున్నారు?
కంప్యూటర్ విజన్ క్రమంగా కఠినమవుతున్న మూడు పనులను నిర్వహిస్తుంది:
| పని | ఇది ఏ ప్రశ్నకు సమాధానమిస్తుంది | ఉదాహరణ | |------|-------------------|---------| | చిత్ర వర్గీకరణ | ఈ చిత్రంలో ఏముంది? | "ఈ ఎక్స్-రే న్యుమోనియాను చూపిస్తోంది." | | ఆబ్జెక్ట్ డిటెక్షన్ | ఈ చిత్రంలో ఏముంది మరియు ఎక్కడ? | వీధి దృశ్యంలో ప్రతి పాదచారి చుట్టూ బాక్స్లు గీయడం. | | సెమాంటిక్ సెగ్మెంటేషన్ | ఏ పిక్సెల్లు ఏ వస్తువుకు చెందుతాయి? | రోడ్డు, ఫుట్పాత్, కారు మరియు ఆకాశం యొక్క ప్రతి పిక్సెల్ను వేర్వేరుగా రంగు వేయడం. |
సెల్ఫ్-డ్రైవింగ్ కార్లకు మూడూ ఏకకాలంలో అవసరం - వస్తువులను వర్గీకరించడం, వాటిని ఖచ్చితంగా గుర్తించడం మరియు పిక్సెల్ వారీగా పూర్తి దృశ్యాన్ని అర్థం చేసుకోవడం.
ప్రతి పని క్రమంగా ఎక్కువ కంప్యూటేషనల్ శక్తి మరియు శిక్షణ డేటాను అవసరం చేస్తుంది. వర్గీకరణ 2015 నాటికి చాలా వరకు పరిష్కరించబడింది; వీడియోపై రియల్-టైమ్ సెగ్మెంటేషన్ ఈ రోజు కూడా సక్రియ పరిశోధనా రంగంగా మిగిలి ఉంది.
ఏ కంప్యూటర్ విజన్ పని చిత్రంలోని ప్రతి వ్యక్తిగత పిక్సెల్కు లేబుల్ను కేటాయిస్తుంది?
మీరు ఊహించని పరిశ్రమలలో కంప్యూటర్ విజన్ ఇప్పటికే అంతర్భాగమై ఉంది:
Google యొక్క DeepMind రెటీనల్ స్కాన్ల నుండి 50 కంటే ఎక్కువ కంటి వ్యాధులను ప్రపంచ అగ్రశ్రేణి నేత్ర వైద్య నిపుణుల అంత ఖచ్చితంగా గుర్తించగల AI ను అభివృద్ధి చేసింది - వారాల కాకుండా సెకన్లలో.
కంప్యూటర్ విజన్ శక్తివంతమైనది, కానీ సమాజం ఇంకా ఎదుర్కొంటున్న తీవ్రమైన ప్రశ్నలను లేవనెత్తుతుంది:
ఒక పాఠశాల స్వయంచాలకంగా హాజరు తీసుకోవడానికి ముఖ గుర్తింపు కెమెరాలను ఏర్పాటు చేస్తుందని ఊహించండి. ప్రయోజనాలు ఏమిటి? ఏమి తప్పు కావచ్చు? మీరు ఈ వ్యవస్థతో సౌకర్యంగా ఉంటారా?
కొన్ని ముఖ గుర్తింపు వ్యవస్థలు నిర్దిష్ట జనాభా సమూహాలపై ఎందుకు అధ్వాన్నంగా పని చేస్తాయి?
CNN లో, పూలింగ్ పొరల ఉద్దేశ్యం ఏమిటి?