AI & ఇంజనీరింగ్ ప్రోగ్రామ్‌లు›🌳 AI Branches›పాఠాలు›కంప్యూటర్ విజన్

👁️

AI Branches • మధ్యస్థం⏱️ 18 నిమిషాల పఠన సమయం

కంప్యూటర్ విజన్

కంప్యూటర్ విజన్ - AI ప్రపంచాన్ని చూడడం ఎలా నేర్చుకుంటుంది

మీరు ఒక ఫోటోను చూసి బీచ్‌లో కుక్క ఉందని తక్షణమే గుర్తిస్తారు. కంప్యూటర్‌కు అదే చిత్రం సంఖ్యల భారీ గ్రిడ్ తప్ప మరేమీ కాదు. కంప్యూటర్ విజన్ అనేది ఆ సంఖ్యల నుండి అర్థాన్ని తీయడం మెషీన్లకు నేర్పించే AI శాఖ - మరియు ఇది ఇప్పటికే మీ చుట్టూ ఉన్న పరిశ్రమలను పునర్నిర్మిస్తోంది.

కంప్యూటర్లు ఎలా "చూస్తాయి"

మీరు ఒక ఫోటోగ్రాఫ్‌ను చూసినప్పుడు, మీ మెదడు ఆకారాలు, రంగులు మరియు లోతును తక్షణమే గుర్తిస్తుంది. కంప్యూటర్‌కు అలాంటి అంతర్‌దృష్టి ఏదీ లేదు. బదులుగా, అది ముడి సంఖ్యలతో పని చేస్తుంది.

డిజిటల్ చిత్రం పిక్సెల్‌ల గ్రిడ్. ప్రతి పిక్సెల్ రంగు విలువలను నిల్వ చేస్తుంది - సాధారణంగా మూడు ఛానెల్‌లు: ఎరుపు, ఆకుపచ్చ మరియు నీలం (RGB). 1920 × 1080 HD చిత్రంలో రెండు మిలియన్ల కంటే ఎక్కువ పిక్సెల్‌లు ఉంటాయి, ప్రతి దానిలో 0 నుండి 255 వరకు మూడు విలువలు ఉంటాయి. వాటిని గుణించండి మరియు ఒకే ఫ్రేమ్‌లో కూడా మిలియన్ల సంఖ్యలు ఉంటాయి.

RGB ఛానెల్‌లతో పిక్సెల్ గ్రిడ్‌గా విభజించబడిన చిత్రాన్ని చూపించే రేఖాచిత్రం — ప్రతి చిత్రం ఎరుపు, ఆకుపచ్చ మరియు నీలం ఛానెల్‌లలో సంఖ్యల గ్రిడ్ మాత్రమే.

రిజల్యూషన్ గ్రిడ్ ఎంత వివరాన్ని క్యాప్చర్ చేస్తుందో నిర్ణయిస్తుంది. అధిక రిజల్యూషన్ అంటే ఎక్కువ పిక్సెల్‌లు మరియు గొప్ప వివరం - కానీ AI ప్రాసెస్ చేయడానికి చాలా ఎక్కువ డేటా కూడా. 4K చిత్రంలో HD కంటే నాలుగు రెట్లు ఎక్కువ పిక్సెల్‌లు ఉంటాయి, అంటే నాలుగు రెట్లు ఎక్కువ కంప్యూటేషనల్ ఖర్చు.

గ్రేస్కేల్ చిత్రాలకు ఒకే ఛానెల్ (ప్రకాశం) ఉంటుంది, అయితే కొన్ని ప్రత్యేక ఫార్మాట్‌లు - ఉపగ్రహ చిత్రాలు లేదా వైద్య స్కాన్‌లు వంటివి - మానవ కంటికి కనిపించని తరంగదైర్ఘ్యాలను క్యాప్చర్ చేసే డజన్ల కొద్దీ ఛానెల్‌లను కలిగి ఉండవచ్చు.

🤯

మానవ కన్ను సుమారు 1 కోటి రంగులను గుర్తించగలదు. ప్రామాణిక 8-బిట్ RGB చిత్రం 1 కోటి 67 లక్షలకు పైగా ప్రత్యేక రంగు కలయికలను సూచించగలదు - మనం నిజంగా గ్రహించగలిగే దాని కంటే ఎక్కువ!

కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్‌లు (CNNs)

కంప్యూటర్ విజన్‌లో ప్రారంభ ప్రయత్నాలు చేతితో తయారు చేసిన నియమాలపై ఆధారపడ్డాయి - "ఇక్కడ అంచులను చూడు, అక్కడ ఈ టెంప్లేట్‌తో సరిపోల్చు." దృశ్యం మారినప్పుడల్లా ఈ దుర్బలమైన విధానాలు విఫలమయ్యాయి. ఆధునిక వ్యవస్థలు కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్‌లు (CNNs) ను ఉపయోగిస్తాయి, ఇవి వేలాది లేబుల్ చేయబడిన ఉదాహరణల నుండి వాటి సొంత నియమాలను నేర్చుకుంటాయి.

CNN ను ప్యాటర్న్ డిటెక్టర్ల అసెంబ్లీ లైన్‌గా భావించండి, ప్రతి పొర దాని ముందు ఉన్న పొరపై నిర్మితమవుతుంది:

కన్వల్యూషనల్ పొరలు చిత్రంపై చిన్న ఫిల్టర్‌లను జారుస్తాయి, అంచులు, మూలలు మరియు ఆకృతుల వంటి సరళమైన నమూనాలను గుర్తిస్తాయి.
పూలింగ్ పొరలు డేటాను కుదిస్తాయి, అత్యంత ముఖ్యమైన సంకేతాలను మాత్రమే ఉంచి అనవసరమైన వివరాలను తొలగిస్తాయి.
ఆ సరళమైన నమూనాలను మరింత సంక్లిష్టమైన లక్షణాలుగా కలుపుతాయి - కళ్ళు, చక్రాలు, అక్షరాలు.

పాఠం 2 / 140% పూర్తి

←ఆరోగ్య రంగంలో AI

Discussion

lessons.suggestEdit

లోతైన కన్వల్యూషనల్ పొరలు

పూర్తిగా అనుసంధానమైన పొరలు అన్ని లక్షణాలను కలిపి తుది నిర్ణయం తీసుకుంటాయి - "ఇది పిల్లి" లేదా "ఇది కణితి."

అందం ఏమిటంటే ఎవరూ ఈ ఫిల్టర్‌లను చేతితో ప్రోగ్రామ్ చేయరు. నెట్‌వర్క్ శిక్షణ సమయంలో వాటిని నేర్చుకుంటుంది, యాదృచ్ఛిక శబ్దం నుండి ప్రారంభించి క్రమంగా ఉపయోగకరమైన డిటెక్టర్‌లుగా పదును పెడుతుంది.

🤔

Think about it:

మీరు స్నేహితుని ముఖాన్ని గుర్తించడం నేర్చుకునేటప్పుడు, మీరు ప్రతి పిక్సెల్‌ను గుర్తుంచుకోరు - కంటి ఆకారం, హేర్‌స్టైల్ మరియు భావ వ్యక్తీకరణ వంటి ముఖ్యమైన లక్షణాలను గ్రహిస్తారు. CNNs చాలా సారూప్యంగా ఏదో చేస్తాయి. CNN మొదట ఏ లక్షణాలను నేర్చుకుంటుందని మీరు అనుకుంటున్నారు?

వర్గీకరణ, గుర్తింపు మరియు విభజన

కంప్యూటర్ విజన్ క్రమంగా కఠినమవుతున్న మూడు పనులను నిర్వహిస్తుంది:

| పని | ఇది ఏ ప్రశ్నకు సమాధానమిస్తుంది | ఉదాహరణ | |------|-------------------|---------| | చిత్ర వర్గీకరణ | ఈ చిత్రంలో ఏముంది? | "ఈ ఎక్స్-రే న్యుమోనియాను చూపిస్తోంది." | | ఆబ్జెక్ట్ డిటెక్షన్ | ఈ చిత్రంలో ఏముంది మరియు ఎక్కడ? | వీధి దృశ్యంలో ప్రతి పాదచారి చుట్టూ బాక్స్‌లు గీయడం. | | సెమాంటిక్ సెగ్మెంటేషన్ | ఏ పిక్సెల్‌లు ఏ వస్తువుకు చెందుతాయి? | రోడ్డు, ఫుట్‌పాత్, కారు మరియు ఆకాశం యొక్క ప్రతి పిక్సెల్‌ను వేర్వేరుగా రంగు వేయడం. |

సెల్ఫ్-డ్రైవింగ్ కార్లకు మూడూ ఏకకాలంలో అవసరం - వస్తువులను వర్గీకరించడం, వాటిని ఖచ్చితంగా గుర్తించడం మరియు పిక్సెల్ వారీగా పూర్తి దృశ్యాన్ని అర్థం చేసుకోవడం.

ప్రతి పని క్రమంగా ఎక్కువ కంప్యూటేషనల్ శక్తి మరియు శిక్షణ డేటాను అవసరం చేస్తుంది. వర్గీకరణ 2015 నాటికి చాలా వరకు పరిష్కరించబడింది; వీడియోపై రియల్-టైమ్ సెగ్మెంటేషన్ ఈ రోజు కూడా సక్రియ పరిశోధనా రంగంగా మిగిలి ఉంది.

🧠త్వరిత తనిఖీ

ఏ కంప్యూటర్ విజన్ పని చిత్రంలోని ప్రతి వ్యక్తిగత పిక్సెల్‌కు లేబుల్‌ను కేటాయిస్తుంది?

వాస్తవ ప్రపంచ అనువర్తనాలు

మీరు ఊహించని పరిశ్రమలలో కంప్యూటర్ విజన్ ఇప్పటికే అంతర్భాగమై ఉంది:

Tesla Autopilot ఎనిమిది కెమెరాలు మరియు విజన్-ఆధారిత AI ని ఉపయోగించి లేన్‌లు, ట్రాఫిక్ లైట్లు మరియు అడ్డంకులను రియల్ టైమ్‌లో గుర్తిస్తుంది - ప్రతి ప్రయాణంలో మిలియన్ల ఫ్రేమ్‌లను ప్రాసెస్ చేస్తుంది.
మెడికల్ ఇమేజింగ్ - AI మోడల్‌లు ఇప్పుడు మామోగ్రామ్‌లలో ప్రారంభ దశ రొమ్ము క్యాన్సర్‌ను గుర్తించడంలో రేడియాలజిస్టులతో సమానంగా లేదా మెరుగ్గా పని చేస్తున్నాయి, కొన్నిసార్లు ఆరుగురు మానవ నిపుణులు మిస్ చేసిన వాటిని కనుగొంటున్నాయి.
నాణ్యత నియంత్రణ - కర్మాగారాలు నిమిషానికి వేలాది ఉత్పత్తులను తనిఖీ చేయడానికి విజన్ వ్యవస్థలను ఉపయోగిస్తాయి, మానవ తనిఖీదారులకు చాలా సూక్ష్మమైన లేదా వేగవంతమైన లోపాలను పట్టుకుంటాయి.
వ్యవసాయం - కంప్యూటర్ విజన్ కలిగిన డ్రోన్‌లు విస్తారమైన పొలాల్లో రోగగ్రస్త పంటలను గుర్తిస్తాయి, లక్ష్య చికిత్సను అనుమతిస్తాయి, ఇది పురుగుమందుల వాడకాన్ని 90% వరకు తగ్గిస్తుంది.
రిటైల్ - Amazon Go స్టోర్‌లు కంప్యూటర్ విజన్‌ను ఉపయోగించి షాపర్లు ఏ ఉత్పత్తులను తీసుకుంటారో ట్రాక్ చేస్తాయి, చెకౌట్ లేకుండా షాపింగ్‌ను అనుమతిస్తాయి.

🤯

Google యొక్క DeepMind రెటీనల్ స్కాన్‌ల నుండి 50 కంటే ఎక్కువ కంటి వ్యాధులను ప్రపంచ అగ్రశ్రేణి నేత్ర వైద్య నిపుణుల అంత ఖచ్చితంగా గుర్తించగల AI ను అభివృద్ధి చేసింది - వారాల కాకుండా సెకన్లలో.

నైతిక ఆందోళనలు

కంప్యూటర్ విజన్ శక్తివంతమైనది, కానీ సమాజం ఇంకా ఎదుర్కొంటున్న తీవ్రమైన ప్రశ్నలను లేవనెత్తుతుంది:

నిఘా - ముఖ గుర్తింపు పౌరుల భారీ ట్రాకింగ్‌ను అనుమతిస్తుంది. శాన్ ఫ్రాన్సిస్కో మరియు EU లోని కొన్ని ప్రాంతాలతో సహా పలు నగరాలు పోలీసుల ద్వారా దీని వాడకాన్ని నిషేధించాయి లేదా పరిమితం చేశాయి.
పక్షపాతం - MIT లో Joy Buolamwini నిర్వహించిన మైలురాయి అధ్యయనాలు వాణిజ్య ముఖ గుర్తింపు వ్యవస్థలు ముదురు చర్మపు ముఖాలు మరియు స్త్రీలకు గణనీయంగా తక్కువ ఖచ్చితమైనవని చూపించాయి, ఎందుకంటే శిక్షణ డేటాలో చారిత్రకంగా తేలికైన చర్మపు పురుషులు అధికంగా ప్రాతినిధ్యం వహించారు.
సమ్మతి - షాపులు, విమానాశ్రయాలు లేదా బహిరంగ ప్రదేశాలలో మీకు తెలియకుండా మీ ముఖాన్ని స్కాన్ చేయాలా? చాలా దేశాలు ఇంకా దీన్ని పరిష్కరించడానికి చట్టాలను రూపొందిస్తున్నాయి.
డీప్‌ఫేక్‌లు - AI-ఉత్పత్తి నకిలీ చిత్రాలు మరియు వీడియోలు తప్పుడు సమాచారాన్ని వ్యాప్తి చేయగలవు మరియు ప్రతిష్ఠలను దెబ్బతీయగలవు, దృశ్య సాక్ష్యాలను తక్కువ విశ్వసనీయంగా చేస్తాయి.

🤔

Think about it:

ఒక పాఠశాల స్వయంచాలకంగా హాజరు తీసుకోవడానికి ముఖ గుర్తింపు కెమెరాలను ఏర్పాటు చేస్తుందని ఊహించండి. ప్రయోజనాలు ఏమిటి? ఏమి తప్పు కావచ్చు? మీరు ఈ వ్యవస్థతో సౌకర్యంగా ఉంటారా?

🧠త్వరిత తనిఖీ

కొన్ని ముఖ గుర్తింపు వ్యవస్థలు నిర్దిష్ట జనాభా సమూహాలపై ఎందుకు అధ్వాన్నంగా పని చేస్తాయి?

ముఖ్యమైన అంశాలు

చిత్రాలు రంగు ఛానెల్‌లలో పిక్సెల్ విలువల గ్రిడ్‌లు - కంప్యూటర్లు సంఖ్యలను చూస్తాయి, చిత్రాలను కాదు.
CNNs శిక్షణ ద్వారా స్వయంచాలకంగా లక్షణాలను వెలికితీయడం నేర్చుకుంటాయి, అంచుల నుండి ప్రారంభించి సంక్లిష్ట వస్తువుల వరకు నిర్మిస్తాయి.
వర్గీకరణ, గుర్తింపు మరియు విభజన దృశ్య అవగాహన యొక్క పెరుగుతున్న స్థాయిలను సూచిస్తాయి.
కంప్యూటర్ విజన్ ఆరోగ్య సంరక్షణ రోగనిర్ధారణ నుండి స్వయంప్రతిపత్తి వాహనాలు మరియు ఖచ్చితమైన వ్యవసాయం వరకు ఆవిష్కరణలను నడిపిస్తుంది.
శిక్షణ డేటాలో పక్షపాతం మరియు నిఘా ఆందోళనలు జాగ్రత్తగా, నైతిక అమలును కోరుతాయి - బాధ్యతాయుతమైన పాలన లేకుండా సాంకేతికత మాత్రమే ఎప్పుడూ సరిపోదు.

🧠త్వరిత తనిఖీ

CNN లో, పూలింగ్ పొరల ఉద్దేశ్యం ఏమిటి?

AI పునాదులు

AI నైపుణ్యం

కెరీర్ రెడీ

ల్యాబ్

కంప్యూటర్ విజన్

కంప్యూటర్ విజన్ - AI ప్రపంచాన్ని చూడడం ఎలా నేర్చుకుంటుంది

కంప్యూటర్లు ఎలా "చూస్తాయి"

కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్‌లు (CNNs)

Discussion

వర్గీకరణ, గుర్తింపు మరియు విభజన

వాస్తవ ప్రపంచ అనువర్తనాలు

నైతిక ఆందోళనలు

ముఖ్యమైన అంశాలు