AI और इंजीनियरिंग प्रोग्राम›🌳 AI Branches›पाठ›कंप्यूटर विज़न

👁️

AI Branches • मध्यम⏱️ 18 मिनट पढ़ने का समय

कंप्यूटर विज़न

कंप्यूटर विज़न - AI कैसे दुनिया देखना सीखता है

आप एक फ़ोटो पर नज़र डालते हैं और तुरंत जान जाते हैं कि उसमें समुद्र तट पर एक कुत्ता है। कंप्यूटर के लिए वही छवि संख्याओं की एक विशाल ग्रिड से ज़्यादा कुछ नहीं है। कंप्यूटर विज़न AI की वह शाखा है जो मशीनों को उन संख्याओं से अर्थ निकालना सिखाती है - और यह पहले से ही आपके आस-पास के उद्योगों को नया रूप दे रही है।

कंप्यूटर कैसे "देखते" हैं

जब आप किसी तस्वीर को देखते हैं, तो आपका मस्तिष्क तुरंत आकृतियों, रंगों और गहराई को पहचान लेता है। कंप्यूटर के पास ऐसी कोई सहज बुद्धि नहीं होती। इसके बजाय, वह कच्ची संख्याओं के साथ काम करता है।

एक डिजिटल छवि पिक्सेल की एक ग्रिड होती है। प्रत्येक पिक्सेल रंग मान संग्रहीत करता है - आमतौर पर तीन चैनल: लाल, हरा और नीला (RGB)। एक 1920 × 1080 HD छवि में बीस लाख से अधिक पिक्सेल होते हैं, प्रत्येक में 0 से 255 तक के तीन मान होते हैं। इन्हें गुणा करें तो एक ही फ़्रेम में लाखों संख्याएँ होती हैं।

एक छवि को RGB चैनलों के साथ पिक्सेल ग्रिड में विभाजित दिखाने वाला आरेख — हर छवि बस लाल, हरे और नीले चैनलों में संख्याओं की एक ग्रिड है।

रिज़ॉल्यूशन यह निर्धारित करता है कि ग्रिड कितना विवरण कैप्चर करती है। उच्च रिज़ॉल्यूशन का अर्थ है अधिक पिक्सेल और समृद्ध विवरण - लेकिन AI को प्रोसेस करने के लिए कहीं अधिक डेटा भी। एक 4K छवि में HD से चार गुना पिक्सेल होते हैं, जिसका मतलब है चार गुना कम्प्यूटेशनल लागत।

ग्रेस्केल छवियों में केवल एक चैनल (चमक) होता है, जबकि कुछ विशेष प्रारूपों में - जैसे उपग्रह चित्र या चिकित्सा स्कैन - दर्जनों चैनल हो सकते हैं जो मानव आँख के लिए अदृश्य तरंगदैर्ध्य को कैप्चर करते हैं।

🤯

मानव आँख लगभग 1 करोड़ रंगों में अंतर कर सकती है। एक मानक 8-बिट RGB छवि 1 करोड़ 67 लाख से अधिक अद्वितीय रंग संयोजनों का प्रतिनिधित्व कर सकती है - जो हम वास्तव में देख सकते हैं उससे कहीं अधिक!

कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs)

कंप्यूटर विज़न के शुरुआती प्रयास हाथ से बनाए गए नियमों पर निर्भर थे - "यहाँ किनारे खोजो, वहाँ इस टेम्पलेट से मिलान करो।" ये भंगुर दृष्टिकोण जब भी दृश्य बदलता तो विफल हो जाते। आधुनिक प्रणालियाँ कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs) का उपयोग करती हैं, जो हज़ारों लेबल किए गए उदाहरणों से अपने नियम स्वयं सीखते हैं।

CNN को पैटर्न डिटेक्टरों की एक असेंबली लाइन की तरह सोचें, जहाँ प्रत्येक परत पिछली परत पर निर्मित होती है:

कन्वोल्यूशनल परतें छवि पर छोटे फ़िल्टर स्लाइड करती हैं, जो किनारों, कोनों और बनावटों जैसे सरल पैटर्न का पता लगाती हैं।
पूलिंग परतें डेटा को सिकोड़ती हैं, केवल सबसे महत्वपूर्ण सिग्नल रखती हैं और अनावश्यक विवरण हटाती हैं।
गहरी कन्वोल्यूशनल परतें उन सरल पैटर्नों को अधिक जटिल विशेषताओं में जोड़ती हैं - आँखें, पहिये, अक्षर।

पाठ 2 / 140% पूर्ण

←स्वास्थ्य सेवा में AI

Discussion

lessons.suggestEdit

पूर्ण रूप से जुड़ी परतें सभी विशेषताओं को एक साथ लाकर अंतिम निर्णय लेती हैं - "यह एक बिल्ली है" या "यह एक ट्यूमर है।"

इसकी ख़ूबसूरती यह है कि कोई भी इन फ़िल्टरों को हाथ से प्रोग्राम नहीं करता। नेटवर्क प्रशिक्षण के दौरान इन्हें सीखता है, यादृच्छिक शोर से शुरू होकर धीरे-धीरे उपयोगी डिटेक्टरों में तेज़ होता जाता है।

🤔

Think about it:

जब आप किसी मित्र का चेहरा पहचानना सीखते हैं, तो आप हर पिक्सेल को याद नहीं करते - आप आँखों के आकार, बालों की शैली और भावों जैसी प्रमुख विशेषताओं को पकड़ते हैं। CNN कुछ उल्लेखनीय रूप से समान करते हैं। आपके विचार में CNN सबसे पहले कौन सी विशेषताएँ सीखेगा?

वर्गीकरण, डिटेक्शन और सेगमेंटेशन

कंप्यूटर विज़न क्रमशः तीन कठिन होते कार्यों को संभालता है:

| कार्य | यह किस प्रश्न का उत्तर देता है | उदाहरण | |------|-------------------|---------| | छवि वर्गीकरण | इस छवि में क्या है? | "यह एक्स-रे निमोनिया दिखाता है।" | | ऑब्जेक्ट डिटेक्शन | इस छवि में क्या है और कहाँ है? | सड़क के दृश्य में हर पैदल यात्री के चारों ओर बॉक्स बनाना। | | सेमांटिक सेगमेंटेशन | कौन से पिक्सेल किस वस्तु से संबंधित हैं? | सड़क, फुटपाथ, कार और आकाश के हर पिक्सेल को अलग-अलग रंगों में रंगना। |

सेल्फ-ड्राइविंग कारों को तीनों की एक साथ आवश्यकता होती है - वस्तुओं का वर्गीकरण, उनका सटीक स्थान निर्धारण, और पिक्सेल दर पिक्सेल पूरे दृश्य को समझना।

प्रत्येक कार्य के लिए क्रमशः अधिक कम्प्यूटेशनल शक्ति और प्रशिक्षण डेटा की आवश्यकता होती है। वर्गीकरण 2015 तक काफ़ी हद तक हल हो गया था; वीडियो पर रीयल-टाइम सेगमेंटेशन आज भी सक्रिय अनुसंधान का क्षेत्र बना हुआ है।

🧠त्वरित जांच

कौन सा कंप्यूटर विज़न कार्य किसी छवि में प्रत्येक व्यक्तिगत पिक्सेल को एक लेबल प्रदान करता है?

वास्तविक दुनिया के अनुप्रयोग

कंप्यूटर विज़न पहले से ही उन उद्योगों में शामिल है जिनकी आप उम्मीद नहीं करेंगे:

Tesla Autopilot आठ कैमरों और विज़न-आधारित AI का उपयोग करके लेन, ट्रैफ़िक लाइट और बाधाओं का रीयल टाइम में पता लगाता है - प्रति यात्रा लाखों फ़्रेम प्रोसेस करता है।
मेडिकल इमेजिंग - AI मॉडल अब मैमोग्राम में शुरुआती चरण के स्तन कैंसर का पता लगाने में रेडियोलॉजिस्ट की बराबरी या उनसे बेहतर करते हैं, कभी-कभी वह पकड़ लेते हैं जो छह मानव विशेषज्ञों से छूट गया।
गुणवत्ता नियंत्रण - कारखाने विज़न सिस्टम का उपयोग करके प्रति मिनट हज़ारों उत्पादों का निरीक्षण करते हैं, ऐसे दोष पकड़ते हैं जो मानव निरीक्षकों के लिए बहुत सूक्ष्म या तेज़ होते हैं।
कृषि - कंप्यूटर विज़न वाले ड्रोन विशाल खेतों में रोगग्रस्त फ़सलों की पहचान करते हैं, जिससे लक्षित उपचार संभव होता है और कीटनाशक उपयोग 90% तक कम हो जाता है।
खुदरा - Amazon Go स्टोर कंप्यूटर विज़न का उपयोग करके ट्रैक करते हैं कि खरीदार कौन से उत्पाद उठाते हैं, जिससे बिना चेकआउट खरीदारी संभव होती है।

🤯

Google के DeepMind ने एक ऐसा AI विकसित किया जो रेटिनल स्कैन से 50 से अधिक आँखों की बीमारियों का पता विश्व-अग्रणी नेत्र विशेषज्ञों जितनी सटीकता से लगा सकता है - हफ़्तों के बजाय सेकंडों में।

नैतिक चिंताएँ

कंप्यूटर विज़न शक्तिशाली है, लेकिन यह गंभीर प्रश्न उठाता है जिनसे समाज अभी भी जूझ रहा है:

निगरानी - चेहरे की पहचान नागरिकों की बड़े पैमाने पर ट्रैकिंग को सक्षम बनाती है। सैन फ़्रांसिस्को और EU के कुछ हिस्सों सहित कई शहरों ने पुलिस द्वारा इसके उपयोग पर प्रतिबंध लगाया है या प्रतिबंधित किया है।
पूर्वाग्रह - MIT में Joy Buolamwini के ऐतिहासिक अध्ययनों ने दिखाया कि व्यावसायिक चेहरा पहचान प्रणालियाँ गहरे रंग की त्वचा वाले चेहरों और महिलाओं के लिए काफ़ी कम सटीक थीं, क्योंकि प्रशिक्षण डेटा में ऐतिहासिक रूप से हल्के रंग के पुरुषों का अधिक प्रतिनिधित्व रहा है।
सहमति - क्या दुकानों, हवाई अड्डों या सार्वजनिक स्थानों पर आपकी जानकारी के बिना आपके चेहरे को स्कैन किया जाना चाहिए? कई देश अभी भी इसे संबोधित करने के लिए कानून बना रहे हैं।
डीपफ़ेक - AI-जनित नकली छवियाँ और वीडियो गलत सूचना फैला सकते हैं और प्रतिष्ठा को नुकसान पहुँचा सकते हैं, जिससे दृश्य साक्ष्य कम विश्वसनीय हो जाते हैं।

🤔

Think about it:

कल्पना कीजिए कि एक स्कूल स्वचालित रूप से उपस्थिति लेने के लिए चेहरा पहचान कैमरे लगाता है। इसके क्या लाभ हैं? क्या गलत हो सकता है? क्या आप इस प्रणाली के साथ सहज होंगे?

🧠त्वरित जांच

कुछ चेहरा पहचान प्रणालियाँ कुछ जनसांख्यिकीय समूहों पर खराब प्रदर्शन क्यों करती हैं?

मुख्य निष्कर्ष

छवियाँ रंग चैनलों में पिक्सेल मानों की ग्रिड होती हैं - कंप्यूटर संख्याएँ देखते हैं, तस्वीरें नहीं।
CNN प्रशिक्षण के माध्यम से स्वचालित रूप से विशेषताएँ निकालना सीखते हैं, किनारों से शुरू होकर जटिल वस्तुओं तक निर्माण करते हैं।
वर्गीकरण, डिटेक्शन और सेगमेंटेशन दृश्य समझ के बढ़ते स्तरों का प्रतिनिधित्व करते हैं।
कंप्यूटर विज़न स्वास्थ्य सेवा निदान से लेकर स्वायत्त वाहनों और सटीक कृषि तक सफलताएँ प्रदान करता है।
प्रशिक्षण डेटा में पूर्वाग्रह और निगरानी की चिंताएँ सावधानीपूर्ण, नैतिक तैनाती की माँग करती हैं - जिम्मेदार शासन के बिना केवल तकनीक कभी पर्याप्त नहीं होती।

🧠त्वरित जांच

CNN में, पूलिंग परतों का उद्देश्य क्या है?

AI की नींव

AI में महारत

करियर रेडी

लैब

कंप्यूटर विज़न

कंप्यूटर विज़न - AI कैसे दुनिया देखना सीखता है

कंप्यूटर कैसे "देखते" हैं

कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs)

Discussion

वर्गीकरण, डिटेक्शन और सेगमेंटेशन

वास्तविक दुनिया के अनुप्रयोग

नैतिक चिंताएँ

मुख्य निष्कर्ष