आप एक फ़ोटो पर नज़र डालते हैं और तुरंत जान जाते हैं कि उसमें समुद्र तट पर एक कुत्ता है। कंप्यूटर के लिए वही छवि संख्याओं की एक विशाल ग्रिड से ज़्यादा कुछ नहीं है। कंप्यूटर विज़न AI की वह शाखा है जो मशीनों को उन संख्याओं से अर्थ निकालना सिखाती है - और यह पहले से ही आपके आस-पास के उद्योगों को नया रूप दे रही है।
जब आप किसी तस्वीर को देखते हैं, तो आपका मस्तिष्क तुरंत आकृतियों, रंगों और गहराई को पहचान लेता है। कंप्यूटर के पास ऐसी कोई सहज बुद्धि नहीं होती। इसके बजाय, वह कच्ची संख्याओं के साथ काम करता है।
एक डिजिटल छवि पिक्सेल की एक ग्रिड होती है। प्रत्येक पिक्सेल रंग मान संग्रहीत करता है - आमतौर पर तीन चैनल: लाल, हरा और नीला (RGB)। एक 1920 × 1080 HD छवि में बीस लाख से अधिक पिक्सेल होते हैं, प्रत्येक में 0 से 255 तक के तीन मान होते हैं। इन्हें गुणा करें तो एक ही फ़्रेम में लाखों संख्याएँ होती हैं।
रिज़ॉल्यूशन यह निर्धारित करता है कि ग्रिड कितना विवरण कैप्चर करती है। उच्च रिज़ॉल्यूशन का अर्थ है अधिक पिक्सेल और समृद्ध विवरण - लेकिन AI को प्रोसेस करने के लिए कहीं अधिक डेटा भी। एक 4K छवि में HD से चार गुना पिक्सेल होते हैं, जिसका मतलब है चार गुना कम्प्यूटेशनल लागत।
ग्रेस्केल छवियों में केवल एक चैनल (चमक) होता है, जबकि कुछ विशेष प्रारूपों में - जैसे उपग्रह चित्र या चिकित्सा स्कैन - दर्जनों चैनल हो सकते हैं जो मानव आँख के लिए अदृश्य तरंगदैर्ध्य को कैप्चर करते हैं।
मानव आँख लगभग 1 करोड़ रंगों में अंतर कर सकती है। एक मानक 8-बिट RGB छवि 1 करोड़ 67 लाख से अधिक अद्वितीय रंग संयोजनों का प्रतिनिधित्व कर सकती है - जो हम वास्तव में देख सकते हैं उससे कहीं अधिक!
कंप्यूटर विज़न के शुरुआती प्रयास हाथ से बनाए गए नियमों पर निर्भर थे - "यहाँ किनारे खोजो, वहाँ इस टेम्पलेट से मिलान करो।" ये भंगुर दृष्टिकोण जब भी दृश्य बदलता तो विफल हो जाते। आधुनिक प्रणालियाँ कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs) का उपयोग करती हैं, जो हज़ारों लेबल किए गए उदाहरणों से अपने नियम स्वयं सीखते हैं।
CNN को पैटर्न डिटेक्टरों की एक असेंबली लाइन की तरह सोचें, जहाँ प्रत्येक परत पिछली परत पर निर्मित होती है:
Sign in to join the discussion
इसकी ख़ूबसूरती यह है कि कोई भी इन फ़िल्टरों को हाथ से प्रोग्राम नहीं करता। नेटवर्क प्रशिक्षण के दौरान इन्हें सीखता है, यादृच्छिक शोर से शुरू होकर धीरे-धीरे उपयोगी डिटेक्टरों में तेज़ होता जाता है।
जब आप किसी मित्र का चेहरा पहचानना सीखते हैं, तो आप हर पिक्सेल को याद नहीं करते - आप आँखों के आकार, बालों की शैली और भावों जैसी प्रमुख विशेषताओं को पकड़ते हैं। CNN कुछ उल्लेखनीय रूप से समान करते हैं। आपके विचार में CNN सबसे पहले कौन सी विशेषताएँ सीखेगा?
कंप्यूटर विज़न क्रमशः तीन कठिन होते कार्यों को संभालता है:
| कार्य | यह किस प्रश्न का उत्तर देता है | उदाहरण | |------|-------------------|---------| | छवि वर्गीकरण | इस छवि में क्या है? | "यह एक्स-रे निमोनिया दिखाता है।" | | ऑब्जेक्ट डिटेक्शन | इस छवि में क्या है और कहाँ है? | सड़क के दृश्य में हर पैदल यात्री के चारों ओर बॉक्स बनाना। | | सेमांटिक सेगमेंटेशन | कौन से पिक्सेल किस वस्तु से संबंधित हैं? | सड़क, फुटपाथ, कार और आकाश के हर पिक्सेल को अलग-अलग रंगों में रंगना। |
सेल्फ-ड्राइविंग कारों को तीनों की एक साथ आवश्यकता होती है - वस्तुओं का वर्गीकरण, उनका सटीक स्थान निर्धारण, और पिक्सेल दर पिक्सेल पूरे दृश्य को समझना।
प्रत्येक कार्य के लिए क्रमशः अधिक कम्प्यूटेशनल शक्ति और प्रशिक्षण डेटा की आवश्यकता होती है। वर्गीकरण 2015 तक काफ़ी हद तक हल हो गया था; वीडियो पर रीयल-टाइम सेगमेंटेशन आज भी सक्रिय अनुसंधान का क्षेत्र बना हुआ है।
कौन सा कंप्यूटर विज़न कार्य किसी छवि में प्रत्येक व्यक्तिगत पिक्सेल को एक लेबल प्रदान करता है?
कंप्यूटर विज़न पहले से ही उन उद्योगों में शामिल है जिनकी आप उम्मीद नहीं करेंगे:
Google के DeepMind ने एक ऐसा AI विकसित किया जो रेटिनल स्कैन से 50 से अधिक आँखों की बीमारियों का पता विश्व-अग्रणी नेत्र विशेषज्ञों जितनी सटीकता से लगा सकता है - हफ़्तों के बजाय सेकंडों में।
कंप्यूटर विज़न शक्तिशाली है, लेकिन यह गंभीर प्रश्न उठाता है जिनसे समाज अभी भी जूझ रहा है:
कल्पना कीजिए कि एक स्कूल स्वचालित रूप से उपस्थिति लेने के लिए चेहरा पहचान कैमरे लगाता है। इसके क्या लाभ हैं? क्या गलत हो सकता है? क्या आप इस प्रणाली के साथ सहज होंगे?
कुछ चेहरा पहचान प्रणालियाँ कुछ जनसांख्यिकीय समूहों पर खराब प्रदर्शन क्यों करती हैं?
CNN में, पूलिंग परतों का उद्देश्य क्या है?