AI EducademyAIEducademy
🌳

AI की नींव

🌱
AI Seeds

शून्य से शुरू करें

🌿
AI Sprouts

नींव बनाएं

🌳
AI Branches

व्यवहार में लागू करें

🏕️
AI Canopy

गहराई में जाएं

🌲
AI Forest

AI में महारत हासिल करें

🔨

AI में महारत

✏️
AI Sketch

शून्य से शुरू करें

🪨
AI Chisel

नींव बनाएं

⚒️
AI Craft

व्यवहार में लागू करें

💎
AI Polish

गहराई में जाएं

🏆
AI Masterpiece

AI में महारत हासिल करें

🚀

करियर रेडी

🚀
इंटरव्यू लॉन्चपैड

अपनी यात्रा शुरू करें

🌟
व्यवहारिक इंटरव्यू में महारत

सॉफ्ट स्किल्स में महारत

💻
तकनीकी इंटरव्यू

कोडिंग राउंड में सफल हों

🤖
AI और ML इंटरव्यू

ML इंटरव्यू में महारत

🏆
ऑफर और उससे आगे

सबसे अच्छा ऑफर पाएं

सभी कार्यक्रम देखें→

लैब

7 प्रयोग लोड हुए
🧠न्यूरल नेटवर्क प्लेग्राउंड🤖AI या इंसान?💬प्रॉम्प्ट लैब🎨इमेज जनरेटर😊सेंटिमेंट एनालाइज़र💡चैटबॉट बिल्डर⚖️एथिक्स सिमुलेटर
🎯मॉक इंटरव्यूलैब में जाएँ→
nav.journeyब्लॉग
🎯
हमारे बारे में

हर जगह, हर किसी के लिए AI शिक्षा सुलभ बनाना

❓
nav.faq

Common questions answered

✉️
Contact

Get in touch with us

⭐
ओपन सोर्स

GitHub पर सार्वजनिक रूप से निर्मित

सीखना शुरू करें - यह मुफ्त है
AI EducademyAIEducademy

MIT लाइसेंस - ओपन सोर्स

सीखें

  • कार्यक्रम
  • पाठ
  • लैब

समुदाय

  • GitHub
  • योगदान करें
  • आचार संहिता
  • हमारे बारे में
  • सामान्य प्रश्न

सहायता

  • कॉफ़ी खरीदें ☕
  • footer.terms
  • footer.privacy
  • footer.contact
AI और इंजीनियरिंग प्रोग्राम›🌳 AI Branches›पाठ›कंप्यूटर विज़न
👁️
AI Branches • मध्यम⏱️ 18 मिनट पढ़ने का समय

कंप्यूटर विज़न

कंप्यूटर विज़न - AI कैसे दुनिया देखना सीखता है

आप एक फ़ोटो पर नज़र डालते हैं और तुरंत जान जाते हैं कि उसमें समुद्र तट पर एक कुत्ता है। कंप्यूटर के लिए वही छवि संख्याओं की एक विशाल ग्रिड से ज़्यादा कुछ नहीं है। कंप्यूटर विज़न AI की वह शाखा है जो मशीनों को उन संख्याओं से अर्थ निकालना सिखाती है - और यह पहले से ही आपके आस-पास के उद्योगों को नया रूप दे रही है।

कंप्यूटर कैसे "देखते" हैं

जब आप किसी तस्वीर को देखते हैं, तो आपका मस्तिष्क तुरंत आकृतियों, रंगों और गहराई को पहचान लेता है। कंप्यूटर के पास ऐसी कोई सहज बुद्धि नहीं होती। इसके बजाय, वह कच्ची संख्याओं के साथ काम करता है।

एक डिजिटल छवि पिक्सेल की एक ग्रिड होती है। प्रत्येक पिक्सेल रंग मान संग्रहीत करता है - आमतौर पर तीन चैनल: लाल, हरा और नीला (RGB)। एक 1920 × 1080 HD छवि में बीस लाख से अधिक पिक्सेल होते हैं, प्रत्येक में 0 से 255 तक के तीन मान होते हैं। इन्हें गुणा करें तो एक ही फ़्रेम में लाखों संख्याएँ होती हैं।

एक छवि को RGB चैनलों के साथ पिक्सेल ग्रिड में विभाजित दिखाने वाला आरेख
हर छवि बस लाल, हरे और नीले चैनलों में संख्याओं की एक ग्रिड है।

रिज़ॉल्यूशन यह निर्धारित करता है कि ग्रिड कितना विवरण कैप्चर करती है। उच्च रिज़ॉल्यूशन का अर्थ है अधिक पिक्सेल और समृद्ध विवरण - लेकिन AI को प्रोसेस करने के लिए कहीं अधिक डेटा भी। एक 4K छवि में HD से चार गुना पिक्सेल होते हैं, जिसका मतलब है चार गुना कम्प्यूटेशनल लागत।

ग्रेस्केल छवियों में केवल एक चैनल (चमक) होता है, जबकि कुछ विशेष प्रारूपों में - जैसे उपग्रह चित्र या चिकित्सा स्कैन - दर्जनों चैनल हो सकते हैं जो मानव आँख के लिए अदृश्य तरंगदैर्ध्य को कैप्चर करते हैं।

🤯

मानव आँख लगभग 1 करोड़ रंगों में अंतर कर सकती है। एक मानक 8-बिट RGB छवि 1 करोड़ 67 लाख से अधिक अद्वितीय रंग संयोजनों का प्रतिनिधित्व कर सकती है - जो हम वास्तव में देख सकते हैं उससे कहीं अधिक!

कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs)

कंप्यूटर विज़न के शुरुआती प्रयास हाथ से बनाए गए नियमों पर निर्भर थे - "यहाँ किनारे खोजो, वहाँ इस टेम्पलेट से मिलान करो।" ये भंगुर दृष्टिकोण जब भी दृश्य बदलता तो विफल हो जाते। आधुनिक प्रणालियाँ कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs) का उपयोग करती हैं, जो हज़ारों लेबल किए गए उदाहरणों से अपने नियम स्वयं सीखते हैं।

CNN को पैटर्न डिटेक्टरों की एक असेंबली लाइन की तरह सोचें, जहाँ प्रत्येक परत पिछली परत पर निर्मित होती है:

  1. कन्वोल्यूशनल परतें छवि पर छोटे फ़िल्टर स्लाइड करती हैं, जो किनारों, कोनों और बनावटों जैसे सरल पैटर्न का पता लगाती हैं।
  2. पूलिंग परतें डेटा को सिकोड़ती हैं, केवल सबसे महत्वपूर्ण सिग्नल रखती हैं और अनावश्यक विवरण हटाती हैं।
  3. गहरी कन्वोल्यूशनल परतें उन सरल पैटर्नों को अधिक जटिल विशेषताओं में जोड़ती हैं - आँखें, पहिये, अक्षर।
पाठ 2 / 140% पूर्ण
←स्वास्थ्य सेवा में AI

Discussion

Sign in to join the discussion

lessons.suggestEdit
  • पूर्ण रूप से जुड़ी परतें सभी विशेषताओं को एक साथ लाकर अंतिम निर्णय लेती हैं - "यह एक बिल्ली है" या "यह एक ट्यूमर है।"
  • इसकी ख़ूबसूरती यह है कि कोई भी इन फ़िल्टरों को हाथ से प्रोग्राम नहीं करता। नेटवर्क प्रशिक्षण के दौरान इन्हें सीखता है, यादृच्छिक शोर से शुरू होकर धीरे-धीरे उपयोगी डिटेक्टरों में तेज़ होता जाता है।

    🤔
    Think about it:

    जब आप किसी मित्र का चेहरा पहचानना सीखते हैं, तो आप हर पिक्सेल को याद नहीं करते - आप आँखों के आकार, बालों की शैली और भावों जैसी प्रमुख विशेषताओं को पकड़ते हैं। CNN कुछ उल्लेखनीय रूप से समान करते हैं। आपके विचार में CNN सबसे पहले कौन सी विशेषताएँ सीखेगा?

    वर्गीकरण, डिटेक्शन और सेगमेंटेशन

    कंप्यूटर विज़न क्रमशः तीन कठिन होते कार्यों को संभालता है:

    | कार्य | यह किस प्रश्न का उत्तर देता है | उदाहरण | |------|-------------------|---------| | छवि वर्गीकरण | इस छवि में क्या है? | "यह एक्स-रे निमोनिया दिखाता है।" | | ऑब्जेक्ट डिटेक्शन | इस छवि में क्या है और कहाँ है? | सड़क के दृश्य में हर पैदल यात्री के चारों ओर बॉक्स बनाना। | | सेमांटिक सेगमेंटेशन | कौन से पिक्सेल किस वस्तु से संबंधित हैं? | सड़क, फुटपाथ, कार और आकाश के हर पिक्सेल को अलग-अलग रंगों में रंगना। |

    सेल्फ-ड्राइविंग कारों को तीनों की एक साथ आवश्यकता होती है - वस्तुओं का वर्गीकरण, उनका सटीक स्थान निर्धारण, और पिक्सेल दर पिक्सेल पूरे दृश्य को समझना।

    प्रत्येक कार्य के लिए क्रमशः अधिक कम्प्यूटेशनल शक्ति और प्रशिक्षण डेटा की आवश्यकता होती है। वर्गीकरण 2015 तक काफ़ी हद तक हल हो गया था; वीडियो पर रीयल-टाइम सेगमेंटेशन आज भी सक्रिय अनुसंधान का क्षेत्र बना हुआ है।

    🧠त्वरित जांच

    कौन सा कंप्यूटर विज़न कार्य किसी छवि में प्रत्येक व्यक्तिगत पिक्सेल को एक लेबल प्रदान करता है?

    वास्तविक दुनिया के अनुप्रयोग

    कंप्यूटर विज़न पहले से ही उन उद्योगों में शामिल है जिनकी आप उम्मीद नहीं करेंगे:

    • Tesla Autopilot आठ कैमरों और विज़न-आधारित AI का उपयोग करके लेन, ट्रैफ़िक लाइट और बाधाओं का रीयल टाइम में पता लगाता है - प्रति यात्रा लाखों फ़्रेम प्रोसेस करता है।
    • मेडिकल इमेजिंग - AI मॉडल अब मैमोग्राम में शुरुआती चरण के स्तन कैंसर का पता लगाने में रेडियोलॉजिस्ट की बराबरी या उनसे बेहतर करते हैं, कभी-कभी वह पकड़ लेते हैं जो छह मानव विशेषज्ञों से छूट गया।
    • गुणवत्ता नियंत्रण - कारखाने विज़न सिस्टम का उपयोग करके प्रति मिनट हज़ारों उत्पादों का निरीक्षण करते हैं, ऐसे दोष पकड़ते हैं जो मानव निरीक्षकों के लिए बहुत सूक्ष्म या तेज़ होते हैं।
    • कृषि - कंप्यूटर विज़न वाले ड्रोन विशाल खेतों में रोगग्रस्त फ़सलों की पहचान करते हैं, जिससे लक्षित उपचार संभव होता है और कीटनाशक उपयोग 90% तक कम हो जाता है।
    • खुदरा - Amazon Go स्टोर कंप्यूटर विज़न का उपयोग करके ट्रैक करते हैं कि खरीदार कौन से उत्पाद उठाते हैं, जिससे बिना चेकआउट खरीदारी संभव होती है।
    🤯

    Google के DeepMind ने एक ऐसा AI विकसित किया जो रेटिनल स्कैन से 50 से अधिक आँखों की बीमारियों का पता विश्व-अग्रणी नेत्र विशेषज्ञों जितनी सटीकता से लगा सकता है - हफ़्तों के बजाय सेकंडों में।

    नैतिक चिंताएँ

    कंप्यूटर विज़न शक्तिशाली है, लेकिन यह गंभीर प्रश्न उठाता है जिनसे समाज अभी भी जूझ रहा है:

    • निगरानी - चेहरे की पहचान नागरिकों की बड़े पैमाने पर ट्रैकिंग को सक्षम बनाती है। सैन फ़्रांसिस्को और EU के कुछ हिस्सों सहित कई शहरों ने पुलिस द्वारा इसके उपयोग पर प्रतिबंध लगाया है या प्रतिबंधित किया है।
    • पूर्वाग्रह - MIT में Joy Buolamwini के ऐतिहासिक अध्ययनों ने दिखाया कि व्यावसायिक चेहरा पहचान प्रणालियाँ गहरे रंग की त्वचा वाले चेहरों और महिलाओं के लिए काफ़ी कम सटीक थीं, क्योंकि प्रशिक्षण डेटा में ऐतिहासिक रूप से हल्के रंग के पुरुषों का अधिक प्रतिनिधित्व रहा है।
    • सहमति - क्या दुकानों, हवाई अड्डों या सार्वजनिक स्थानों पर आपकी जानकारी के बिना आपके चेहरे को स्कैन किया जाना चाहिए? कई देश अभी भी इसे संबोधित करने के लिए कानून बना रहे हैं।
    • डीपफ़ेक - AI-जनित नकली छवियाँ और वीडियो गलत सूचना फैला सकते हैं और प्रतिष्ठा को नुकसान पहुँचा सकते हैं, जिससे दृश्य साक्ष्य कम विश्वसनीय हो जाते हैं।
    🤔
    Think about it:

    कल्पना कीजिए कि एक स्कूल स्वचालित रूप से उपस्थिति लेने के लिए चेहरा पहचान कैमरे लगाता है। इसके क्या लाभ हैं? क्या गलत हो सकता है? क्या आप इस प्रणाली के साथ सहज होंगे?

    🧠त्वरित जांच

    कुछ चेहरा पहचान प्रणालियाँ कुछ जनसांख्यिकीय समूहों पर खराब प्रदर्शन क्यों करती हैं?

    मुख्य निष्कर्ष

    • छवियाँ रंग चैनलों में पिक्सेल मानों की ग्रिड होती हैं - कंप्यूटर संख्याएँ देखते हैं, तस्वीरें नहीं।
    • CNN प्रशिक्षण के माध्यम से स्वचालित रूप से विशेषताएँ निकालना सीखते हैं, किनारों से शुरू होकर जटिल वस्तुओं तक निर्माण करते हैं।
    • वर्गीकरण, डिटेक्शन और सेगमेंटेशन दृश्य समझ के बढ़ते स्तरों का प्रतिनिधित्व करते हैं।
    • कंप्यूटर विज़न स्वास्थ्य सेवा निदान से लेकर स्वायत्त वाहनों और सटीक कृषि तक सफलताएँ प्रदान करता है।
    • प्रशिक्षण डेटा में पूर्वाग्रह और निगरानी की चिंताएँ सावधानीपूर्ण, नैतिक तैनाती की माँग करती हैं - जिम्मेदार शासन के बिना केवल तकनीक कभी पर्याप्त नहीं होती।
    🧠त्वरित जांच

    CNN में, पूलिंग परतों का उद्देश्य क्या है?