Vous jetez un coup d'œil à une photo et savez instantanément qu'elle montre un chien sur une plage. Pour un ordinateur, cette même image n'est rien de plus qu'une immense grille de nombres. La vision par ordinateur est la branche de l'IA qui apprend aux machines à extraire du sens de ces nombres - et elle transforme déjà les industries autour de vous.
Lorsque vous regardez une photographie, votre cerveau reconnaît instantanément les formes, les couleurs et la profondeur. Un ordinateur n'a rien de cette intuition. À la place, il travaille avec des nombres bruts.
Une image numérique est une grille de pixels. Chaque pixel stocke des valeurs de couleur - généralement trois canaux : rouge, vert et bleu (RGB). Une image HD de 1920 × 1080 contient plus de deux millions de pixels, chacun avec trois valeurs allant de 0 à 255. Multipliez le tout et même une seule image contient des millions de nombres.
La résolution détermine la quantité de détails que la grille capture. Une résolution plus élevée signifie plus de pixels et des détails plus riches - mais aussi beaucoup plus de données à traiter pour l'IA. Une image 4K a quatre fois plus de pixels qu'une image HD, ce qui signifie quatre fois le coût computationnel.
Les images en niveaux de gris n'ont qu'un seul canal (la luminosité), tandis que certains formats spécialisés - comme l'imagerie satellite ou les scanners médicaux - peuvent avoir des dizaines de canaux capturant des longueurs d'onde invisibles à l'œil humain.
L'œil humain peut distinguer environ 10 millions de couleurs. Une image RGB standard en 8 bits peut représenter plus de 16,7 millions de combinaisons de couleurs uniques - plus que ce que nous pouvons réellement percevoir !
Les premières tentatives en vision par ordinateur reposaient sur des règles artisanales - « chercher des contours ici, faire correspondre ce modèle là ». Ces approches fragiles échouaient dès que la scène changeait. Les systèmes modernes utilisent des réseaux de neurones convolutifs (CNNs), qui apprennent leurs propres règles à partir de milliers d'exemples étiquetés.
Imaginez un CNN comme une chaîne de montage de détecteurs de motifs, chaque couche s'appuyant sur la précédente :
Sign in to join the discussion
La beauté de la chose, c'est que personne ne programme ces filtres à la main. Le réseau les apprend pendant l'entraînement, partant d'un bruit aléatoire et s'affinant progressivement pour devenir des détecteurs utiles.
Quand vous apprenez à reconnaître le visage d'un ami, vous ne mémorisez pas chaque pixel - vous repérez des caractéristiques clés comme la forme des yeux, la coiffure et l'expression. Les CNNs font quelque chose de remarquablement similaire. Quelles caractéristiques pensez-vous qu'un CNN apprendrait en premier ?
La vision par ordinateur s'attaque à trois tâches progressivement plus difficiles :
| Tâche | Question à laquelle elle répond | Exemple | |------|-------------------|---------| | Classification d'images | Qu'y a-t-il dans cette image ? | « Cette radiographie montre une pneumonie. » | | Détection d'objets | Qu'y a-t-il dans cette image et où ? | Dessiner des cadres autour de chaque piéton dans une scène de rue. | | Segmentation sémantique | Quels pixels appartiennent à quel objet ? | Colorier chaque pixel de la route, du trottoir, de la voiture et du ciel différemment. |
Les voitures autonomes ont besoin des trois simultanément - classifier les objets, les localiser précisément et comprendre la scène entière pixel par pixel.
Chaque tâche nécessite progressivement plus de puissance de calcul et de données d'entraînement. La classification était en grande partie résolue en 2015 ; la segmentation en temps réel sur la vidéo reste un domaine de recherche actif aujourd'hui.
Quelle tâche de vision par ordinateur attribue une étiquette à chaque pixel individuel d'une image ?
La vision par ordinateur est déjà intégrée dans des industries auxquelles vous ne vous attendriez pas :
DeepMind de Google a développé une IA capable de détecter plus de 50 maladies oculaires à partir de scans rétiniens avec autant de précision que les meilleurs ophtalmologistes du monde - en quelques secondes plutôt qu'en quelques semaines.
La vision par ordinateur est puissante, mais elle soulève des questions graves auxquelles la société est encore confrontée :
Imaginez qu'une école installe des caméras de reconnaissance faciale pour prendre les présences automatiquement. Quels sont les avantages ? Que pourrait-il mal se passer ? Seriez-vous à l'aise avec ce système ?
Pourquoi certains systèmes de reconnaissance faciale fonctionnent-ils moins bien pour certains groupes démographiques ?
Dans un CNN, quel est le rôle des couches de pooling ?