Maybaygiare.org

Blog Network

Una introducción suave a la Visión por Computadora

Tweet Compartir Compartir

Última actualización el 5 de julio de 2019

La visión por computadora, a menudo abreviada como CV, se define como un campo de estudio que busca desarrollar técnicas para ayudar a las computadoras a «ver» y comprender el contenido de imágenes digitales, como fotografías y videos.

El problema de la visión por computadora parece simple porque es trivialmente resuelto por personas, incluso niños muy pequeños. Sin embargo, sigue siendo en gran medida un problema sin resolver basado tanto en la comprensión limitada de la visión biológica como en la complejidad de la percepción de la visión en un mundo físico dinámico y casi infinitamente variable.

En este post, descubrirás una introducción suave al campo de la visión por computadora.

Después de leer este post, conocerás:

  • El objetivo del campo de la visión por computadora y su distinción del procesamiento de imágenes.
  • Lo que hace que el problema de la visión por computador desafiante.
  • Problemas típicos o tareas realizadas en visión artificial.

Inicie su proyecto con mi nuevo libro Aprendizaje profundo para Visión artificial, que incluye tutoriales paso a paso y los archivos de código fuente de Python para todos los ejemplos.

Comencemos.

Una introducción suave a la Visión por Computadora

Una introducción suave a la Visión por Computadora
Foto de Axel Kristinsson, algunos derechos reservados.

Descripción general

Este tutorial se divide en cuatro partes::

  1. Deseo de Ordenadores para Ver
  2. ¿Cuál Es la Visión de Computadora
  3. Desafío de la Visión de Computadora
  4. Tareas en Visión por Computador

Deseo de Ordenadores para Ver

Estamos inundados de imágenes.

Los smartphones tienen cámaras, y tomar una foto o video y compartirlo nunca ha sido tan fácil, lo que resulta en el increíble crecimiento de las redes sociales modernas como Instagram.

YouTube puede ser el segundo motor de búsqueda más grande y se cargan cientos de horas de video cada minuto y se ven miles de millones de videos todos los días.

Internet se compone de texto e imágenes. Es relativamente sencillo indexar y buscar texto, pero para indexar y buscar imágenes, los algoritmos necesitan saber qué contienen las imágenes. Durante mucho tiempo, el contenido de las imágenes y los videos se ha mantenido opaco, y se describe mejor utilizando las meta descripciones proporcionadas por la persona que las subió.

Para aprovechar al máximo los datos de imagen, necesitamos computadoras para» ver » una imagen y comprender el contenido.

Este es un problema trivial para un ser humano, incluso para niños pequeños.

  • Una persona puede describir el contenido de una fotografía que ha visto una vez.
  • Una persona puede resumir un video que solo ha visto una vez.
  • Una persona puede reconocer una cara que solo ha visto una vez antes.

Necesitamos al menos las mismas capacidades de los ordenadores para desbloquear nuestras imágenes y vídeos.

¿Desea obtener resultados con Aprendizaje profundo para Visión artificial?

Tome mi curso intensivo de correo electrónico gratuito de 7 días ahora (con código de muestra).

Haga clic para inscribirse y también obtenga una versión gratuita en PDF del curso.

Descargue Su Mini Curso GRATUITO

¿Qué Es la Visión Artificial?

La visión por computadora es un campo de estudio centrado en el problema de ayudar a las computadoras a ver.

A un nivel abstracto, el objetivo de los problemas de visión por computadora es usar los datos de imagen observados para inferir algo sobre el mundo.

– Página 83, Visión artificial: Modelos, Aprendizaje e Inferencia, 2012.

es un campo multidisciplinario que podría ser ampliamente llamado un subcampo de la inteligencia artificial y aprendizaje automático, que puede implicar el uso de métodos especializados y utilizar algoritmos de aprendizaje.

Descripción general de la Relación entre Inteligencia Artificial y Visión por Computadora

Descripción general de la Relación entre Inteligencia Artificial y Visión por computadora

Como área de estudio multidisciplinaria, puede parecer desordenada, con técnicas prestadas y reutilizadas de una variedad de campos dispares de ingeniería e informática.

Un problema particular en la visión puede abordarse fácilmente con un método estadístico hecho a mano, mientras que otro puede requerir un conjunto grande y complejo de algoritmos de aprendizaje automático generalizados.

La visión artificial como campo es una frontera intelectual. Como cualquier frontera, es emocionante y desorganizada, y a menudo no hay una autoridad confiable a la que apelar. Muchas ideas útiles no tienen fundamento teórico, y algunas teorías son inútiles en la práctica; las áreas desarrolladas están ampliamente dispersas, y a menudo una parece completamente inaccesible de la otra.

– Página xvii, Computer Vision: A Modern Approach, 2002.

El objetivo de la visión por computadora es comprender el contenido de las imágenes digitales. Normalmente, esto implica el desarrollo de métodos que intentan reproducir la capacidad de la visión humana.

Comprender el contenido de las imágenes digitales puede implicar extraer una descripción de la imagen, que puede ser un objeto, una descripción de texto, un modelo tridimensional, etc.

La visión por computadora es la extracción automatizada de información de imágenes. La información puede significar cualquier cosa, desde modelos 3D, posición de la cámara, detección y reconocimiento de objetos hasta agrupación y búsqueda de contenido de imágenes.

— – Página ix, Programación de Visión por computadora con Python, 2012.

Visión por computadora y Procesamiento de imágenes

La visión por computadora es distinta del procesamiento de imágenes.

El procesamiento de imágenes es el proceso de crear una nueva imagen a partir de una imagen existente, normalmente simplificando o mejorando el contenido de alguna manera. Es un tipo de procesamiento de señales digitales y no se ocupa de comprender el contenido de una imagen.

Un sistema de visión artificial determinado puede requerir que el procesamiento de imágenes se aplique a la entrada en bruto, por ejemplo, imágenes de preprocesamiento.

Ejemplos de procesamiento de imágenes incluyen:

  • Normalizar las propiedades fotométricas de la imagen, como el brillo o el color.
  • Recortar los límites de la imagen, como centrar un objeto en una fotografía.
  • Eliminar ruido digital de una imagen, como artefactos digitales de niveles de poca luz.

Desafío de la Visión artificial

Ayudar a las computadoras a ver resulta muy difícil.

El objetivo de la visión por computadora es extraer información útil de las imágenes. Esto ha demostrado ser una tarea sorprendentemente desafiante; ha ocupado a miles de mentes inteligentes y creativas en las últimas cuatro décadas, y a pesar de esto todavía estamos lejos de ser capaces de construir una «máquina de ver» de propósito general.»

– Página 16, Visión artificial: Modelos, Aprendizaje e Inferencia, 2012.

La visión por computadora parece fácil, tal vez porque es muy fácil para los humanos.

Inicialmente, se creía que era un problema trivialmente simple que podía ser resuelto por un estudiante conectando una cámara a una computadora. Después de décadas de investigación, la» visión por computadora » sigue sin resolverse, al menos en términos de satisfacer las capacidades de la visión humana.

Hacer que una computadora vea era algo que los principales expertos en el campo de la Inteligencia Artificial pensaban que estaba al nivel de dificultad de un proyecto de un estudiante de verano en los años sesenta. Cuarenta años después, la tarea sigue sin resolverse y parece formidable.

– Página xi, Geometría de múltiples vistas en Visión artificial, 2004.

Una de las razones es que no tenemos una gran comprensión de cómo funciona la visión humana.

El estudio de la visión biológica requiere una comprensión de los órganos de percepción como los ojos, así como la interpretación de la percepción dentro del cerebro. Se ha avanzado mucho, tanto en el trazado del proceso como en el descubrimiento de los trucos y atajos utilizados por el sistema, aunque como cualquier estudio que involucre al cerebro, hay un largo camino por recorrer.

Los psicólogos perceptuales han pasado décadas tratando de entender cómo funciona el sistema visual y, a pesar de que pueden idear ilusiones ópticas para desentrañar algunos de sus principios, una solución completa a este rompecabezas sigue siendo esquiva

— Página 3, Computer Vision: Algorithms and Applications, 2010.

Otra razón por la que es un problema tan desafiante es debido a la complejidad inherente al mundo visual.

Un objeto dado puede verse desde cualquier orientación, en cualquier condición de iluminación, con cualquier tipo de oclusión de otros objetos, etc. Un verdadero sistema de visión debe ser capaz de» ver » en cualquiera de un número infinito de escenas y aún así extraer algo significativo.

Las computadoras funcionan bien para problemas estrechamente restringidos, no para problemas abiertos ilimitados como la percepción visual.

Tareas en Visión artificial

Sin embargo, se ha avanzado en el campo, especialmente en los últimos años con sistemas básicos para el reconocimiento óptico de caracteres y la detección de rostros en cámaras y teléfonos inteligentes.

La visión por computadora se encuentra en un punto extraordinario en su desarrollo. El tema en sí ha existido desde la década de 1960, pero solo recientemente ha sido posible construir sistemas informáticos útiles utilizando ideas de visión por computadora.

– Página xviii, Computer Vision: A Modern Approach, 2002.

El libro de texto de 2010 sobre visión por computadora titulado «Visión por computadora: Algoritmos y aplicaciones» proporciona una lista de algunos problemas de alto nivel en los que hemos visto éxito con la visión por computadora.

  • Reconocimiento óptico de caracteres (OCR)
  • Inspección de máquinas
  • Venta al por menor (por ejemplo, cajas automáticas)
  • Construcción de modelos 3D (fotogrametría)
  • Imágenes médicas
  • Seguridad automotriz
  • Movimiento de coincidencia (por ejemplo, fusión de CGI con actores en vivo en películas)
  • Captura de movimiento (mocap)
  • Vigilancia
  • Reconocimiento de huellas dactilares y biometría

Es un área de estudio amplia con muchas tareas y técnicas especializadas, así como especializaciones para

La visión por computadora tiene una amplia variedad de aplicaciones, tanto antiguas (p. ej., navegación robótica móvil, inspección industrial e inteligencia militar) como nuevas (p. ej., interacción humana por computadora, recuperación de imágenes en bibliotecas digitales, análisis de imágenes médicas y la representación realista de escenas sintéticas en gráficos por computadora).

– Página xvii, Computer Vision: A Modern Approach, 2002.

Puede ser útil hacer zoom en algunas de las tareas de visión por computadora más simples que es probable que encuentre o que le interese resolver dada la gran cantidad de fotografías digitales y videos disponibles al público.

Muchas aplicaciones populares de visión artificial implican tratar de reconocer cosas en fotografías; por ejemplo:

  • Clasificación de objetos: ¿Qué categoría amplia de objeto hay en esta fotografía?
  • Identificación de objetos: ¿Qué tipo de objeto está en esta fotografía?Verificación de objetos: ¿El objeto está en la fotografía?
  • Detección de objetos: ¿Dónde están los objetos de la fotografía?
  • Detección de puntos de referencia de objetos: ¿Cuáles son los puntos clave para el objeto de la fotografía?
  • Segmentación de objetos: ¿Qué píxeles pertenecen al objeto de la imagen?Reconocimiento de objetos: ¿Qué objetos hay en esta fotografía y dónde están?

Otros ejemplos comunes están relacionados con la recuperación de información; por ejemplo: encontrar imágenes como una imagen o imágenes que contienen un objeto.

Lectura adicional

Esta sección proporciona más recursos sobre el tema si desea profundizar más.

Libros

  • Visión por computadora: Modelos, Aprendizaje e Inferencia, 2012.
  • Programación de Visión por computadora con Python, 2012.
  • Geometría de múltiples vistas en Visión artificial, 2004.
  • Computer Visión: Algorithms and Applications, 2010.
  • Computer Visión: A Modern Approach, 2002.

Artículos

  • Visión por ordenador, Wikipedia.
  • Visión artificial, Wikipedia.
  • Procesamiento digital de imágenes, Wikipedia.

Resumen

En esta publicación, descubriste una introducción suave al campo de la visión por computadora.

Específicamente, aprendiste:

  • El objetivo del campo de la visión por computadora y su distinción del procesamiento de imágenes.
  • Lo que hace que el problema de la visión por computador desafiante.
  • Problemas típicos o tareas realizadas en visión artificial.

¿Tiene alguna pregunta?Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.

¡Desarrolle Modelos de Aprendizaje Profundo para la Visión Hoy mismo!

Aprendizaje profundo para Visión artificial

Desarrolle Sus Propios Modelos de Visión en Minutos

…con solo unas pocas líneas de código python

Descubre cómo en mi nuevo libro electrónico:
Aprendizaje profundo para Visión artificial

Proporciona tutoriales de autoaprendizaje sobre temas como: clasificación, detección de objetos (yolo y rcnn), reconocimiento facial (vggface y facenet), preparación de datos y mucho más…

Finalmente, lleve el Aprendizaje Profundo a sus Proyectos de Visión

Omita los aspectos Académicos. Sólo Resultados.

Ver Lo que está Dentro de

Tweet Compartir Compartir

Deja una respuesta

Tu dirección de correo electrónico no será publicada.