Resumen ejecutivo
Los sistemas de visión por computadora basados en inteligencia artificial son cada vez más comunes y asequibles. Además, la tecnología actual de redes de computadora y protocolos de comunicación permite una integración transparente entre cámaras convencionales de video vigilancia y software capaz de analizar video en tiempo real para generar datos sobre los procesos productivos u operativos de un negocio.
Es decir, no es necesario adquirir e instalar cámaras inteligentes para analizar y generar datos de manera automatizada, continua y en tiempo real a partir de video.
Aunque las cámaras inteligentes son una excelente opción para detectar e identificar personas y vehículos, la integración de los datos que generan con los sistemas productivos de una empresa no siempre es sencilla. Además, estas cámaras suelen ser costosas y, si la necesidad consiste en detectar algo distinto a una persona o un vehículo, las opciones disponibles pueden ser limitadas.
1. La tecnología de comunicación que lo hace posible
El protocolo de transmisión en tiempo real, RTSP por sus siglas en inglés de Real Time Streaming Protocol, se utiliza para transferir datos de audio y video digital. Hoy es utilizado casi de manera estándar por fabricantes de equipos de video vigilancia.
Prácticamente todas las cámaras de vigilancia, administradores y grabadores de video modernos —DVR o NVR— utilizan este protocolo de comunicación.

Este protocolo hace posible enviar video desde una cámara o grabador hacia una computadora que contiene y ejecuta modelos de inteligencia artificial. Así, el video puede ser procesado para generar datos sobre personas y objetos de interés que aparecen en el video de cámaras ya instaladas, sin necesidad de adquirir nuevas y costosas cámaras inteligentes.
Una vez que el video se envía a una computadora, y para poder ser procesado, se descompone en frames o fotogramas.
- Usualmente hay entre 10 y 25 fotogramas por cada segundo de video, dependiendo de la configuración y características de la cámara.
- Mientras la percepción humana de movimiento continuo surge cuando el cerebro fusiona patrones observados en fotogramas contiguos, en una computadora cada fotograma es procesado individualmente.
- Por eso, el análisis del movimiento de los objetos en video requiere algoritmos especializados de seguimiento.
2. Modelos de inteligencia artificial aplicados a la visión por computadora
Los modelos de inteligencia artificial aplicados a la visión por computadora se dividen en dos grandes categorías:
- Detectores: encuentran todos los objetos de interés que aparecen en un frame o fotograma de video. El resultado indica la ubicación —demarcada por un rectángulo— y la categoría de cada objeto detectado.
- Clasificadores: determinan a qué clase o categoría corresponde el objeto principal en un fotograma. El resultado es una sola categoría asociada a la imagen completa.

Los modelos más ampliamente utilizados en el tratamiento de videos son los detectores.
Un modelo de inteligencia artificial para visión por computadora es una gran función matemática que combina miles o millones de funciones simples basadas en sumas y multiplicaciones de matrices. Para ser procesado por la computadora y por el modelo, un fotograma de video se representa matemáticamente mediante una matriz numérica de tres dimensiones: alto, ancho y color.
A estas matrices se les denomina tensores en lenguaje matemático. De hecho, los desarrollos de software para inteligencia artificial prefieren utilizar el concepto de tensor, y algunos lo toman como parte de su nombre, como TensorFlow.

Finalmente, una computadora procesa un tensor con la representación numérica de un fotograma usando el modelo de inteligencia artificial. Con esto se detectan patrones en los valores del tensor que indican la ubicación y categoría de los objetos de interés.
3. Plataformas y modelos disponibles
Hoy existen repositorios o plataformas donde es posible encontrar y descargar modelos de inteligencia artificial tanto para detección como para clasificación. Algunas de las plataformas más conocidas son:
- Hugging Face.
- Roboflow.
- TensorFlow Hub.
Siempre es importante revisar el tipo de licencia de uso de los modelos descargados de estos repositorios. Es común que la licencia no permita su uso comercial.
Cuando se descarga un modelo, lo que se obtiene es:
- La función matemática del modelo, es decir, sus coeficientes numéricos o pesos.
- Una tabla de etiquetas que permite asociar valores numéricos con textos comprensibles para el usuario humano.
En este punto aún hace falta tener el software capaz de interpretar el modelo de inteligencia artificial descargado para utilizarlo sobre un fotograma. A este proceso se le llama inferencia.
Hoy existe software especializado para esta tarea: servidores de inferencia. Algunos ejemplos son OpenVINO Model Server de Intel, Triton Inference Server de Nvidia y ONNX Runtime de Microsoft.
Finalmente, para generar valor, es necesario incorporar los resultados del servidor de inferencia y combinarlos con los datos que genera la operación del negocio. Así es posible conocer si el negocio opera conforme a sus reglas, descubrir comportamientos fuera de norma, levantar alertas o enviar notificaciones.
Conclusiones
Hoy existen desarrollos tecnológicos que facilitan la incorporación de inteligencia artificial en los procesos de cualquier empresa y permiten analizar en tiempo real el video de cámaras convencionales de video vigilancia.
En esta ocasión describimos, de manera breve, desarrollos de software que pueden analizar video y detectar objetos de interés tan bien o mejor de lo que un humano puede hacerlo.
En posteriores ediciones de este blog hablaremos de los avances en hardware que hacen posible el análisis de video en tiempo real y que ponen esta tecnología al alcance de todos.