viernes, septiembre 26, 2025

Haz la vida más cómoda a los usuarios con "Grab This Display QRCode"

Hace muchos años, en uno de nuestros hackathones, estaba yo con la idea de hacer una PoC de un servicio que se llamara "Grab this Display!", una idea que intentaba resolver un "pain" que muchos tenemos cuando estamos en Hospitales, Oficinas de Administración Pública, Salas de espera de organizaciones o Aeropuertos, que no es otro que mirar una pantalla de información para saber cuando te toca, cuando sale tu avión o cualquier otra información que está emitiendo dese un servicio digital.

Figura 1: Haz la vida más cómoda a los usuarios
con "Grab This Display QRCode"

En aquel momento estaba con la idea de ver cómo hacer esto, usando QRCodes para capturar la imagen con el móvil, o AR para poder enlazar una pantalla con su versión online - que muchas la tienen, como es el caso de mucha información de aeropuertos, y luego cosas más peregrinas con soluciones UGC (User Generated Content) o cámaras en streaming. Era un hackathon, y pensar este tipo de locuras es el objetivo, para hacer reto a tus ideas de una manera constante.

Figura 2: Pantallas de Información de aeropuertos con puertas de embarque.
¿Cuántas veces te ha tocado estar de pie mirando una de estas pantalla?

Aquella idea la comentamos, y no hicimos mucho porque al final la idea era tan sencilla de realizar como que el que diseña el sistema de Pantallas de Información pusiera un QRCode con una URL de su dirección pública de Internet y listo. Muchas de esas pantallas, como la de la información de las puertas de embarque en un aeropuerto es información pública.

Figura 3: Dónde puedes ver las puertas de embarque del Aeropuerto de Madrid

El problema, o el "dolor", es localizar cuando estás en frente de esa pantalla el equivalente en Internet, que no es fácil, ni trivial, ni homogéneo, ni claro que sea la misma información. Por ejemplo, pidiendo la información de las puertas de embarque del aeropuerto de Madrid está disponible, pero en la app del AENA, o en esta web con anuncios - me ha llamado poderosamente la atención esto de los ads para ver las puertas de embarque -.
Eso significa que hay que descargar la app, instalarla, seguramente crearse un usuario de la app, y entonces - y sólo entonces - consigues tener la información que tienes delante. Algo que no vas a hacer porque seguramente no quieres luego actualizaciones, que te pueda o no vigilar, que te mande notificaciones push... o cualquier otra preocupación que puedas tener.

Figura 5: Dónde puedes ver las puertas de embarque del Aeropuerto de Lisbo

Si miramos en el aeropuerto de Lisboa, la situación es diferente, aquí, como dice Perplexity, la web del aeropuerto tiene la información de las puertas de embarque disponible en una web sin instalación de una app, lo que es de agradecer. Pero de nuevo, no es un sistema homogéneo en todas las pantallas, y tampoco tenemos la garantía de que se actualicen al mismo tiempo.
Por ello, lo que deberían tener las Pantallas de Información es un sistema de Grab This Info Display basado en una web, con un QRCode que te permita acceder fácilmente a la información de esa pantalla desde tu móvil, y que te garantice que se actualiza de manera sincronizada en la web y en la pantalla.  Es decir, el sistema que imprime la pantalla debería imprimir en ese dispositivo junto con un QRCODE, y actualizar una representación de la misma en una URL de Internet, algo que no es ni complejo, ni raro. 

Figura 7: Grab this Display QRCode

Yo proponía en el hackathon algo como esto, que no es que sea una innovación sino una feature de UI/UX que debería estar en todas las pantallas de información del universo mundial, para evitar apelotonamientos de personas, para evitar que las personas mayores tengan que estar de pie delante de una pantalla, y para hacer que cualquier persona pueda acceder a esa información fácilmente.

Figura 8: MockUp de la Info Display en tu móvil y el usuario feliz.

Por otro lado, una de las cosas que me decían es: "¿Y si se quiere que la persona sólo pueda acceder a esa información si está en la Sala de Espera?". Pues entonces ponla accesible en una WiFi privada, o haz un Geo-Fencing con OpenGateway o con Bluetooth. O esas pantallas déjalas fuera de mi propuesta, pero las que sean de información pública... please, poned el Grab This Info Display QRCode!

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, septiembre 25, 2025

Fótonica e Inteligencia Artificial combinadas para crear una nueva técnica de codificar fotografías comprimidas

¿No te ha pasado nunca que deseas capturar exactamente lo que están viendo tus ojos en un momento determinado, con todo lujo de detalles? La evolución nos ha dotado de una vista extraordinaria, pero también nos ha condenado a ser testigos de momentos únicos que no podemos grabar a fuego lento para siempre. Nuestro cerebro no está preparado para guardar copias exactas de lo que vemos, o lo que experimentamos. Se difuminan, se cambian, se modifican, se diluyen en nuestra memoria, e incluso, los olvidamos.

Figura 1: Fótonica e Inteligencia Artificial combinadas para
crear una nueva técnica de codificar fotografías comprimidas

Esta necesidad humana de conservar esos recuerdos dio lugar al nacimiento, primero de la pintura y luego la fotografía, que nació hace casi dos siglos, con la invención del Daguerrotipo. Como imaginarás, desde aquellos albores hasta hoy, la fotografía ha evolucionado enormemente. Y de la captura analógica, pasamos a la captura y el tratamiento digital de las mismas. Las imágenes que capturamos hoy con nuestros móviles no tienen nada que ver con aquellas primeras fotografías. Hemos conseguido mejorar el nivel de detalle, añadir color y, sobre todo, digitalizar por medio de la tecnología completamente el proceso de la toma de instantáneas.


Sin embargo, todo este progreso tecnológico tiene un coste. El procesamiento digital de imágenes consume mucha energía y se enfrenta a límites en la transmisión y almacenamiento de datos. Solo para una imagen convencional necesitamos realizar entre 100 y 1000 operaciones por píxel para compensar factores como el ruido, además de aplicar después algoritmos de compresión como el popular JPEG, el popular formato de compresión "con perdida" que tantas fotos ha guardado, guarda y guardará.

Todas estas operaciones hacen que el consumo energético se dispare, además de que los algoritmos de compresión deben ser muy eficaces para no perder, o perder la menor información, pudiendo mejorar los tiempos de compresión, y los tamaños de archivos resultantes. Por eso, para conseguir imágenes de mayor resolución, necesitamos algoritmos de procesamiento y compresión más eficientes que aumenten la velocidad de procesado y reduzcan el tamaño de almacenamiento necesario. Y aquí es donde la fotónica entra en juego.


En un artículo fascinante publicado en Nature Communications titulado "Integrated photonicencoder for low power and high-speed image processing", el cual te animo a leer ya que se encuentra todo detalladamente explicado, proponen usar un sistema óptico combinado con Inteligencia Artificial para realizar este proceso de codificación de imágenes de manera mucho más eficiente.


Para optimizar el proceso se utiliza un Codificador Fotónico Analógico en una arquitectura híbrida, que combina óptica y electrónica en circuitos de silicio, con el siguiente esquema:
  • Fuentes de luz: para usar tecnología fotónica se necesita de luz coherente la cual manipular, al igual que los ordenadores electrónicos necesitan electricidad. Cada uno de los píxeles de la fotografía a codificar pasa a ser emitida con un láser coherente estable que proporciona el haz de luz a procesar.
  • Guías de onda monomodo: se implementan múltiples guías de onda monomodo, una por cada píxel del bloque que se va a procesar, cada una con un modulador que codifica la información de un píxel específico.
  • Guía multimodo: se combina todas las señales de cada guía monomodo en una sola señal multimodo antes de realizar las operaciones.
  • Codificación aleatoria: es el punto más importante e ingenioso de este artículo. Aprovechan el hecho de que las primeras capas de la mayoría de redes neuronales de codificación no son críticas en la calidad de la compresión, y las implementan físicamente de forma pasiva y pre-diseñada usando centros de dispersión aleatorios creados simplemente haciendo agujeros de aire en silicio. Esto permite, gracias a que la luz opera en el régimen lineal, describir todo el proceso de codificación de forma muy simple:
Resultado= Matriz_Dispersion x Entrada
  • Detectores: la señal óptica resultante se captura con fotosensores. La compresión ocurre de forma natural en la etapa anterior, donde el diseño de la matriz de dispersión garantiza que haya menos canales de salida que de entrada, reduciendo así tanto el número de detectores necesarios como el tamaño final de la imagen.
  • Red Neuronal: finalmente se utiliza un backend digital electrónico con un modelo de Inteligencia Artificial Generativa entrenada para reconstruir la imagen original a partir de la versión comprimida obtenida de los detectores.
Los resultados de esta técnica son impresionantes: en el artículo afirman que las imágenes reconstruidas mantienen más del 90% de similitud estructural con las originales, con el potencial de procesar flujos de datos a velocidades de terapíxeles.


La magia del proceso es comprimir fotónicamente y reconstruir con un algoritmo de Inteligencia Artificial generativa basado en la reconstrucción que se hace en los Difussion Models. La imagen es capturada por una cámara de alta calidad, con alta resolución y que genera imágenes con un alto consumo de datos de almacenamiento. 

Esa imagen se pasa por un el Codificador Fotónico Analógico descrito, donde la compresión se hace con sensor de luz que calcula el valor del píxel a partir de una captura con una óptica de baja resolución, para generar un conjunto de imágenes de baja calidad y bajo consumo de datos de almacenamiento. Es decir, si pensamos en un Modelo de Difusión, sería el equivalente al difusor.
Ese conjunto de imágenes se convierten en la información latente del modelo, y son el conjunto de datos de entrada que utilizará el Modelo de GenAI para hacer el denoising, y generar una imagen final de alta calidad con un alto grado de similitud con el resultado final. Es decir, algo parecido a cuando vimos que era posible aumentar la calidad de la miniatura de las imágenes de 1-sólo-uso enviadas por WhatsApp, o a cuando vimos que se utilizaban señales cerebrales para reconstruir imágenes de lo que está viendo una persona. En este caso, imágenes difuminadas - o comprimidas en calidad - usando fotónica.

Reflexión final

Lo más prometedor de esta tecnología es que permite comprimir y procesar imágenes con una eficiencia energética mucho mayor, a una velocidad mucho mayor, generando imágenes, gracias a la combinación de Fotónica e Inteligencia Artificial, con una calidad mayor incluso que la del popular formato JPEG. Una aplicación de la fotónica en la fase de compresión de la imagen, que se aprovecha de la velocidad de la luz para la fase de reducción de calidad, igual que el proyecto de Microsoft Research lo hacía para calcular la multiplicación de matrices.  La luz y la fotónica está de moda, y si no que se lo digan a LightMatter.

Saludos,


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares