sábado, junio 29, 2024

WebScrapping & WebScalping con GenAI: Formularios y Datos

Las técnicas de WebScrapping para hacer bases de datos descargando datos de aplicaciones web, y las técnicas de WebScalpping que automatizan acciones en aplicaciones web para comprar entradas, reservar productos, o pujar de manera automática en subastas a través de aplicaciones web, requieren normalmente no sólo de vencer a Captchas Cognitivos que detecten los automatismos - para lo que vemos muy a menudo lo útiles que son los LLM Multimodales -, sino también de rellenar formularios con datos.

Figura 1: WebScrapping & WebScalping con GenAI: Formularios y Datos

Rellenar formularios suele ser una tarea que se automatiza también, y el trabajo consiste en ver los campos que hay que rellenar, automatizar el proceso manualmente una vez, y luego cargarlo con una batería de datos que hay que ir produciendo. 

Figura 2: Formulario de Youtube con un montón de campos a automatizar con GenAI

Pero con la llegada de la GenAI, esta es una tarea que también se le puede pedir a los modelos, ya que pueden analizar el formulario con los servicios multimodales de análisis de textos en imágenes.

Figura 3: Azure OpenAI con GPT4-Vision

En este caso he utilizado para la prueba Azure OpenAI con GPT4-Vision para darle una captura de pantalla de un formulario - he usado de ejemplo el de denunciar vídeos de Youtube, y pedirle que me genere automáticamente campos para rellenar este formulario.

Figura 4: Pidiéndole que analice el formulario a GPT4-Vision

Como podéis ver que lo hace de manera muy diligente, y me genera una batería de datos para rellenar ese formulario, lo que si estamos hablando de un script automatizado puede ser muy conveniente. 

Figura 5: Datos "inventados" para rellenar el formulario

Lo bueno es que si ya has analizado el formulario con el modelo, le puedes pedir que te vaya generando nuevos conjuntos de datos distintos de manera sencilla.

Figura 6: Dame más datos para otro formulario

Todas las veces que quieras, lo que permite que sea parte del script esta tarea y no de preparar o meter los datos produciéndolos manualmente, aleatoriamente o usando conjuntos de datos que se tengan compilados de otras fuentes.

Figura 7: Más datos para otro formulario

Como os podéis imaginar, esta capacidad está bien para los temas que he puesto al principio, pero también permite hacer scripts de QA para Tests, o hacer Fuzzing de datos en pruebas de Hacking a Aplicaciones Web, ya que le puedes pedir que te cree direcciones de correo electrónico únicamente.

Figura 8: Una lista de direcciones de correo con personas

Llegado a este punto, me surgieron muchas preguntas, muchas dudas, y se abrieron nuevas puertas que quiero cruzar a ver dónde me llevan. La primera de las preguntas que me surgió tiene que ver con lo veraces que parecen los datos que en todas las capturas que os he dejado podéis leer. Son direcciones de e-mail de dominios que es probable que existan o que ya existen. En el caso de que ya existen - y lo he comprobado -, ¿podría ser alguno una leakage de datos del entrenamiento LLM?
Recordad que hace un año publiqué el artículo de "Análisis de Filtración de Información Personal en Large Language Models" que hablaba exactamente de estos casos. Y aunque no lo fueran, esta capacidad de generar datos tan fácilmente podría utilizarse para hacer "e-mail guessing" y encontrar direcciones de correo electrónico de objetivos de manera automatizada.

Figura 10: e-mail address guessing para Chema Alonso

Pero también puede ser sin querer GPT4 esté generando datos que sean reales y que lleve a una persona u organización a tener un problema por que haya inventado unos datos públicos. Es decir, si yo publico información inventada por mí en mi blog y luego resulta que es verdad y son datos que, por casualidad, significan el descubrimiento de datos personales... ¿pasa algo? Y aún me quedan algunas más preguntas que voy a probar antes de seguir compartiéndolas con vosotros...

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, junio 28, 2024

Bit2Me en OpenExpo 2024: GenAI & Blockchain como ejes de Innovación

El pasado 13 de junio de 2024, Madrid se convirtió en el epicentro de la innovación tecnológica con la celebración del evento anual OpenExpo Europe. Durante once años, este encuentro ha sido un referente en la divulgación de la innovación tecnológica, la transformación digital y el software libre, y en esta edición se ha enfocado en la transversalidad de la Inteligencia Artificial (IA) y la IA Generativa (GenIA).

Figura 1: Bit2Me en OpenExpo 202.
 GenAI & Blockchain como ejes de Innovación

En esta ocasión, Bit2Me tuvo un papel crucial en el evento aportando su punto de vista sobre los puntos en común y las sinergías que comparten la tecnologías BlockChain y la IA.

La innovación al alcance de todos

OpenExpo Europe no es simplemente un congreso; es un evento integral que reúne a más de 4.500 profesionales del sector tecnológico y se distingue por ser un punto de encuentro para decision makers, técnicos, expertos y usuarios apasionados por las tendencias de vanguardia en tecnología. 

Figura 2:  Javier PastorHead of OTC en Bit2Me.

Este año, la IA y la GenAI ocuparon un lugar central, destacando su influencia en campos como la ciberseguridad, la computación en la nube y el desarrollo de software, y demostrando su integración transversal en todas las áreas tecnológicas. En palabras de Javier Pastor, Head of OTC en Bit2Me

"Para el equipo de Bit2Me, el OpenExpo ha sido una experiencia valiosa, ofreciéndonos la oportunidad de interactuar con otros profesionales del sector tecnológico blockchain y de la IA. Aunque enfrentamos desafíos al introducir nuevos productos, la respuesta general fue alentadora. Apreciamos el diálogo constructivo y las oportunidades que se abren en adelante con los asistentes, recogimos ideas y feedback que nos brindó perspectivas útiles para futuras sinergias y mejoras".

Bit2Me y la Sinergia entre blockchain e IA

Uno de los momentos destacados del OpenExpo Europe 2024 fue la charla impartida por Sandra García, CEO de Dekalabs (Grupo Bit2Me). En su presentación, Sandra exploró las sinergias entre BlockChain & Inteligencia Artificial, y cómo estas tecnologías pueden resolver sus respectivas limitaciones y potenciar sus fortalezas y según afirmó:

"En nuestra experiencia en el evento OpenExpo, tuvimos la oportunidad de dar una charla destacando las sinergias entre blockchain e Inteligencia Artificial (IA) y cómo ambas pueden resolver sus respectivas limitaciones y potenciar sus fortalezas."

Durante su intervención, Sandra abordó preguntas clave, por ejemplo: ¿Cómo puede la Inteligencia Artificial ayudar a Blockchain?, y explicó que la IA puede realizar análisis predictivo de transacciones en la red, crear y generar automáticamente SmartContracts, y auditar estos contratos detectando anomalías. También exploró cómo la blockchain puede beneficiar a la IA, defendiendo el derecho de propiedad intelectual, combatiendo las Fake News mediante Proof-of-ownership y potenciando sus capacidades combinadas.

"La aparición de agentes inteligentes que utilicen blockchain para asegurar sus operaciones y decisiones abrirá nuevas fronteras en la automatización y seguridad digital." 

Añadió también Sandra en esta charla no solo ofreció una visión profunda sobre el futuro de estas tecnologías, sino que también despertó un gran interés entre los asistentes, destacando el papel crucial que estas innovaciones jugarán en los próximos años.

Un Futuro Tecnológico Inminente

OpenExpo Europe se consolida como el mayor Congreso y Feria Profesional sobre Innovación Tecnológica Empresarial en Europa. Este evento se reconoce por aunar la tecnología desde el punto de vista empresarial y de las comunidades en una simbiosis única. En 2024, OpenExpo Europe congregó a más de 4.500 líderes del sector, incluidos profesionales de todas las industrias, comunidades, empresas destacadas a nivel nacional e internacional, decision makers y expertos en todas las tecnologías de vanguardia.

Figura 3: Equipo de Bit2Me en su stand de OpenExpo Europe

Mirando hacia el futuro, la edición de OpenExpo Europe 2025 promete mantener su enfoque en la IA y la GenIA, reflejando su compromiso con la evolución constante. Este evento ofrece a las empresas y profesionales información y formación actualizadas sobre la transformación empresarial y las tendencias emergentes en el sector IT.

Conclusión

La participación de Bit2Me en OpenExpo Europe 2024 no solo fortaleció su presencia en la comunidad tecnológica y financiera, sino que también les brindó una plataforma para compartir sus conocimientos y experiencias en BlockChain & AI. Este evento no solo permitió a Bit2Me ganar visibilidad y recoger feedback valioso, sino que también les motivó a continuar innovando dentro de su espacio.

En resumen, OpenExpo Europe 2024 no sólo fue un escaparate de las últimas tendencias y tecnologías, sino que también demostró cómo eventos como este pueden fomentar el diálogo constructivo y las colaboraciones fructíferas entre los líderes del sector. Con la IA y la GenAI a la vanguardia, OpenExpo Europe sigue siendo una cita ineludible para todos aquellos interesados en estar a la vanguardia del cambio tecnológico.


Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Cuando doy una charla a algún amigo, conocido, o a un grupo de personas que quieren conocer MyPublicInbox , siempre se acaban sorprendiendo ...

Entradas populares