Las técnicas de
WebScrapping para hacer bases de datos descargando datos de aplicaciones web, y las técnicas de
WebScalpping que automatizan acciones en aplicaciones web para comprar entradas, reservar productos, o pujar de manera automática en subastas a través de aplicaciones web, requieren normalmente no sólo de
vencer a Captchas Cognitivos que detecten los automatismos - para lo que vemos muy a menudo
lo útiles que son los LLM Multimodales -, sino también de rellenar formularios con datos.
Figura 1: WebScrapping & WebScalping con GenAI: Formularios y Datos
Rellenar formularios suele ser una tarea que se automatiza también, y el trabajo consiste en ver los campos que hay que rellenar, automatizar el proceso manualmente una vez, y luego cargarlo con una batería de datos que hay que ir produciendo.
Figura 2: Formulario de Youtube con un montón de campos a automatizar con GenAI
Pero con la llegada de la GenAI, esta es una tarea que también se le puede pedir a los modelos, ya que pueden analizar el formulario con los servicios multimodales de análisis de textos en imágenes.
Figura 3: Azure OpenAI con GPT4-Vision
En este caso he utilizado para la prueba Azure OpenAI con GPT4-Vision para darle una captura de pantalla de un formulario - he usado de ejemplo el de denunciar vídeos de Youtube, y pedirle que me genere automáticamente campos para rellenar este formulario.
Figura 4: Pidiéndole que analice el formulario a GPT4-Vision
Como podéis ver que lo hace de manera muy diligente, y me genera una batería de datos para rellenar ese formulario, lo que si estamos hablando de un script automatizado puede ser muy conveniente.
Figura 5: Datos "inventados" para rellenar el formulario
Lo bueno es que si ya has analizado el formulario con el modelo, le puedes pedir que te vaya generando nuevos conjuntos de datos distintos de manera sencilla.
Figura 6: Dame más datos para otro formulario
Todas las veces que quieras, lo que permite que sea parte del script esta tarea y no de preparar o meter los datos produciéndolos manualmente, aleatoriamente o usando conjuntos de datos que se tengan compilados de otras fuentes.
Figura 7: Más datos para otro formulario
Como os podéis imaginar, esta capacidad está bien para los temas que he puesto al principio, pero también permite hacer scripts de
QA para
Tests, o hacer
Fuzzing de datos en pruebas de
Hacking a Aplicaciones Web, ya que le puedes pedir que te cree direcciones de correo electrónico únicamente.
Figura 8: Una lista de direcciones de correo con personas
Llegado a este punto, me surgieron muchas preguntas, muchas dudas, y se abrieron nuevas puertas que quiero cruzar a ver dónde me llevan. La primera de las preguntas que me surgió tiene que ver con lo veraces que parecen los datos que en todas las capturas que os he dejado podéis leer. Son direcciones de e-mail de dominios que es probable que existan o que ya existen. En el caso de que ya existen - y lo he comprobado -, ¿podría ser alguno una leakage de datos del entrenamiento LLM?
Recordad que hace un año publiqué el artículo de "
Análisis de Filtración de Información Personal en Large Language Models" que hablaba exactamente de estos casos. Y aunque no lo fueran, esta capacidad de generar datos tan fácilmente podría utilizarse para hacer "
e-mail guessing" y encontrar direcciones de correo electrónico de objetivos de manera automatizada.
Figura 10: e-mail address guessing para Chema Alonso
Pero también puede ser sin querer GPT4 esté generando datos que sean reales y que lleve a una persona u organización a tener un problema por que haya inventado unos datos públicos. Es decir, si yo publico información inventada por mí en mi blog y luego resulta que es verdad y son datos que, por casualidad, significan el descubrimiento de datos personales... ¿pasa algo? Y aún me quedan algunas más preguntas que voy a probar antes de seguir compartiéndolas con vosotros...
¡Saludos Malignos!