miércoles, julio 10, 2024

Anthropic Claude 3.5 Sonnet & Cognitive Captchas

Recientemente Anthropic ha liberado Claude 3.5 Sonnet, y mientras que estaba en mi habitación de Santiago de Chile, decidí darle un visto a su funcionamiento. Por supuesto, si miramos los resultados que se dan de los diferentes Benchmarks, los resultados de este nuevo modelo son espectaculares, sólo superados por GPT-4o en algunos de ellos.

Figura 1: Anthropic Claude 3.5 Sonnet & Cognitive Captchas

Pero como a nosotros nos interesan otras cosas, he ido a probar otras cosas, como los Captchas Cognitivos y ver cómo se desempeña con algunos de los más difíciles que hemos ido testando los últimos meses, a ver si es tan bueno cómo dice.
Para la prueba he ido a los que más guerra han dado a los diferentes, modelos, pero os dejo aquí las referencias a todas las pruebas con Captchas Cognitivos que he ido recapitulando.
El primero de los que he querido probar ha sido el  Captcha Cognitivo Visual del Tren en Twitter (X) que Anthropic Claude 3.0 Opus NO resolvía bien, en este caso parece que aunque ha mejorado NO lo resuelve perfectamente a la primera.
Es un reto complicado, pero en este caso GPT-4o se lo merienda perfectamente, así que en este caso estaría por encima GPT-4o y tiene que mejorar aún esta capacidad nuestro querido Anthropic Claude 3.5 Sonnet.

Figura 4: El reto del Tren le confunde y no sigue bien la vía del tren y Anthropic Claude 3.5
Sonnet  responde que para ir desde la E a la D hay que pasar antes por la C. Fail.

En el segundo de los retos que quería probar es de los textos deformados que es tan común, que ha sido la base de Google reCaptcha muchos años - y que nosotros nos saltábamos con la prueba de audio de accesibilidad usando un Cognitive Service de Voice-To-Text -



Figura 6: Anthropic Claude 3.5 Sonnet confunde I41U con 149U. Falla.

En el caso de Anthropic Claude 3.5 el resultado ha sido similar, y no he conseguido que a la primera lo resuelva. En el primer caso falla con el reconocimiento de un número, en el segundo caso falla con 

Figura 7: Anthropic Claude 3.5 Sonnet confunde
PHxX con PHXX. Falla por poco.

Y enviándoselo con el pre-procesado, lo ha resuelto bien dándole el prompt adecuado que vimos en el solucionario del reto.
aaa
Figura 8: Claude Anthropic 3.5 Sonnet lo resuelve con pre-procesado
y promting explicativo.

El último de las pruebas la hice porque nuestro querido DotCSV publico una imagen del Captcha Cognitivo de HBO max que ya resolví con la plancha y la mano, en este caso con una silla, y la verdad es que lo resuelve pero con una "pequeña" ayuda.
En mi caso, el reto era una plancha, y para automatizarlo bastaba con preguntar si apuntan en la misma dirección o No, y resolver o mover la imagen. 

Figura 10: En este caso hay que resolverlo con una silla

En este caso con la silla, para los seres humanos parece evidente que el frente de la silla es el asiento, y la parte trasera es el respaldo, pero a Anthropic Claude 3.5 Sonnet ha habido que explicarle esto para que lo pudiera resolver.

Figura 11: Anthropic Claude 3.5 Sonnet lo resuelve explicándole
que el asiento es adelante y el respaldo es atrás.

Una vez explicado eso, lo resuelve, pero no a la primera. Eso sí, todos los resultados son "promising" y hacen que incluso fallando estas resoluciones se pudiera hacer "fine-tunning" de las pruebas y conseguir saltarse los Captchas Cognitivos de forma automatizada utilizando esta versión de Anthropic Claude 3.5 Sonnet... pero haciendo más trabajo. Esperemos más avances.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

10 maneras de sacarle el jugo a tu cuenta de @MyPublicInbox si eres un Perfil Público

Cuando doy una charla a algún amigo, conocido, o a un grupo de personas que quieren conocer MyPublicInbox , siempre se acaban sorprendiendo ...

Entradas populares