Un informático en el lado del mal: Una historia de la estrategia Data-Centric para ser Data-Driven Decisions: Parte I

Muchas veces he tenido que explicar la visión que como compañía teníamos en Telefónica de ser una organización Data-Centric. Es normal, desde junio de 2016 soy el Global CDO (Global Chief Data Officer) y por tanto es mi responsabilidad decidirla, aplicarla y, como no, explicarla. Sin embargo, no es algo que naciera conmigo, ya que como empresa esta visión venía de unos años antes de que llegara yo.

Figura 1: Una historia de la estrategia Data-Centric para ser Data-Driven Decisions: Parte I

Y para mí es bonito contar la historia, porque ha habido mucha gente, grandes profesionales, trabajando en ella desde el inicio, hasta hoy, y creo en que explicar las cosas siempre es bueno. Así que para que entendáis bien el origen, y lo que hemos ido haciendo, voy a utilizar una serie de posts en mi blog para explicaros esto, que no hay nada que no se pueda compartir, que ya he hablado de todo esto que voy a escribir en muchas conferencias.

La Edad "Antigua" 2009 - 2013 : Los primeros pobladores del Big Data

En la compañía, las primeras unidades que comenzaron a utilizar BigData vienen de hace mucho tiempo. De años antes de que llegara yo tan siquiera a la compañía. Por un lado, en lo que nosotros llamamos las Operaciones Locales, es decir, en nuestras Telefónicas de España, Brasil, UK, etcétera. En todas ellas, como evolución del negocio, se comenzaron a completar los entornos de Bases de Datos Relacionales y File Systems a entornos de BigData. En muchos casos solo para almacenar grandes volúmenes de datos con bases de datos NoSQL y sacar reportes que ayudaran al negocio, pero también con la construcción de Data Lakes con información no estructurada. Con más o menos automatismo, las tecnologías de BigData están en todos los países funcionando desde hace años.

Por otro lado, en la parte de Innovación. Los equipos, por aquel entonces de Telefónica I+D comenzaron a desarrollar las primeras plataformas que, utilizando datos anonimizados, agregados y extrapolados, generaban insights de negocio con lo que se podían hacer productos comerciales. Sí, el embrión de lo que luego sería LUCA años más tarde. Era el año 2012 y nacía una pequeña unidad llamada Telefónica Dynamic Insights.

Como se puede ver, tanto en la parte del día a día del negocio, como en la parte de Innovación, muchos años antes de que yo tuviera el honor y la suerte de ser nombrado Global CDO, en nuestra empresa ya había mucho trabajo andado en Big Data.

La "Edad Media" 2014-2016: El nacimiento Data-Centric

En el año 2014, después de que tanto SmartSteps & SmartDigits - primeros productos nacidos del área de Innovación de Telefónica Dynamic Insights - y las unidades de Business Intelligence en las operaciones locales, demostraran más que sobradamente el valor de las tecnologías BigData, nace la visión de ser una compañía Data-Centric con control de los datos por parte de los usuarios.

Figura 2: SmartSteps en Smart Cities Expo 2014
En ese momento nace la Unidad de Global BI & Big Data, para coordinar los esfuerzos del grupo en ser una compañía que pusiera orden y control en todos los datos que se generan en Telefónica. Es el embrión de lo que sería, justo al año siguiente, la unidad CDO, que nacería en el año 2015. En concreto, en septiembre de 2015 se anunció su nacimiento, de la mano de Ian Small, que aglutinaría la unidad de Global BI & BigData que llevaba Elena Gil (nuestra actual CEO de LUCA) más las áreas de Innovación donde había nacido años atrás SmartSteps & SmartDigits, más las áreas de productos y servicios de seguridad de la información que llevaba yo.

La "Edad Moderna" 2016-2018: El mapa del tesoro

La evolución del trabajo de estos años se plasmó en la visión de lo que queríamos ser en Telefónica. Se hizo con un esquema, un dibujo, que yo siempre utilizo como inicio de todas mis explicaciones. Es el mapa de lo que queríamos ser en la compañía y lo utilizo para contar todo lo que hemos hecho hasta ahora, cómo lo hemos hecho, y por qué lo hemos hecho así.

Figura 3: El mapa de la 4ª Plataforma para ser Data-Centric

Tal vez a priori ese esquema parezca un poco complejo, pero si me dejáis que os lo explique por partes veréis que tiene mucha lógica. De hecho, esta visión no solo es válida para Telefónica, sino para cualquier otra empresa que tenga una situación similar. Es decir, que quiera sacar lo máximo del dato. Esta diapositiva la he utilizado en muchas conferencias en las que he hablado de BigData + AI en la casa.

Figura 4: Visión de la 4ª Plataforma en 2015 durante la construcción de la unidad CDO
La única parte que falta en esta visión es remarcar un punto de control que me parece fundamental, con el objeto de conseguir no solo generar conocimiento, sino conseguir hacer acciones en nuestra red. Es decir, los interfaces de actuación estandarizados desde los casos de usos generados con datos hasta los sistemas de Telefónica. Algo que os contaré un poco más delante y que en el dibujo se ve como un par de flechas a la izquierda del esquema que bajan desde los casos de uso.

Desmembrando el mapa del tesoro: La generación de datos

En el esquema esta parte se ve en la zona inferior. Son los puntos donde se generan los datos en nuestra compañía. Son lo que nosotros conocemos como la Primera Plataforma (Mundo físico), la Segunda Plataforma (Sistemas para gestionar nuestra plataforma OSS/BSS & CRM/CC) y Tercera Plataforma (Productos y Servicios Digitales, como Vídeo, Cloud, Seguridad, IoT, etc…). Es por eso que a la plataforma construida sobre los datos unificados la llamamos la 4ª Plataforma.

Esta parte es la zona donde se generan los datos, con gran variedad de tipos. Y son almacenados en múltiples repositorios que deben ser centralizados y catalogados. En esta parte, es donde entran datos que vienen desde otras compañías u repositorios, desde datos de ciberseguridad, datos públicos, etcétera, que se usan en los servicios de análisis de la información. Pueden ser datos de audiencias de programas de TV, fuentes de ciberseguridad, datos de tráfico mundiales, información de dominios fraudulentos, etc… Datos, que se utilizan en la Primera, Segunda y Tercera Plataforma.

En esta parte del esquema se explica que esos datos deben ser recogidos, pero quedaban grades debates por responder que tuvimos que lidiar en el año 2016 para acometer la visión global.

1.- ¿Deben almacenarse en una gran base de datos Global y común o en Local?

2.- ¿Deben almacenarse en local y enviarse una copia a Global?

3.- ¿Deben almacenarse en local y mandar insights a Global?

4.- ¿Deben los algoritmos de Machine Learning/Deep Learning correrse en global y pedir los datos o en local y enviar los algoritmos?

5.- ¿Deben normalizarse los datos para almacenarse con el mismo formato en local?

6.- ¿Deben normalizarse los datos en Global y ser distintos en local?

7.- ¿Deben normalizarse solo los insights?

8.- ¿Deben almacenarse en un producto de BigData concreto?

9.- ¿Serán Cloud Pública, Híbrida u "On-Premise"?

10.- ¿Trabajaremos en entornos IaaS o nos vamos a un PaaS que nos de todo el stack integrado e independiente?

Estas son solo algunas de las preguntas de lo que yo llamo "fontanería fina", pero son muy relevantes a la hora de construir algo sobre la 4ª Plataforma. Para eso hay que tener en cuenta muchas cosas que son inherentes a la generación de los datos, la regulación local, la dependencia con los proveedores tecnológicos que quieras permitirte, etcétera. Muchas cuestiones en las que hay que coordinar a muchas personas, muchas regulaciones y, lo que es más importante, muchas visiones distintas.

Pero esa es parte de la responsabilidad de la unidad CDO, así que tomamos nuestras propias decisiones, que os paso a contar por aquí someramente, ya que fueron meses de trabajo alineando regulación, IT, negocio, C-Level, abogados y capacidades tecnológicas presentes y futuras, para ir respondiendo a todas y cada una de esas preguntas. Y es intenso y emocionante.

Desmembrando del mapa: Las respuestas a las preguntas

Como os podéis imaginar, cada una de las preguntas que os he puesto implica muchas cosas. Muchas premisas, muchas ventajas e inconvenientes que había que asumir. Algunas de ellas te condicionarían a corto, otras a largo, otras simplemente serían barreras para continuar.

Figura 5: Gestión de datos en la generación de datos

Pero la ausencia de decisiones es una toma de decisión en sí mismo, así que comenzamos a ir respondiéndolas con cariño.

¿Dónde almacenaríamos los datos? La decisión fue que los datos se deberían guardar en el país de origen. Estos nos eliminaría barreras legales, regulatorias y los reparos que pudieran surgir ante una brecha de seguridad global. Así, en global solo se transmitirían datos anónimos, agregados y/o extrapolados cuando fuera menester.

¿Reutilizar los entornos ya creados o crear nuevos? Visto lo anterior, decidimos que esto debía ser una elección del país, midiendo el impacto de los cambios en los sistemas ya existentes, y decidiendo cómo llegar al modelo de datos normalizados.

¿Dónde correrán los algoritmos? Los algoritmos en producción correrán en local, pero para ello todos los datos que corran en local deberían estar normalizados con un modelo único de datos de referencia. Es decir, los algoritmos que se construyeran sobre los nuevos entornos de BigData para ser Data-Centric, deberán estar normalizados en su modelo de datos.

¿Cloud Pública, Híbrida, "On Premise? Esta es una decisión que decidimos, desde el momento en que pensamos que el modelo de almacenamiento debería ser en local, cada país debería poder decidir. No solo como una cuestión de soberanía del dato, sino por una cuestión de configuración del entorno tecnológico y regulatorio de cada región. Mientras los datos estuvieran normalizados para correr a nivel grupo los mismos algoritmos de generación de Insights, el debate se trasladaría a las unidades BigData en las operaciones. En cualquiera de los tres modelos podría ser.

La realidad es que con la proliferación de Data Centers de los principales entornos Hiperscale de Cloud, se podían elegir Cloud Públicas con presencia en el país, como es el caso de UK, Alemania o Brasil. En otros países, existían soluciones de Hybrid Cloud desplegadas ya entre las capacidades de nuestra compañía, en otros se podrían utilizar Public Clouds directamente y, por supuesto, en todos los países contamos con Data Centers locales.

¿Qué proveedor de Cloud? ¿IaaS o PaaS? Los proveedores de Public Cloud hoy en día son conocidos por todos. Amazon, Azure, Google Cloud, Open Stack en múltiples compañías - incluido OpenCloud -. Y en Hybric Cloud otros tantos, desde los que te proveen compañías con OpenStack como Huawei (por citar uno y no una lista enorme), hasta los que tenemos en muchas empresas con VCloud de WMWare. Elegir un entorno Cloud es algo que genera mucho debate en todas las compañías. Mi visión es evitar el Vendor Locking con cualquiera de ellos, para poder pasar de uno a otro o poder elegir entornos mixtos de cloud. Esto tiene ventajas e inconvenientes.

Irte a un entorno PaaS (Platform as a Service) es lo más rápido, quizá, ya que tienes todas las herramientas de gestión del dato ya preparadas. Desde la ingesta hasta la generación de insights con herramientas de creación de insights con Machine Learning as a Service. Esto te da velocidad a corto, pero te hace dependiente del proveedor en las herramientas. Muchas veces, en las herramientas de DevOps, de Gestión de la seguridad, etcétera. Esta es una bonita discusión que hemos ido teniendo a lo largo de muchos meses en muchos países. Y en cada país hemos ido teniendo que entender la situación local, las necesidades a corto y las evoluciones a medio y largo plazo.

Desde el momento en que decidimos que los datos debían estar en local, - ya he explicado en muchos de los puntos anteriores nuestra visión - y que los algoritmos correrían también allí, estaba claro que los datos debían ser normalizados en local, lo que responde a una de las grandes decisiones. Y esto nos generó otro debate más práctico que filosófico para actuar rápido:

¿Cómo ponemos en el día a día de las profesionales que tienen unos objetivos que cumplir de negocio un proceso nuevo que solo tiene como finalidad el almacenamiento de los datos de una forma diferente?

Habría que incentivarlo con algún objetivo que diera más valor. Pero todo eso os lo cuento en la siguiente entrada de esta historia.

Saludos Malignos!

*************************************************************

- Data-Centric para ser Data-Driven Decisions: Parte I
- Parte II "La Estrategia de la Margarita"
- Parte III "La creación de YOT"
- Parte IV "La llegada de AURA"
- Parte V "La puesta de largo de AURA"
- Parte VI "El end-point móvil"
*************************************************************

Un informático en el lado del mal

lunes, febrero 19, 2018

Una historia de la estrategia Data-Centric para ser Data-Driven Decisions: Parte I

No hay comentarios:

Publicar un comentario