Netflix, Data Science sin fronteras

Estos dos últimos meses han sido muy duros. Nunca es fácil un cambio de trabajo y más si viene acompañado de un cambio de ciudad. Lamento no haber podido mantener mi compromiso de escribir cada dos semanas, pero ya estoy establecido y voy a proseguir con este reto personal.

En el último blog os comenté que os hablaría de kaggle, pero no tiene sentido que lo haga sin antes hablaros de Netflix, la empresa de contenido digital que ha comenzado a operar en España en Octubre de 2015.

Pero, ¿Por qué Netflix?

La historia comienza cuando Netflix crea CineMatch un sistema de recomendación que ofrece contenidos atractivos para un usuario en función a sus valoraciones de otros productos y su relación con las valoraciones de otros usuarios. La idea de los sistemas de recomendación es sencilla, por ejemplo, si en un supermercado un cliente llamado Juan compra fresas y todos los clientes que compran fresas también compran nata, sería razonable ofrecerle a Juan un bote de nata junto con sus fresas.

Amazon

Esta idea tan sencilla esconde un área de conocimiento compleja llamada sistemas de recomendación que trata de encontrar la fórmula adecuada para conseguir entender los gustos y preferencias de los clientes.

El sistema creado por Netflix, CineMacth era muy bueno, capaz de descubrir patrones de comportamiento muy específicos. Netflix contaba con un equipo de Data Scientist muy profesional y CineMacth era un sistema de recomendación aspiracional por múltiples empresas.

Como todo modelo, una vez tienes un modelo adecuadamente decente, la mejora del mismo tiene rendimientos decrecientes, es decir, la inversión y el esfuerzo aumenta para conseguir una mejora en los resultados que además se traduce en un aumento de la complejidad del modelo.

gráfica

El reto

Netflix tuvo una gran idea, probablemente no fueron los primeros, pero si los que irrumpieron con más fuerza aprovechando la globalidad. El 2 de octubre de 2006 comenzó “Netflix Prize”, una competición mundial en abierto donde se retaba a toda la comunidad a batir a CineMacth. El premio era de 1 millón de dólares a aquel modelo que mejorase la capacidad de CineMacth en un 10%.

netflix prize

1 millón por una mejora de un 10%, parece mucho dinero, pero si pensamos en conocer a nuestros clientes, ¿Cuánto pagaríamos por detectar sus necesidades para ofrecerle el producto adecuado?

Volviendo a la competición, se daba un plazo de 5 años a la competición (hasta 2011) que podrían ser prorrogables. Al ser un reto difícil con un plazo tan largo se daban premios cada año de 50.000 dolares a aquellos modelos con una mejora considerable, para el primer año se fijo en una mejora del 1%. Se aportó a los participantes un conjunto de datos de 2,8 millones de registros de valoraciones de películas por usuarios.

En 13 días, 3 equipos ya batían a CineMatch en más de 1%, por lo que el objetivo anual se había superado. Desde Netflix no habían estimado correctamente la dimensión que podría adquirir el concurso. Pero volvamos a pensarlo, en 13 días un conjunto de personas de todo el mundo había batido años y años de trabajo, demostrando la gran capacidad que tiene actualmente el mundo globalizado y el trabajo colaborativo.

En la competición participaron 51.051 personas repartidas en 41.305 equipos distintos de 186 países distintos. Una pregunta interesante sería ¿Cuánto le hubiera costado a Netflix pagar los servicios de todos estos participantes?

El desenlace

Conforme avanzaba la competición, los participantes comenzaron a compartir ideas, técnicas, modelos y códigos que les llevaron a formar equipos de trabajo que creaban sus propias web como la que se muestra en la siguiente figura del equipo The Ensemble.

 the emsemble

donde mostraban sus modelos y resultados a sus seguidores, como esta visualización de las relaciones entre películas extraída de la página del equipo The Emsemble

visualizacion emsemble

Esta competición revolucionó el mundo del Data Science traspasando tanto las fronteras de los países como las fronteras de las empresas. Los equipos se conformaban con personas de distintos países que se habían conocido a través de los foros de la competición, nadie se fijaba en la raza, sexo, nacionalidad o religión, solamente en superar un reto.

El 26 de julio de 2009 con 2 años de antelación se batía la marca del 10% y se entregaba el premio al equipo ganador BellKor’s Pragmatic Chaos formado por dos investigadores de Comendo Research & Consulting, Andreas Toscher y Michael Jahrer, dos investigadores de AT&T Labs, Robert Bell y Chris Volinsky, una persona de Yahoo, Yehuda Koren y dos investigadores de Pragmatic Theory, Martin Piotte y Martin Chabbert.

netflix leaderboard

El final estuvo muy reñido entre dos equipo, como vemos en la figura, The Emsemble no ganó por sólo 20 minutos.

Cuando el concurso acabó, debido a la gran acogida, Netflix prometió una segunda edición pero no pudo ser debido a las leyes de privacidad de la información.

Como anécdota final, indicar que el modelo ganador nunca llegó a implementarse debido a su complejidad y es uno de los grandes ejemplos acerca de la dificultad de lograr el equilibro entre precisión y sencillez que os comentaré muchas veces. A pesar de esto, desde Netflix si implementaron una gran cantidad de ideas y submodelos incluidos en la solución final y permitió obtener una ventaja competitiva ante todos sus competidores.

Pero este no ha sido el premio mejor dotado, tras este ha habido otros llegando a los 3 millones de dólares por predecir el número de pacientes que ingresarán en una cadena de hospitales (en 2012).

health

Los cimientos creados por la competición de Netflix se han mantenido en comunidades como Kaggle: The Home of Data Science de la que hablaremos en el próximo blog.


5 respuestas a “Netflix, Data Science sin fronteras

  1. Hola, creo que nos dejamos un par de cosillas en el tintero. En el concurso de 2006 se descubrió que aplicando tecnología invera, podía deshacerse el proceso de anonimato de los datos, y acceder a los nombres de los usuarios, así como su historial. Precisamente, esto provocó que el concurso posterior de 2009 no se permitiera. Es decir, existió una negligencia total y absoluta por parte de netflix desde la perspectiva de gobernanza de dato. Saludos!

    Me gusta

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s