En marzo tuve el honor de asistir a la conferencia Strata+Hadoop World como premio al ser elegido mejor científico de datos de España 2016 en los Data Science Awards Spain organizado por Synergic Partners (grupo Telefónica) gracias al proyecto Sigefilms.
La conferencia se realizó en el centro de convenciones de San José, dentro de Silicon Valley, el epicentro del desarrollo tecnológico mundial, donde tantas y tantas compañías desarrollan ideas que cambian el mundo como Apple y Google entre muchas otras y universidad de las que han salido productos como Spark.
Ha sido una experiencia transformadora. Mi mente ha experimentado una explosión de sensaciones al poder interactuar con tanto talento y conocimiento. Los ponentes nos descubrieron el estado actual de todo lo relacionado con el tratamiento de información en grandes volúmenes de datos.
Además, es el sitio ideal para ampliar la red de contactos en empresas enfocadas a la gestión de la información y la extracción de conocimiento. Sin duda mantener conversaciones con los asistentes (ponentes, vendors, oyentes, …) ha sido muy enriquecedor al compartir las experiencias vividas, las técnicas utilizadas, los errores cometidos y los casos de uso afrontados.
Y lo mejor de todo, compartirlo con mi amigo Iñigo González, del que he aprendido muchísimas cosas durante todo el viaje. De hecho, tengo que agradecerle algunas de las fotos de este post que son suyas. Además, pudimos compartir una agradable conversación con Roger Magoulas de O’Really al que ya conocíamos de la entrega de premios de los Data Science Awards.
Aunque la conferencia abarcaba muchos temas relacionados con el tratamiento de la información, en este post voy a centrarme en los mensajes fundamentales de las Keynotes y en temas relacionados con la Ciencia de los Datos.
Keynotes
Los maestros de ceremonia de la conferencia fueron Roger Magoulas (padre del término Big Data e Investigador jefe en O’Really), Doug Cutting (padre de Hadoop y arquitecto jefe de Hadoop) y Alistair Croll (Fundador de Solve for interest y onmipresente en el mundo de los datos) que amenizaron la transición entre las ponencias. Un privilegio estar tan cerca de ellos.
El mensaje más repetido es el impacto de la Inteligencia Artificial en el mundo, en particular Mike Olson (CEO de Cloudera) denominó esta era como el renacimiento de la inteligencia artificial, que es posible gracias a la explosión de la tecnología.
Uno a uno, muchos de los ponentes mostraron como la Inteligencia Artificial se está utilizando para mejorar la toma de decisiones en múltiples industrias, como Daphne Koller Directora de Calico Lab, Profesora de Stanford y cofundadora de Coursera muestra como mediante técnicas de Machine Learning están analizando los cursos, con el objetivo de conocer a los estudiantes y realizar recomendaciones personalizadas. Me llama la atención como los cursos de Estadística y Ciencia de los datos se encuentran como un puente entre las ciencias (Matemáticas, Computación , Ingeniería y Física) y el Negocio (Estrategia y Operaciones).
Erik Frenkiel (MemSQL) nos mostró como se están aplicando técnicas de Inteligencia Artificial para reconocimiento de imágenes y procesamiento en tiempo real utilizando Tensorflow.
Tom Reilly (Cloudera) y Khalid Al-Kofahi (Thomson Reuters) trataron como se están utilizando estas técnicas de Inteligencia Artificial para analizar la veracidad de las noticias en tiempo real.
Andra Keay (Sillicon Valley Robotics) mostró las características que tienen que tener los robots y cómo estamos robotizando todos los objetos, como los coches para que tomen decisiones automáticas mediante técnicas de machine learning.
Y el impacto que tendrá la gestión de la ingente cantidad de información que se generará.
Vijay Narayanan (Microsoft) contó los avances en el diagnostico y la cura de enfermedades, que está surgiendo gracias al uso del Machine Learning junto con información del ADN secuenciado y la técnica desarrollada entre el MIT, Harvard y Microsoft llamada CRIPR-ML.
Desiree Matel-Andersen (The Field Innovation Team) mostró como el uso de técnicas predictivas en tiempo real ayuda a salvar vidas ante desastres naturales.
Por último, Rob Craft (Gloogle) hizo un repaso de las técnicas de Inteligencia Artificial y los avances que se están realizando en los diferentes campos que engloban esta disciplina focalizándose en el Machine Learning.
Herramientas para Ciencia de los Datos
Muchas de las charlas se centraron en mostrar la evolución de las distintas tecnologías disponibles para el tratamiento dela información en la Ciencia de los Datos y casos de uso que se habían conseguido gracias a estas tecnologías.
En entornos distribuidos, si se quiere realizar ciencia de los datos casi todo el mundo consideraba Spark como el motor a utilizar para el tratamiento y Kafka como el gestor en la ingesta y distribución de información. Pero donde había división era en la parte del modelado donde a partes iguales había defensores de utilizar algoritmos de H2O o utilizar la librería MLib. Donde no había duda era en la solución a problemas asociados a imágenes donde Tensorflow acapara todos los focos. En la parte del tratamiento de datos, Python está perdiendo algo de fuerza frente a Scala y R, este último está cogiendo mucha fuerza, en la parte de modelado, por la proliferación de algoritmos paralelizados de R sobre Spark (muchos de ellos desarrollados por RStudio) y su fácil integración con Spark y H2O.
Lo que me ha quedado claro es que habrá que estar muy atentos a las evoluciones para no quedarse estancado en tecnologías obsoletas. De hecho, Michael Jordan director, junto con Ion Stoica y Michael Franklin de AMPLab (responsable de Spark entre otros desarrollos sobre Hadoop), avisa que tienen investigadores trabajando en Ray, un nuevo sistema enfocado a la resolución de problemas de Inteligencia artificial que sustituiría a Spark.
Así que cuando la mayoría de las empresas están comenzando a plantearse utilizar Spark ya hay personas desarrollando alternativas más eficientes.
Pero lo más emocionante fue poder disfrutar de la charla de Carlos Guestrin sobre la interpretación de los algoritmos conocidos como “caja negra”. Carlos Guestrin es profesor en la Universidad de Washington y creador de la plataforma turi/dato comprada por apple hace unos meses. Además es profesor de la especialización de Machine Learning de Coursera de la que soy Community Teacher Assistant y Mentor.
Plataformas
Aparte de charlas, seminarios y conferencias, el congreso tenía un inmenso expo hall, donde las principales compañías relacionadas con el tratamiento de información presentaban sus soluciones y servicios.
Desde mi punto de vista, el producto estrella de la conferencia en el que están apostando casi todos los vendors son las plataformas de gestión del Data Science.
Cuando uno trabaja en la ciencia de los datos en solitario está acostumbrado a utilizar múltiples herramientas, algoritmos y técnicas en función al problema. Esta aproximación es muy complicada y difícil de gestionar en una compañía cuando los equipos de trabajo aumentan de tamaño. A la dificultad del gobierno del dato y de las herramientas tecnológicas hay que sumar la gestión de las versiones de los documentos, los permisos y la gestión del conocimiento que queda en la empresa.
A todo esto hay que sumarle la gestión de las diferentes librerías que uno puede utilizar para resolver cualquier problema, esto que es lo grandioso del open-source es un verdadero quebradero de cabeza en las compañía que quieren que el conocimiento analítico se comparta entre los científicos de datos y los trabajos sean trazables.
Estas plataformas tratan de resolver estas problemáticas de las empresas con distintos enfoques y con mejor o peor resultado en función a las necesidades particulares.
Mi mayor diversión en la conferencia ha estado en sentarme en cada uno de los stands de los vendors a probar sus plataformas. Si una empresa quiere escalar la gestión del conocimiento en Ciencia de los Datos más allá de un proyecto tiene que pensar en introducir una buena plataforma como las que presentan Microsoft, Cloudera, Data Science, Domino Data Lab, Dataiku, Data Robot, IBM y RStudio y una buena metodología de gestión. La ventaja de acudir a estos eventos es que puedes sentarte con personas que han desarrollado estas plataformas, comentarte los detalles y adelantarte las próximas evoluciones. Os adjunto ejemplos de las paltaformas Cloudera, Microsoft y Domino Data Lab respectivamente:
Desde mi impresión todas las plataformas están a un nivel aceptable para permitir el desarrollo ordenado de la ciencia de los datos en las compañías aunque cuando se realiza un análisis más detallado podemos preferir una u otra en función a las necesidades de la empresa y las capacidades de los propios científicos de datos, unas se centran en la facilidad de uso limitando las posibilidades, otras en tener algoritmos más complejos y eficientes que obtengan mejores resultados y otras en permitir al usuario gestionar cualquier recurso con cualquier solucion open source sin limitaciones.
Carlo Appugliese de IBM me enseñó la plataforma IBM Data Science Experience una semana antes de su lanzamiento oficial en España al que tuve el inmenso privilegio de acudir en calidad de ponente para hablar sobre la ciencia de los datos y los retos a los que se enfrentan las empresas.
Perfiles relacionados con la Ciencia de los Datos
La ciencia de los datos está comenzando a normalizarse y ya se van dibujando los diferentes roles que participan en el tratamiento, modelado, desarrollo y gestión del dato y las actividades de soporte. Durante una conferencia vi un cartel con explicaciones de diferentes perfiles que me gustó ya que creo que ayuda a definir los diferentes perfiles.
Startups Showcase
También hubo un espacio especial para aquellas startups que quieren mostrar sus modelos de negocio basados en la gestión de los datos a la comunidad.
Quisiera destacar la empresa SparkSheet cuya misión es transformar las fórmulas de Excel en fórmulas en Scala para que puedan consumir datos de arquitecturas distribuidas en Spark para que los usuarios ofimáticos puedan trabajar sobre estos sistemas de la forma en la que están habituados mediante Excel. Su CEO Oscar Castañeda nos lo explicó muy claramente. Es una empresa que habrá que seguir de cerca.
Se realizó una votación para seleccionar las mejores que fueron las siguientes:
En tercera posición quedó Repable, que ha desarrollado una plataforma social focalizada en gaming y sports. En esta plataforma estás al día de los últimos juegos, puedes ver partidas por streaming, grabarlas y realizar torneos. Fundamental para los amantes del League of Legends entre otros.
En Segundo lugar, Gluent presenta una solución basada en Hadoop que centraliza toda la información alojada en los silos de las compañías, pero con el valor añadido que las aplicaciones que consumían dicha información funcionan sin necesidad de cambios realizando la transición a sistemas distribuidos hadoop de forma sencilla. Además, las aplicaciones pueden enriquecerse con nueva información alojada en esta solución.
La ganadora fue Nexla, que ha desarrollado una plataforma para la ingesta y publicación de información que permite minimizar el tiempo de integración, ingesta y tratamiento de información para que los científicos de datos puedan emplear el máximo tiempo posible en los algoritmos de Machine Learning y en resolver los problemas del negocio. Su VP Business, Jarah Euston nos descubrió los detalles.
No todo son datos
También tuvimos tiempo para poder disfrutar de San José y sus viviendas unifamilares
Sus edificios históricos
Vivir el ambiente de un partido de los San Jose Sharks en el SAP Center
y las zonas de los alrededores
Disfrutar de la gastronomía:
O visitar San Francisco, donde disfrutamos de un paseo muy agradable, visitando algunos sitios emblemáticos como el estadio de los San Francisco Giants
Y otros más tecnológicos como la sede de Mozilla
El último día aprovechamos para realizar una visita al museo de la computación donde puedes realizar un viaje en el tiempo que te permite conocer y comprender la evolución de la computación desde los ábacos hasta las actuales computadoras. Es un privilegio poder ver una máquina enigma
un supercomputador Cray-1
el centro de computación con tarjetas perforadas
y formatos clásicos que me traen grandes recuerdos
como contraste a la historia del museo, a la salida nos encontramos la modernidad
Un viaje apasionante e inolvidable posible gracias al proyecto Sigefilms que me valió el premio de los Data Science Awards Spain organizados por Synergic Partners (grupo Telefónica).
Espero haberos trasmitido parte de la emoción sentida en este increíble viaje en el que se nos ha contagiado ese ambiente emprendedor y analítico que consigue que se desarrollen las ideas. Todo un privilegio.