
El Data Scientist, un talento escaso
Los data scientists son actualmente el perfil más demandado del mercado según el mayor portal de empleo especializado, y parece que lo seguirán siendo durante los próximos años. Pero las funciones de estos profesionales están en constante cambio acorde a la evolución y nuevos desarrollos de la IA.
El trabajo de los data scientists empieza por la carga de transformación de datos y un 80% de su jornada suele estar ocupada por el preprocesamiento de datos, como es transformar variables, elegir las que mejor funcionan, generar nuevas, etc.
El resto del tiempo, estos profesionales se encargan de la selección del algoritmo de aprendizaje automático más adecuado, de determinar las múltiples opciones que existen y de encontrar qué combinación funciona mejor para el problema que quieran resolver. También emplean su tiempo ajustando los parámetros mediante la configuración para ser capaces de obtener mejores resultados y por último decidiendo cuál es la mejor solución mediante la evaluación de las distintas métricas o análisis de sensibilidad, entre otras maneras de valorar los distintos modelos. Por cada problema que quieren resolver, los data scientist se ven obligados a encontrar una solución específica e individual, lo que plantea la duda de si existe una forma de resolver un problema sin tener que realizar siempre todos estos pasos.
Como expone nuestro profesor Diego García Morate, la respuesta a esta cuestión es negativa, lo que se confirma con el teorema de no free lunch. Este teorema explica que no existe un algoritmo que arroje una solución óptima a cualquier problema. Esto significa que si queremos encontrar la solución idónea para cada problema nuevo tendremos que vernos obligados a evaluar distintos algoritmos y a encontrar una combinación que nos proporcione los mejores resultados. Pero este ejercicio de probar distintos algoritmos para ver cuál es el más eficiente, es un proceso parecido al que hacemos cuando entrenamos un algoritmo. De alguna manera lo que se hace en este caso es resolver un problema de búsqueda para encontrar la mejor solución, lo que plantea una nueva pregunta, ¿se puede modelizar este problema?
Diego García Morate plantea para tratar de resolver esta cuestión la función fbúsqueda(espacio de soluciones)= “mejor solución”, que se resuelve mediante una función de búsqueda, un espacio de soluciones y una métrica de evaluación que nos permita ver cuál es la mejor opción.
Este tipo de técnicas que hemos definido se denominan AutoML, un proceso sistemático y automatizado de búsqueda de soluciones con machine learning. AutoML intenta automatizar mediante este proceso un gran conjunto de combinaciones para seleccionar las mejores. Automatizar este trabajo reduce la barrera de entrada a no profesionales a procesos de data science como entrenar modelos, además de aportar un sistema racional y científico a los data scientists a la hora de evaluar distintos modelos. Permite que los data scientists puedan sistematizar los procesos de preprocesamiento y el ajuste de modelos para centrarse en los resultados. La única desventaja es que convierte horas de data science por enormes cantidades de cómputo.
Se trata de un proceso que ha ganado gran importancia desde 2019 y que actualmente para poder utilizarlo existen bibliotecas y servicios abiertos. Existen paquetes de phyton que se pueden utilizar con recursos propios, además de startups y servicios de AutoML directamente desde internet.
AutoML suena muy interesante, pero tiene una limitación fundamental. AutoML se limita a recombinar bloques, por lo que el espacio de soluciones está formado por composición de elementos ya existentes. Esto hace plantearse si se pueden utilizar AutoML para crear bloques y que escriba algoritmos de machine learning directamente. ¿Se puede modalizar este problema como un problema de búsqueda?
La respuesta es sí, existe un proyecto de Google llamado Auto ML Zero que es capaz de encontrar algoritmos de machine learning escribiendo código desde cero. Su enfoque está basado en algoritmos genéticos capaces de generar aleatoriamente en una primera iteración código y con una métrica de evaluación ir probando distintas combinaciones de código en un esquema muy optimizado de manera que este algoritmo sea capaz de escribir nuevos algoritmos. Lo interesante es que con mucha capacidad de computación y muchas iteraciones es capaz de descubrir automáticamente conceptos como una regresión lineal. Es capaz entonces de deducir autónomamente una regresión lineal y muchos otros conceptos como el learning rate el descenso del gradiante hasta el punto de que es capaz de descubrir una red neuronal sin la intervención de ningún humano.
Para poder ejecutarlo necesita entre 10 y 15 minutos para sacar el código de la red neuronal de manera totalmente automática, es concebido comúnmente como la evolución del machine learning.
AutoML es muy interesante para los data scientists no por el concepto de automatizar y resolver todo automáticamente, sino porque aporta un enfoque sistematizado a la hora de realizar este tipo de modelos. Permite realizar este tipo de evaluaciones mediante un proceso más cercano al método científico. Pero a la vez, esta función lanza la pregunta de si AutoML puede llevar a acabar con los data scientists.
Diego García Morate mantiene que AutoML no conducirá al fin de los data scientists. Aunque es cierto que su trabajo estará más enfocado al uso de estas herramientas y mucho más enfocados a conocer los datos y su naturaleza. El cambio sí que se verá en que estos profesionales pasarán de escribir código a utilizar estas herramientas para ello y poder así centrarse en el resultado.
La lección como especialista en la materia que resalta Diego García Morate es que los investigadores de IA a menudo tratan de incorporar conocimiento a los algoritmos que hacen, pensando que combinando algoritmos se obtendrán mejores resultados. Esto a corto plazo puede ayudar, pero a largo plazo esta estrategia se estanca, ya que de alguna manera no consigue que los agentes aprendan por sí mismos y a su manera. El progreso revolucionario llega mediante un enfoque opuesto basado en escalar el cálculo por búsqueda y aprendizaje.
Si quieres aprender más sobre AutoML y ver una demo sobre cómo aplicarla con TPOT no te pierdas la Masterclass donde nuestro profesor Diego García Morate analiza algoritmos de AutoML y prueba su eficiencia. En MIOTI, el primer instituto tecnológico aplicado a los negocios y referente en formación especializada en data science, deep learning, Internet of Things y eBusiness, colaboramos día a día en la formación de los futuros profesionales que serán los protagonistas del desarrollo de la disciplina del Data Science. Consulta todos los programas de aprendizaje que ofrecemos y forma parte del cambio que la aplicación de data science plantea.