AutoML, ¿avance para la ciencia de datos o reemplazo de los Data Scientists?

AutoML es la automatización del proceso de construcción de modelos de Machine Learning, pero ¿conoces todas sus ventajas e incovenientes? Te cuenta todo lo que tienes que saber sobre AutoML el profesor de MIOTI, Diego García.

Los data scientists son actualmente el perfil más demandado del mercado según el mayor portal de empleo especializado, y parece que lo seguirán siendo durante los próximos años. Pero las funciones de estos profesionales están en constante cambio acorde a la evolución y nuevos desarrollos de la IA.

¿Cuáles son las funciones de los data scientists?

El trabajo de los data scientists empieza por la carga de transformación de datos y un 80% de su jornada suele estar ocupada por el preprocesamiento de datos, como es transformar variables, elegir las que mejor funcionan, generar nuevas, etc.

El resto del tiempo, estos profesionales se encargan de la selección del algoritmo de aprendizaje automático más adecuado, de determinar las múltiples opciones que existen y de encontrar qué combinación funciona mejor para el problema que quieran resolver. También emplean su tiempo ajustando los parámetros mediante la configuración para ser capaces de obtener mejores resultados y por último decidiendo cuál es la mejor solución mediante la evaluación de las distintas métricas o análisis de sensibilidad, entre otras maneras de valorar los distintos modelos. Por cada problema que quieren resolver, los data scientist se ven obligados a encontrar una solución específica e individual, lo que plantea la duda de si existe una forma de resolver un problema sin tener que realizar siempre todos estos pasos.

¿Existe un algoritmo capaz de resolver todos los problemas?

Como expone nuestro profesor Diego García Morate, la respuesta a esta cuestión es negativa, lo que se confirma con el teorema de no free lunch. Este teorema explica que no existe un algoritmo que arroje una solución óptima a cualquier problema. Esto significa que si queremos encontrar la solución idónea para cada problema nuevo tendremos que vernos obligados a evaluar distintos algoritmos y a encontrar una combinación que nos proporcione los mejores resultados. Pero este ejercicio de probar distintos algoritmos para ver cuál es el más eficiente, es un proceso parecido al que hacemos cuando entrenamos un algoritmo. De alguna manera lo que se hace en este caso es resolver un problema de búsqueda para encontrar la mejor solución, lo que plantea una nueva pregunta, ¿se puede modelizar este problema?

fbúsqueda(espacio de soluciones)= “mejor solución”

Diego García Morate plantea para tratar de resolver esta cuestión la función fbúsqueda(espacio de soluciones)= “mejor solución”, que se resuelve mediante una función de búsqueda, un espacio de soluciones y una métrica de evaluación que nos permita ver cuál es la mejor opción.

El espacio de soluciones son todas las posibles soluciones que existen en el universo. Esto incluye las posibles técnicas de preprocesamiento sobre las variables, todos los potenciales algoritmos de aprendizaje con sus variaciones de parámetros y cualquier variación sobre los datos y algoritmos que se nos ocurran.
La función de búsqueda determina qué soluciones vamos a evaluar y cuáles no. Podría realizarse por fuerza bruta o por procesos más sofisticados como son los algoritmos genéticos, basado en los principios de mutación y selección natural; la optimización bayesiana o por métodos heurísticos, entro otras opciones.
La métrica de evaluación es lo que nos va a determinar si una solución es mejor que otra. Algunas son el porcentaje de acierto, curva ROC, accuracy etc. Pueden ser basadas en resultados o por ejemplo en la simplicidad del proceso o también en aspectos de complejidad como el tiempo de CPU o el uso de RAM.

AutoML, aprendizaje automático para resolver problemas reales

Este tipo de técnicas que hemos definido se denominan AutoML, un proceso sistemático y automatizado de búsqueda de soluciones con machine learning. AutoML intenta automatizar mediante este proceso un gran conjunto de combinaciones para seleccionar las mejores. Automatizar este trabajo reduce la barrera de entrada a no profesionales a procesos de data science como entrenar modelos, además de aportar un sistema racional y científico a los data scientists a la hora de evaluar distintos modelos. Permite que los data scientists puedan sistematizar los procesos de preprocesamiento y el ajuste de modelos para centrarse en los resultados. La única desventaja es que convierte horas de data science por enormes cantidades de cómputo.

Se trata de un proceso que ha ganado gran importancia desde 2019 y que actualmente para poder utilizarlo existen bibliotecas y servicios abiertos. Existen paquetes de phyton que se pueden utilizar con recursos propios, además de startups y servicios de AutoML directamente desde internet.

¿Tiene AutoML alguna limitación?

AutoML suena muy interesante, pero tiene una limitación fundamental. AutoML se limita a recombinar bloques, por lo que el espacio de soluciones está formado por composición de elementos ya existentes. Esto hace plantearse si se pueden utilizar AutoML para crear bloques y que escriba algoritmos de machine learning directamente. ¿Se puede modalizar este problema como un problema de búsqueda?

La respuesta es sí, existe un proyecto de Google llamado Auto ML Zero que es capaz de encontrar algoritmos de machine learning escribiendo código desde cero. Su enfoque está basado en algoritmos genéticos capaces de generar aleatoriamente en una primera iteración código y con una métrica de evaluación ir probando distintas combinaciones de código en un esquema muy optimizado de manera que este algoritmo sea capaz de escribir nuevos algoritmos. Lo interesante es que con mucha capacidad de computación y muchas iteraciones es capaz de descubrir automáticamente conceptos como una regresión lineal. Es capaz entonces de deducir autónomamente una regresión lineal y muchos otros conceptos como el learning rate el descenso del gradiante hasta el punto de que es capaz de descubrir una red neuronal sin la intervención de ningún humano.

Para poder ejecutarlo necesita entre 10 y 15 minutos para sacar el código de la red neuronal de manera totalmente automática, es concebido comúnmente como la evolución del machine learning.

¿AutoML es realmente interesante para los data scientists?

AutoML es muy interesante para los data scientists no por el concepto de automatizar y resolver todo automáticamente, sino porque aporta un enfoque sistematizado a la hora de realizar este tipo de modelos. Permite realizar este tipo de evaluaciones mediante un proceso más cercano al método científico. Pero a la vez, esta función lanza la pregunta de si AutoML puede llevar a acabar con los data scientists.

Diego García Morate mantiene que AutoML no conducirá al fin de los data scientists. Aunque es cierto que su trabajo estará más enfocado al uso de estas herramientas y mucho más enfocados a conocer los datos y su naturaleza. El cambio sí que se verá en que estos profesionales pasarán de escribir código a utilizar estas herramientas para ello y poder así centrarse en el resultado.

Demostración práctica

La lección como especialista en la materia que resalta Diego García Morate es que los investigadores de IA a menudo tratan de incorporar conocimiento a los algoritmos que hacen, pensando que combinando algoritmos se obtendrán mejores resultados. Esto a corto plazo puede ayudar, pero a largo plazo esta estrategia se estanca, ya que de alguna manera no consigue que los agentes aprendan por sí mismos y a su manera. El progreso revolucionario llega mediante un enfoque opuesto basado en escalar el cálculo por búsqueda y aprendizaje.

Si quieres aprender más sobre AutoML y ver una demo sobre cómo aplicarla con TPOT no te pierdas la Masterclass donde nuestro profesor Diego García Morate analiza algoritmos de AutoML y prueba su eficiencia. En MIOTI, el primer instituto tecnológico aplicado a los negocios y referente en formación especializada en data science, deep learning, Internet of Things y eBusiness, colaboramos día a día en la formación de los futuros profesionales que serán los protagonistas del desarrollo de la disciplina del Data Science. Consulta todos los programas de aprendizaje que ofrecemos y forma parte del cambio que la aplicación de data science plantea.