Data Science para predecir el COVID-19

Hace unos días, Mario López, profesor de Data Science with Python en MIOTI, PhD en Ingeniería de Telecomunicaciones y experto en Data Engineering y Data Science, fue el encargado dirigir nuestro webinar sobre cómo el Data Science puede ayudar en la predicción de pandemias como la del COVID19. El evento tuvo como objetivo principal responder a la pregunta sobre cómo esta disciplina se puede utilizar en diferentes ámbitos para visualizar, predecir y solucionar problemas, pero también para dejar claro a los interesados que la barrera de entrada a esta tecnología es mínima y que a ella se pueden incorporar perfiles muy diversos.

o realmente atrayente para la mayoría es conocer las claves que maneja el Data Science para hace frente a una situación tan delicada como la actual. Es algo que, por fuerza, genera un interés indiscutible, y prueba de ello son las muchas acciones que se están llevando a cabo para combatir esta crisis sanitaria. Solo en Kaggle, una de las comunidades para data scientists más importantes del mundo, se han llegado a publicar más de 44.000 investigaciones profesionales relacionadas con el coronavirus. La comunidad amateur también se ha volcado publicando más de 5000 notebooks. Y las cifras, en pocas semanas, no hacen más que aumentar.

Visualizar el problema (Data Analysis)

Instituciones, universidades y compañías de primer nivel, han creado decenas de dashboards que ofrecen representaciones visuales de datos sobre la situación actual de la pandemia. Adicionalmente, también usuarios y comunidades cuyo único interés es participar y contribuir, han sido capaces de crear estas útiles herramientas.

Esto solo es una pequeña muestra de lo que en Data Science se conoce como data analysis. Para entender un problema, primero debemos ser capaces de visualizarlo. Solo así conoceremos su magnitud. Por eso resultan tan útiles los dashboards, y por eso la representación visual de datos se torna esencial.

Además, tras la aparente complejidad de estas representaciones, no se esconde una disciplina solo apta para unos pocos. Cualquiera con unos mínimos conocimientos y mucho interés, puede crear la suya (de hecho, los alumnos de MIOTI, tras solo 4 semanas de clases, son capaces de elaborar un dashboard perfectamente funcional). Unos pequeños bloques de código realizados en Python, uno de los lenguajes de programación más populares de la actualidad y el preferido por buena parte de la comunidad de data scientists, son suficientes para crear un dashboard que ayude a entender la dimensión de un problema.

A continuacón, y a modo de ejemplo, hemos destacado los siguientes por su calidad y utilidad.

Predecir su evolución (Forecasting)

Una vez que vemos y entendemos qué es lo que está pasando, llega el momento de ‘predecir’ qué va a suceder a continuación. En data sciente, esta es la fase de forecasting. Siguiendo con el caso del COVID-19, cualquiera puede llegar a pensar que, para realizar una predicción sobre su evolución, será necesario recurrir a complejas técnicas de Machine Learning, Deep Learning, redes neuronales o algoritmos complejos. La realidad es bien distinta, puesto que la mayoría de los modelos de predicción que podemos encontrar y que, en muchos casos, son los mismos que han utilizado las administraciones gubernamentales para intentar adelantarse al virus, se corresponden con el conocido modelo “SIR”. Se trata de un modelo matemático utilizado para enfermedades contagiosas creado a principios del siglo XX por Ronald Ross y William Hammer y que forma parte de un conjunto de modelos conocidos como compartamental models.

SIR, en su ramificación más sencilla, se basa en clasificar a la población en tres bloques diferenciados: aquellos susceptibles de contraer una infección, aquellos que ya están infectados, y aquellos que ya se han recuperado, englobando en este último caso tanto a los que sobreviven a la enfermedad, como a los que fallecen por ella.

Una vez hecha la clasificación, lo primero es definir las probabilidades de pasar de un estado a otro. Si, por ejemplo, un sujeto se encuentra en el bloque de infectados en un determinado día, pasará al bloque de recuperados en función de lo que dure la enfermedad. Si ésta dura 14 días, diríamos que cada persona infectada tiene, cada día, 1/14 probabilidades de recuperarse.

En el caso de querer saber las probabilidades de pasar del bloque de susceptibles al bloque de infectados, deberíamos tener en cuenta 3 factores:

La probabilidad de encontrase con alguien
La probabilidad de que esa persona estuviera infectada
La probabilidad de que esa persona infecte a otra

La probabilidad de que una persona esté infectada dependerá de la cantidad de infectados que existen sobre el total de la población. Por otra parte, la probabilidad de encontrase con alguien y la probabilidad de que, si esa persona está enferma, contagie la enfermedad, implica dos factores distintos que, matemáticamente, se modelan en uno solo. Así, podemos crear un sistema de ecuaciones diferenciales para establecer cuál es la probabilidad de pasar de un estado a otro. Como hemos dicho, muchos de los modelos y sus correspondientes variaciones tienen como base el modelo SIR.

Como ejemplo actual y cercano, tenemos el creado por Myriam Barnés, data scientist de K-Fund que, utilizando un modelo similar al SIR, pero teniendo en cuenta además variaciones por las necesidades hospitalarias, nos permite prever el pico de hospitalizaciones que habrá en diferentes países del mundo. Puedes consultar la herramienta en este enlace.

Otro ejemplo es el creado por Gabriel Goh, Machine Learning Researcher en OpenAI, que, en este caso, se basa en el modelo SEIR y que también nos permite prever el pico. Consulta la herramienta aquí.

De cualquier forma, esta es la parte más compleja. Diferentes modelos basados en distintas variables y datos arrojarán predicciones alternativas. Por eso George Box dijo aquello de que ‘todos los modelos son incorrectos, pero algunos de ellos resultan útiles’.

Solucionar el problema

Una vez que hemos logrado realizar ciertas predicciones, ¿puede aportar algo Data Science para llegar a solucionar el problema? Por supuesto. En el webinar, Mario López destacó algunas de las iniciativas que, basándose en esta tecnología, ayudan de forma determinante a la lucha contra la pandemia.

En Kaggle existe un reto que intenta contestar a 10 preguntas clave sobre el coronavirus. Para ello, se va a utilizar el datasheet leíble por una máquina más grande elaborado hasta el momento. Esto es, las más de 44.000 investigaciones y los más de 5000 notebooks publicados en la propia comunidad de Kaggle. Evidentemente, si un investigador necesita información, por muy estructurada y organizada que esté, será complicado que la encuentre entre semejante cantidad de recursos. Gracias a sistemas de procesamiento de lenguaje natural, se espera poder encontrar el trabajo o investigación que de la respuesta adecuada a cada pregunta.

Otra aplicación recurrente en estos momentos, es la de es utilizar Computer Vision para ayudar en el diagnóstico de pacientes con coronavirus. Con acceso a una serie de imágenes médicas, como escáneres y radiografías de pacientes con y sin coronavirus, se crean patrones que sirven para identificar y diferenciar a personas que hayan desarrollado síntomas provocados por el virus, de aquellas que hayan desarrollado síntomas por otra causa.

Siendo posible que aún tardemos bastante tiempo en encontrar un remedio efectivo contra el COVID-19, existe un campo de estudio que utiliza Machine Learning denominado Drug Repurposing y que busca compuestos químicos comercialmente disponibles, como los que se pueden encontrar en farmacias y hospitales, que tengan potencial para resultar efectivos contra la infección. Se busca que esos compuestos puedan anexionarse a algunas de las proteínas del coronavirus, cambiando su estructura y logrando que sea menos efectivo. Para ello, existen bancos y bases de datos en las que se encuentran registradas tanto los químicos como las proteínas con sus características codificadas. Gracias a algoritmos de aprendizaje supervisado y no supervisado, se pueden cruzar dichas características e inferir qué combinaciones pueden resultar efectivas y cuáles no.

El Data Science se ha desmarcado como una de las disciplinas más determinantes en la lucha contra las pandemias. Nos encontramos ante una tecnología cuya curva de aprendizaje es muy suave y que, lejos de requerir la intervención de perfiles excesivamente técnicos, puede ser aprendida y aprovechada por profesionales de áreas muy diversas. La mayoría de los programas de MIOTI tratan en menor o mayor profundidad esta especialización. Y es que los datos nos respaldan: los profesionales que optan por Data Science, son los más demandados del mercado laboral.