SAM 2: El nuevo modelo de Meta que redefinirá la visión artificial

Meta presenta su nuevo modelo SAM 2: el futuro de la visión artificial está aquí. ¡Lee más y explora sus posibilidades!

Meta ha anunciado recientemente el lanzamiento de SAM 2, Segment Anything Model o Modelo de Segmentación de Cualquier Cosa por su traducción al español, marcando un gran avance en el campo de la visión artificial y el análisis de video. Basándose en la base establecida por su predecesor, SAM 2 introduce capacidades innovadoras en la segmentación de objetos, mejorando tanto la precisión como la eficiencia en el procesamiento de datos visuales en imágenes y videos.

La evolución de SAM a SAM 2

El modelo original de SAM fue diseñado para segmentar objetos en imágenes con una precisión notable, utilizando IA para identificar qué píxeles de una imagen corresponden a objetos específicos. Este modelo encontró aplicaciones en diversos campos, como las ciencias del mar, la medicina y el análisis de imágenes satelitales. Además, SAM permitió nuevas herramientas impulsadas por Inteligencia Artificial (IA) en las aplicaciones de Meta, como Backdrop y Cutouts en Instagram, simplificando tareas como la edición de fotos.

Sin embargo, SAM estaba enfocado principalmente a imágenes estáticas, y el desafío de extender sus capacidades al contenido de video dinámico requería de nuevos avances. Aquí es donde entra SAM 2, un modelo unificado capaz de realizar segmentación en tiempo real tanto en imágenes como en videos, abordando las complejidades de los datos audiovisuales donde los objetos están en movimiento, pueden cambiar de apariencia y pueden estar ocultos por otros elementos en la escena.

Entre las innovaciones más destacadas de este nuevo modelo, encontramos:

Marco unificado

A diferencia de los modelos anteriores que trataban la segmentación de imágenes y videos como tareas separadas, SAM 2 ofrece un enfoque cohesivo, proporcionando un rendimiento consistente en varios tipos de datos visuales. Esta unificación agiliza el proceso de transición entre el análisis de imágenes y videos.

Segmentación interactiva

SAM 2 introduce capacidades de segmentación interactivas. Los usuarios pueden guiar la atención del modelo mediante clics, cuadros delimitadores o incluso descripciones textuales, lo que lo hace altamente adaptable a necesidades específicas y permite una identificación precisa de objetos con una entrada mínima.

Conciencia temporal

SAM 2 puede mantener el contexto a lo largo de los fotogramas de video. Esta comprensión temporal permite que el modelo rastree objetos incluso cuando están temporalmente ocultos o salen del cuadro, una característica crucial para aplicaciones como vehículos autónomos y sistemas de vigilancia.

Eficiencia y velocidad

SAM 2 demuestra una eficiencia computacional notable, requiriendo menos interacciones humanas para la segmentación de video y funcionando más rápido que su predecesor. El modelo puede procesar fotogramas de video a aproximadamente 44 fotogramas por segundo, permitiendo un análisis casi en tiempo real.

Procesamiento de alta resolución

SAM 2 puede manejar imágenes con hasta cuatro veces la resolución de los modelos anteriores, lo que lo hace adecuado para análisis detallados en campos como la imagen médica y la interpretación de imágenes satelitales.

¿Cómo funciona SAM 2 y qué aplicaciones prácticas tiene?

Este tipo de modelos de visión artificial se basan en el computer vision, un campo de la Inteligencia Artificial que se enfoca en capacitar a las máquinas para interpretar y comprender el mundo visual. En otras palabras, permite que los sistemas de IA realicen tareas que requieren «ver» y «comprender» el contenido visual de una manera similar a como lo hacen los humanos. Entre estas tareas encontramos el reconocimiento, la detección y el seguimiento de objetos. También, más enfocado al tema que nos ocupa, la segmentación de imágenes, es decir, dividir una imagen en segmentos más pequeños para identificar y clasificar diferentes partes de la misma, asignando cada píxel a un objeto específico.

Es esta capacidad es la que ha abierto numerosas posibilidad para diferentes industrias en la aplicación de SAM 2.

Edición y producción de video: SAM 2 puede agilizar el proceso de aplicar efectos visuales y editar videos, reduciendo el tiempo requerido para el trabajo de postproducción.
Vehículos autónomos: Al mejorar la detección y el seguimiento de objetos en tiempo real, SAM 2 puede mejorar la seguridad y la eficiencia de los coches autónomos, especialmente en escenarios de tráfico complejos.
Medicina: En el sector de la salud, SAM 2 puede ayudar en el diagnóstico segmentando estructuras anatómicas complejas en escaneos médicos, potencialmente identificando anomalías que podrían ser pasadas por alto por el ojo humano.
Monitorización ambiental: Los investigadores pueden usar SAM 2 para analizar imágenes satelitales con mayor precisión, permitiendo un seguimiento detallado de los cambios en el uso del suelo, el desarrollo urbano y los esfuerzos de conservación de la vida silvestre.
Realidad Aumentada (AR) y Virtual (VR): Las capacidades de segmentación en tiempo real del modelo pueden mejorar las interacciones con objetos virtuales de video en vivo.

Fuente abierta y el impacto en la comunidad

El compromiso de Meta con la IA de código abierto es evidente con SAM 2. Al lanzar el modelo y sus extensos conjuntos de datos de entrenamiento como código abierto, Meta fomenta la innovación y permite que desarrolladores e investigadores adapten SAM 2 para una amplia gama de aplicaciones, desde la investigación académica hasta proyectos comerciales.

Los extensos datos de entrenamiento, incluido el nuevo conjunto de datos SA-V con más de 51.000 videos y millones de fotogramas etiquetados, aseguran que SAM 2 esté bien equipado para generalizar en diversos contextos visuales. Este amplio conjunto de datos mejora la robustez y adaptabilidad del modelo, convirtiéndolo en una herramienta poderosa para futuros desarrollos de IA.

En definitiva, SAM 2 representa un avance más en el desarrollo de la Inteligencia Artificial general, y, más en concreto, del computer vision. En MIOTI Tech & Business School queremos formar parte de la revolución de la IA, formando a los mejores profesionales en este ámbito. Por ello, hemos desarrollado el Máster en Data Science & Deep Learning, en el que no solo conocerás los fundamentos y las técnicas más avanzadas de computer vision, sino que aprenderás la base de la ciencia de datos y aplicarás las últimas técnicas de Machine Learning y Deep Learning, base para disciplinas como la IA Generativa.