Multispectral airborne laser scanning for tree species classification: a benchmark of machine learning and deep learning algorithms

Este estudio presenta una evaluación comparativa que demuestra que los métodos de aprendizaje profundo basados en puntos, en particular el modelo Transformer, superan a las técnicas tradicionales y basadas en imágenes para la clasificación de especies arbóreas utilizando datos de escaneo láser aerotransportado multiespectral de alta densidad en Finlandia.

Josef Taher, Eric Hyyppä, Matti Hyyppä + 46 more2026-02-18💻 cs

Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

El marco MINT supera la escasez de datos biomédicos multimodales de alta calidad al alinear modelos de lenguaje unimodales con patrones de decisión especializados mediante optimización de preferencias, logrando un rendimiento superior en tareas como la predicción de enfermedades genéticas y la clasificación de tejidos.

Zhanliang Wang, Da Wu, Quan Nguyen + 2 more2026-02-18🧬 q-bio

APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

El artículo presenta APCoTTA, un marco innovador de adaptación continua en tiempo de prueba para la segmentación semántica de nubes de puntos LiDAR aéreas que combina selección de capas impulsada por gradientes, regularización basada en entropía e interpolación estocástica de parámetros para mitigar el olvido catastrófico y la acumulación de errores, validado mediante dos nuevos benchmarks que demuestran mejoras significativas en el rendimiento.

Yuan Gao, Shaobo Xia, Sheng Nie + 3 more2026-02-18💻 cs

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

Este trabajo presenta MMS-VPR, un conjunto de datos multimodal a gran escala para el reconocimiento visual de lugares en entornos peatonales de Chengdu, China, junto con MMS-VPRlib, una plataforma de benchmark unificada que facilita la integración de modalidades visuales, de video y textuales para superar las limitaciones de los enfoques tradicionales basados únicamente en imágenes.

Yiwei Ou, Xiaobin Ren, Ronggui Sun + 3 more2026-02-18🤖 cs.AI

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

El artículo presenta "Prompts to Summaries", un sistema de resumen de video cero-shot que utiliza modelos de lenguaje y video preentrenados para generar resúmenes controlables por texto sin datos de entrenamiento, superando a métodos no supervisados anteriores y estableciendo un nuevo paradigma mediante la segmentación de escenas, la puntuación con LLMs y la propagación de scores con métricas de coherencia y novedad.

Mario Barbara, Alaa Maalouf2026-02-18💻 cs

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Este trabajo propone un marco innovador de tres etapas que genera escenas 3D coherentes y de alta calidad a partir de una sola imagen, combinando la segmentación y relleno de instancias, la estimación de parámetros de cámara mediante vistas pseudo-estéreo y la optimización de la disposición espacial para lograr una representación geométrica y textural precisa.

Xiang Tang, Ruotong Li, Xiaopeng Fan2026-02-18💻 cs

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Este trabajo presenta un marco de síntesis escalable que genera más de un millón de problemas visuales de razonamiento de alta calidad, demostrando que el ajuste fino de modelos VLM con estos datos no solo supera a los modelos de referencia en tareas visuales, sino que también mejora significativamente el razonamiento en texto y audio, al tiempo que analiza la eficacia de las etapas de entrenamiento post-SFT y RL.

David Acuna, Chao-Han Huck Yang, Yuntian Deng + 6 more2026-02-18💬 cs.CL

Lacking Data? No worries! How synthetic images can alleviate image scarcity in wildlife surveys: a case study with muskox (Ovibos moschatus)

Este estudio demuestra que el uso de imágenes sintéticas puede mejorar la detección de muskoxos mediante modelos de aprendizaje profundo en escenarios con escasez de datos reales, permitiendo entrenar algoritmos efectivos incluso sin imágenes reales iniciales y refinándolos a medida que se obtienen datos auténticos.

Simon Durand, Samuel Foucher, Alexandre Delplanque + 2 more2026-02-18💻 cs