cs.CV artículos | Gist.Science

GS-ProCams: Gaussian Splatting-based Projector-Camera Systems

GS-ProCams es el primer marco basado en Gaussian Splatting para sistemas proyector-cámara que logra proyección agnóstica a la vista con una calidad superior, eliminando la necesidad de dispositivos adicionales y reduciendo drásticamente el uso de memoria y el tiempo de inferencia en comparación con los métodos basados en NeRF.

Qingyue Deng, Jijiang Li, Haibin Ling + 1 more2026-02-18💻 cs

DARB-Splatting: Generalizing Splatting with Decaying Anisotropic Radial Basis Functions

El artículo presenta DARB-Splatting, un método que generaliza la reconstrucción 3D mediante funciones de base radial anisotrópicas en descomposición (DARBFs) no exponenciales, logrando un rendimiento comparable al de los métodos basados en Gaussianas con una integración cerrada eficiente.

Hashiru Pramuditha, Vinasirajan Viruthshaan, Vishagar Arunan + 4 more2026-02-18🤖 cs.AI

SSL4EO-S12 v1.1: A Multimodal, Multiseasonal Dataset for Pretraining, Updated

Este trabajo presenta SSL4EO-S12 v1.1, un conjunto de datos de observación terrestre multimodal y multitemporal que corrige errores de alineación y estructura de su versión anterior, añadiendo nuevas modalidades como elevación y cobertura vegetal para facilitar el preentrenamiento de modelos fundacionales a gran escala.

Benedikt Blumenstiel, Nassim Ait Ali Braham, Conrad M Albrecht + 2 more2026-02-18💻 cs

VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow

El artículo presenta VITAL, un método que mejora la visualización de características en redes neuronales mediante la alineación de distribuciones y el flujo de información relevante, generando imágenes prototípicas más comprensibles para el ser humano que los enfoques actuales.

Ada Gorgun, Bernt Schiele, Jonas Fischer2026-02-18💻 cs

Digital Twin Generation from Visual Data: A Survey

Esta encuesta examina los avances recientes en la generación de gemelos digitales a partir de datos visuales, analizando metodologías de vanguardia como el *splatting* gaussiano 3D y los modelos fundacionales, discutiendo sus desafíos y aplicaciones en diversos campos industriales y creativos.

Andrew Melnik, Benjamin Alt, Giang Nguyen + 7 more2026-02-18💻 cs

Multispectral airborne laser scanning for tree species classification: a benchmark of machine learning and deep learning algorithms

Este estudio presenta una evaluación comparativa que demuestra que los métodos de aprendizaje profundo basados en puntos, en particular el modelo Transformer, superan a las técnicas tradicionales y basadas en imágenes para la clasificación de especies arbóreas utilizando datos de escaneo láser aerotransportado multiespectral de alta densidad en Finlandia.

Josef Taher, Eric Hyyppä, Matti Hyyppä + 46 more2026-02-18💻 cs

Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

El marco MINT supera la escasez de datos biomédicos multimodales de alta calidad al alinear modelos de lenguaje unimodales con patrones de decisión especializados mediante optimización de preferencias, logrando un rendimiento superior en tareas como la predicción de enfermedades genéticas y la clasificación de tejidos.

Zhanliang Wang, Da Wu, Quan Nguyen + 2 more2026-02-18🧬 q-bio

APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

El artículo presenta APCoTTA, un marco innovador de adaptación continua en tiempo de prueba para la segmentación semántica de nubes de puntos LiDAR aéreas que combina selección de capas impulsada por gradientes, regularización basada en entropía e interpolación estocástica de parámetros para mitigar el olvido catastrófico y la acumulación de errores, validado mediante dos nuevos benchmarks que demuestran mejoras significativas en el rendimiento.

Yuan Gao, Shaobo Xia, Sheng Nie + 3 more2026-02-18💻 cs

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

Este trabajo presenta MMS-VPR, un conjunto de datos multimodal a gran escala para el reconocimiento visual de lugares en entornos peatonales de Chengdu, China, junto con MMS-VPRlib, una plataforma de benchmark unificada que facilita la integración de modalidades visuales, de video y textuales para superar las limitaciones de los enfoques tradicionales basados únicamente en imágenes.

Yiwei Ou, Xiaobin Ren, Ronggui Sun + 3 more2026-02-18🤖 cs.AI

cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

El paper presenta cadrille, un modelo de reconstrucción CAD multi-modal que integra datos de puntos, imágenes y texto mediante un pipeline de ajuste fino supervisado y aprendizaje por refuerzo, logrando nuevos récords de rendimiento en benchmarks desafiantes.

Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov + 6 more2026-02-18🤖 cs.LG

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

El artículo presenta "Prompts to Summaries", un sistema de resumen de video cero-shot que utiliza modelos de lenguaje y video preentrenados para generar resúmenes controlables por texto sin datos de entrenamiento, superando a métodos no supervisados anteriores y estableciendo un nuevo paradigma mediante la segmentación de escenas, la puntuación con LLMs y la propagación de scores con métricas de coherencia y novedad.

Mario Barbara, Alaa Maalouf2026-02-18💻 cs

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

DreamAnywhere es un sistema modular que genera escenas 360° inmersivas y editables a partir de texto mediante la síntesis panorámica, la descomposición de objetos y la reconstrucción 3D híbrida, superando las limitaciones de fidelidad y coherencia de los métodos existentes para facilitar la creación rápida de prototipos en producción audiovisual.

Edoardo Alberto Dominici, Jozef Hladky, Floor Verhoeven + 9 more2026-02-18💻 cs

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Este trabajo propone un marco innovador de tres etapas que genera escenas 3D coherentes y de alta calidad a partir de una sola imagen, combinando la segmentación y relleno de instancias, la estimación de parámetros de cámara mediante vistas pseudo-estéreo y la optimización de la disposición espacial para lograr una representación geométrica y textural precisa.

Xiang Tang, Ruotong Li, Xiaopeng Fan2026-02-18💻 cs

FedX: Explanation-Guided Pruning for Communication-Efficient Federated Learning in Remote Sensing

Este artículo presenta FedX, una estrategia novedosa que utiliza el desprendimiento guiado por explicaciones para reducir la sobrecarga de comunicación en el aprendizaje federado aplicado a la teledetección, logrando una disminución significativa de los parámetros compartidos sin comprometer el rendimiento del modelo.

Barış Büyüktaş, Jonas Klotz, Begüm Demir2026-02-18💻 cs

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

El marco ZeroScene propone un enfoque de cero disparos que utiliza modelos de visión grandes para reconstruir escenas 3D completas a partir de una sola imagen y permitir la edición de texturas coherentes, garantizando tanto la precisión geométrica como la consistencia visual en múltiples vistas.

Xiang Tang, Ruotong Li, Xiaopeng Fan2026-02-18💻 cs

A Fully Interpretable Statistical Approach for Roadside LiDAR Background Subtraction

Este trabajo presenta un método estadístico completamente interpretable y flexible para la eliminación de fondo en datos LiDAR de carreteras, que supera a las técnicas actuales en precisión y adaptabilidad a diversos sensores y configuraciones, permitiendo un despliegue eficiente en hardware de recursos limitados.

Aitor Iglesias, Nerea Aranjuelo, Patricia Javierre + 3 more2026-02-18💻 cs

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Este trabajo presenta un marco de síntesis escalable que genera más de un millón de problemas visuales de razonamiento de alta calidad, demostrando que el ajuste fino de modelos VLM con estos datos no solo supera a los modelos de referencia en tareas visuales, sino que también mejora significativamente el razonamiento en texto y audio, al tiempo que analiza la eficacia de las etapas de entrenamiento post-SFT y RL.

David Acuna, Chao-Han Huck Yang, Yuntian Deng + 6 more2026-02-18💬 cs.CL

Lacking Data? No worries! How synthetic images can alleviate image scarcity in wildlife surveys: a case study with muskox (Ovibos moschatus)

Este estudio demuestra que el uso de imágenes sintéticas puede mejorar la detección de muskoxos mediante modelos de aprendizaje profundo en escenarios con escasez de datos reales, permitiendo entrenar algoritmos efectivos incluso sin imágenes reales iniciales y refinándolos a medida que se obtienen datos auténticos.

Simon Durand, Samuel Foucher, Alexandre Delplanque + 2 more2026-02-18💻 cs

Terminal Velocity Matching

El artículo presenta Terminal Velocity Matching (TVM), un método de modelado generativo que generaliza el flujo de matching para lograr un rendimiento de vanguardia en la generación de imágenes de alta fidelidad en uno o pocos pasos mediante la regularización en tiempos terminales, cambios arquitectónicos mínimos y una implementación eficiente de kernels de atención.

Linqi Zhou, Mathias Parger, Ayaan Haque + 1 more2026-02-18📊 stat

Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

El artículo presenta TGIF, un módulo ligero que mitiga las alucinaciones en modelos de lenguaje multimodal mediante una fusión dinámica y guiada por texto de las características visuales jerárquicas del codificador, mejorando significativamente la fundamentación visual sin requerir actualizaciones en el propio codificador.

Chenchen Lin, Sanbao Su, Rachel Luo + 4 more2026-02-18🤖 cs.AI

← Anterior Siguiente →