cs.CV artículos | Gist.Science

Sapling-NeRF: Geo-Localised Sapling Reconstruction in Forests for Ecological Monitoring

Este artículo presenta un pipeline que fusiona NeRF, SLAM basado en LiDAR y GNSS para lograr la reconstrucción geo-localizada y cuantitativa de plántulas en bosques, permitiendo un monitoreo ecológico a largo plazo con mayor precisión que los métodos tradicionales.

Miguel Ángel Muñoz-Bañón, Nived Chebrolu, Sruthi M. Krishna Moorthy + 4 more2026-02-27💻 cs

Asymmetric Idiosyncrasies in Multimodal Models

Este trabajo revela que, aunque los modelos de generación de texto capturan firmas estilísticas distintivas con alta precisión, estas idiosincrasias se pierden casi por completo en las imágenes generadas por modelos de texto a imagen debido a su incapacidad para preservar variaciones clave como el nivel de detalle, el énfasis en el color y la distribución de objetos.

Muzi Tao, Chufan Shi, Huijuan Wang + 2 more2026-02-27💻 cs

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

El artículo presenta ProjFlow, un muestreador sin entrenamiento que garantiza el cumplimiento exacto de restricciones espaciales lineales en la generación de movimiento humano preservando su naturalidad mediante una métrica cinemática novedosa y una formulación temporal para entradas dispersas.

Akihisa Watanabe, Qing Yu, Edgar Simo-Serra + 1 more2026-02-27💻 cs

Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

Este trabajo propone un marco unificado de recuperación de código oculto que, mediante cuantización vectorial multiescala y módulos Transformer condicionales, permite la restauración y recuperación fáctica de imágenes naturales alteradas, validado mediante un nuevo benchmark llamado ImageNet-S.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

TrajTok: Learning Trajectory Tokens enables better Video Understanding

El artículo presenta TrajTok, un tokenizador de video integrado y eficiente que genera trayectorias de objetos mediante agrupamiento implícito espacio-temporal para mejorar la comprensión visual y el razonamiento en videos largos sin depender de pipelines de segmentación externos.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang + 6 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

El artículo presenta SceneTransporter, un marco de generación de escenas 3D estructurado a partir de una sola imagen que utiliza un objetivo de transporte óptimo entropico dentro de un modelo de difusión para resolver la asignación global de correlaciones, logrando así una coherencia de instancias y una fidelidad geométrica superiores al evitar el entrelazamiento y la fragmentación de los objetos.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Robust Human Trajectory Prediction via Self-Supervised Skeleton Representation Learning

El artículo propone un método robusto para la predicción de trayectorias humanas que utiliza un modelo de representación esquelética auto-supervisado preentrenado con autoenmascaramiento para mitigar eficazmente los efectos de las articulaciones faltantes por oclusiones sin sacrificar la precisión.

Taishu Arashima, Hiroshi Kera, Kazuhiko Kawamoto2026-02-27💻 cs

GSTurb: Gaussian Splatting for Atmospheric Turbulence Mitigation

El artículo presenta GSTurb, un marco novedoso que combina la corrección de inclinación guiada por flujo óptico y el *splatting* gaussiano para mitigar eficazmente la degradación de imágenes causada por la turbulencia atmosférica, superando a los métodos existentes tanto en datos sintéticos como reales.

Hanliang Du, Zhangji Lu, Zewei Cai + 3 more2026-02-27💻 cs

Face Time Traveller : Travel Through Ages Without Losing Identity

El artículo presenta Face Time Traveller (FaceTT), un marco basado en difusión que logra transformaciones de edad faciales realistas y fieles a la identidad mediante una refinación de prompts consciente de los atributos, un método de inversión angular libre de ajuste y un control de atención adaptativo.

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama + 2 more2026-02-27💻 cs

CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation

El artículo presenta CMSA-Net, un marco robusto para la segmentación de pólipos en video que utiliza agregación causal multiescala y una estrategia de referencia dinámica multi-fuente para superar los desafíos de similitud visual y variaciones de escala, logrando un rendimiento de vanguardia en el conjunto de datos SUN-SEG.

Tong Wang, Yaolei Qi, Siwen Wang + 3 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

Este artículo presenta un sistema de imagen multiespectral de bajo costo y un marco de aprendizaje automático que permiten predecir con alta precisión la composición y las clases de textura del suelo, ofreciendo una solución no destructiva y desplegable en campo para la agricultura de precisión y la ingeniería geotécnica.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess

Moral Preferences of LLMs Under Directed Contextual Influence

Este estudio demuestra que las preferencias morales de los modelos de lenguaje, evaluadas en escenarios de triaje tipo problema del tranvía, son altamente sensibles a influencias contextuales dirigidas que pueden alterar sus decisiones de manera sistemática y a veces contraproducente, revelando que la neutralidad aparente no garantiza estabilidad bajo presión contextual.

Phil Blandfort, Tushar Karayil, Urja Pawar + 3 more2026-02-27💬 cs.CL

A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

El artículo presenta CheXficient, un modelo fundacional de rayos X torácicos que, mediante una curación de datos activa y selectiva, logra un rendimiento comparable o superior a modelos entrenados con conjuntos de datos completos utilizando menos del 27% de los recursos computacionales y solo el 22,7% de los datos, mejorando así la eficiencia y la generalización en condiciones médicas poco frecuentes.

Chong Wang, Yabin Zhang, Yunhe Gao + 9 more2026-02-27💻 cs

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

El artículo propone DPE (Evolución Progresiva Guiada por Diagnóstico), un marco de entrenamiento iterativo que identifica y corrige ciegamente las debilidades de los Modelos Multimodales Grandes mediante la generación dinámica de datos dirigidos, logrando mejoras continuas y estables en múltiples benchmarks.

Hongrui Jia, Chaoya Jiang, Shikun Zhang + 1 more2026-02-27💻 cs

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

El artículo presenta GraspLDP, un enfoque basado en difusión latente que mejora la precisión y generalización de las políticas de agarre en robótica al integrar conocimiento previo sobre la pose de agarre y un objetivo de reconstrucción auto-supervisado, superando así las limitaciones de los métodos existentes tanto en simulación como en robots reales.

Enda Xiang, Haoxiang Ma, Xinzhu Ma + 2 more2026-02-27💻 cs

SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

SO3UFormer es una arquitectura de segmentación semántica panorámica que supera la fragilidad de los modelos actuales ante rotaciones 3D mediante el aprendizaje de características esféricas intrínsecas y mecanismos geométricos específicos, logrando una estabilidad superior en escenarios de orientación arbitraria.

Qinfeng Zhu, Yunxi Jiang, Lei Fan2026-02-27💻 cs

Towards Multimodal Domain Generalization with Few Labels

Los autores proponen un nuevo marco unificado para la generalización de dominio multimodal semi-supervisada (SSMDG) que supera las limitaciones de los métodos existentes mediante regularización de consistencia basada en consenso, regularización consciente del desacuerdo y alineación de prototipos cruzados, logrando un rendimiento superior en benchmarks recién establecidos.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

Chain of Flow: A Foundational Generative Framework for ECG-to-4D Cardiac Digital Twins

Este trabajo presenta Chain of Flow (COF), un marco generativo fundamental que reconstruye un gemelo digital cardíaco 4D completo y personalizado a partir de un solo ciclo de ECG, transformando los modelos predictivos tradicionales en corazones virtuales manipulables que soportan diversas simulaciones clínicas.

Haofan Wu, Nay Aung, Theodoros N. Arvanitis + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

Este artículo presenta OSDaR-AR, un nuevo conjunto de datos público generado mediante un marco de realidad aumentada multimodal que integra objetos virtuales fotorrealistas en secuencias ferroviarias reales para superar la escasez de datos anotados y mejorar los sistemas de percepción mediante una colocación precisa y coherencia espaciotemporal.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

Este trabajo presenta WaterVideoQA, el primer benchmark de preguntas y respuestas sobre video a gran escala para entornos acuáticos, junto con NaviMind, un sistema multiagente neuro-simbólico que permite a las embarcaciones autónomas superar la percepción pasiva para lograr un razonamiento cognitivo interactivo y conforme a las normativas marítimas.

Runwei Guan, Shaofeng Liang, Ningwei Ouyang + 9 more2026-02-27💻 cs

← Anterior Siguiente →