cs.CV artículos | Gist.Science

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

El artículo presenta ARSGaussian, un método innovador de síntesis de nuevas vistas para la teledetección aérea que integra nubes de puntos LiDAR y un modelo de cámara con parámetros de distorsión dentro de la técnica 3D Gaussian Splatting para resolver problemas de flotadores y crecimiento excesivo, mejorando así la precisión geométrica y la alineación geo-espacial, todo ello respaldado por el lanzamiento del nuevo conjunto de datos abierto AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Este trabajo presenta a CuriousBot, un sistema que utiliza un grafo relacional de objetos 3D para superar las limitaciones de los métodos actuales de exploración móvil al permitir la interacción activa en entornos complejos y diversos, demostrando una mayor eficacia y generalización que las soluciones basadas únicamente en modelos de visión y lenguaje.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Este artículo presenta iMarkers, marcadores fiduciales invisibles para humanos pero detectables por robots y dispositivos de realidad aumentada, que resuelven el problema estético de los marcadores tradicionales mediante diseños de hardware y algoritmos de software de código abierto que garantizan una detección robusta y adaptable en diversos escenarios.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

El artículo presenta LayoutDreamer, un marco basado en 3D Gaussian Splatting que genera escenas 3D composicionales de alta calidad y físicamente realistas a partir de texto, superando las limitaciones existentes mediante la adaptación de la densidad de los gaussianos, ajustes dinámicos de cámara y la aplicación de energía física guiada por un grafo de escena dirigido.

Yang Zhou, Zongjin He, Qixuan Li + 1 more2026-03-11🤖 cs.AI

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Esta encuesta ofrece una revisión exhaustiva y estructurada de más de 200 artículos sobre las técnicas, conjuntos de datos y desafíos de generalización en la detección por Wi-Fi, presentando una taxonomía basada en la cadena de procesamiento y proponiendo la plataforma SDP para fomentar la colaboración comunitaria.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

El artículo presenta RS-STE, un enfoque novedoso que integra la edición y el reconocimiento de texto en un marco unificado mediante un decodificador paralelo y un ajuste fino auto-supervisado cíclico, logrando un rendimiento superior en la edición de texto escénico sin necesidad de datos emparejados.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Este artículo presenta un marco novedoso de aprendizaje semi-supervisado para la segmentación de imágenes biomédicas que combina modelos de difusión y un entrenamiento colaborativo maestro-alumno, logrando superar a las técnicas actuales al generar máscaras de segmentación precisas a partir de datos limitados etiquetados.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Este trabajo presenta BR-Gen, un nuevo dataset a gran escala de imágenes con manipulaciones localizadas que abarca escenas completas, junto con NFA-ViT, un modelo basado en transformadores que amplifica las huellas de falsificación para mejorar la detección y generalización de alteraciones de IA en imágenes.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Este trabajo presenta M4-SAR, un nuevo conjunto de datos a gran escala y un marco de referencia unificado para la detección de objetos mediante la fusión de imágenes ópticas y SAR, que demuestra mejoras significativas en la precisión de detección, especialmente en entornos complejos.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

El trabajo presenta MARRS, un marco novedoso que genera reacciones humanas coordinadas y detalladas mediante representaciones continuas, utilizando un VAE dividido por unidades corporales, fusión condicionada por acciones, modulación adaptativa entre unidades y un modelo de difusión con predictores MLP independientes para superar las limitaciones de los enfoques autoregresivos basados en cuantización vectorial.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artículo presenta la primera revisión sistemática sobre la integración de modelos fundacionales en la robótica de servicio móvil, analizando cómo estas tecnologías abordan desafíos técnicos clave, habilitan aplicaciones en entornos reales y plantean consideraciones éticas y futuras para el desarrollo de robots autónomos seguros y adaptables.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Este trabajo presenta EasyText, un marco basado en transformadores de difusión que permite la generación precisa y controlable de texto multilingüe mediante la incorporación de codificaciones de posición de caracteres y el uso de un extenso conjunto de datos sintéticos.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

El artículo presenta SpikeSMOKE, una arquitectura de redes neuronales de espigas para la detección 3D de objetos monocular que, mediante un nuevo mecanismo de codificación de compuertas de escala cruzada y bloques residuales ligeros, logra una alta precisión en conjuntos de datos como KITTI y NuScenes mientras reduce significativamente el consumo energético y la complejidad computacional en comparación con métodos tradicionales.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

El artículo presenta FieldLVLM, un marco innovador que mejora la comprensión de los Grandes Modelos Visuales-Lingüísticos sobre datos de campos científicos mediante una estrategia de generación de lenguaje específica del dominio y un ajuste de modelos multimodales con compresión de datos, logrando un rendimiento superior en tareas de investigación científica.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

El artículo presenta MGCR-Net, una red de reconstrucción visión-lingüística condicionada por grafos multimodales que aprovecha modelos de lenguaje grandes y mecanismos de atención gráfica para mejorar la detección de cambios en imágenes de teledetección mediante una alineación de características fina y una interacción semántica profunda.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Este artículo presenta SFDA-PFT, un método eficiente de adaptación de dominio sin fuente que utiliza una traducción de características en el espacio latente para personalizar modelos de reconocimiento de expresiones faciales utilizando únicamente datos de expresiones neutras del objetivo, evitando así la generación de imágenes y preservando la privacidad.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

El artículo presenta EgoCross, un nuevo benchmark diseñado para evaluar la generalización de modelos de lenguaje grandes multimodales en preguntas y respuestas sobre videos egocéntricos a través de dominios diversos y desafiantes más allá de las actividades cotidianas, revelando las limitaciones actuales de estos modelos y explorando estrategias para mejorar su adaptabilidad.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

El artículo presenta YOPO, un marco unificado de un solo paso basado en transformadores que logra un estado del arte en la estimación de pose 9D de múltiples objetos a nivel de categoría a partir de una sola imagen RGB, eliminando la necesidad de modelos CAD, profundidad o etapas cascada.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

El artículo presenta CoRe-GS, un marco de dispersión gaussiana de lo grueso a lo fino que optimiza selectivamente solo los objetos de interés en una escena, logrando una reconstrucción 3D más rápida y de mayor calidad al reducir los costos computacionales innecesarios para aplicaciones robóticas.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

El artículo presenta VocSegMRI, un marco de aprendizaje multimodal que integra señales visuales, acústicas y fonológicas mediante fusión por atención cruzada y aprendizaje contrastivo para lograr una segmentación precisa y robusta del tracto vocal en imágenes de resonancia magnética en tiempo real, superando a los métodos unimodales existentes.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

← Anterior Siguiente →