cs.CV artículos | Gist.Science

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

Este trabajo propone un marco para la manipulación bimanual que aprovecha un modelo fundacional geométrico 3D preentrenado para predecir simultáneamente acciones y la evolución de la escena en 3D a partir de imágenes RGB, logrando un rendimiento superior al de los métodos basados en 2D o nubes de puntos explícitas.

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Este artículo presenta un marco de aprendizaje continuo sin ejemplos para la generación de informes de patología a partir de imágenes de diapositivas completas, que evita el olvido catastrófico mediante el uso de huellas digitales compactas para la recuperación generativa y descriptores de estilo para adaptar las convenciones de redacción, todo ello sin necesidad de almacenar datos históricos.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

Este artículo presenta CPN-YOLO, un marco de detección de barcos en imágenes SAR que mejora el rendimiento de YOLOv8 mediante un módulo de denoising, un mecanismo de atención PPA y una pérdida de similitud gaussiana, logrando resultados superiores en precisión y detección de objetivos pequeños en conjuntos de datos como HRSID y SSDD.

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Este artículo presenta un marco multimodal de extremo a extremo que integra imágenes y metadatos mediante mecanismos de atención cruzada y aprendizaje de diccionarios para clasificar series DICOM de manera robusta, superando los desafíos de heterogeneidad, longitud variable y metadatos incompletos sin necesidad de imputación.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Este artículo presenta un modelo de difusión guiado por la incertidumbre de polarización que supera las limitaciones de los métodos existentes para el remuestreo de imágenes de polarización en color, logrando una reconstrucción precisa de las características de polarización mediante la integración de priores de difusión y la estimación explícita de incertidumbre.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

El artículo presenta un modelo multi-modal multi-tarea que combina BERT y CLIP con una estrategia de aumento de datos basada en pseudo-etiquetado para detectar imágenes generadas por IA y sus modelos creadores, logrando el quinto puesto en las tareas A y B del concurso CT2.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

El artículo presenta ReSeg-CLIP, un método de segmentación semántica de vocabulario abierto para teledetección que, sin necesidad de entrenamiento, combina un esquema de enmascaramiento jerárquico basado en SAM para corregir las interacciones del CLIP y una composición de modelos con un nuevo esquema de ponderación para lograr resultados de vanguardia en tres conjuntos de datos.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Este artículo propone un sistema de percepción 3D de 360 grados para vehículos autónomos que, mediante la comunicación V2X, la computación en la nube y un algoritmo de optimización dinámica que ajusta el punto de división de la carga y la cuantización según el ancho de banda, logra reducir la latencia en un 72 % y mejorar la precisión de detección hasta un 20 % en comparación con soluciones puramente locales o estáticas.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Este estudio propone un enfoque de reconocimiento visual de lugares adaptativo a la altitud que, mediante el análisis de la densidad de características del suelo y el recorte de imágenes, logra una localización aérea precisa y robusta sin necesidad de hardware adicional, superando significativamente a los métodos tradicionales en entornos con variaciones altimétricas.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

El artículo presenta DACESR, un marco que mejora la super-resolución de imágenes en escenarios reales mediante un extractor de embebidos real (REE) para reconocer contenido degradado y un modulador de características condicionales (CFM) que alimenta una red basada en Mamba, logrando así un equilibrio óptimo entre fidelidad y calidad perceptual.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

El artículo presenta SelfOccFlow, un método de aprendizaje auto-supervisado que estima el flujo de ocupación 3D en entornos de conducción autónoma sin necesidad de anotaciones humanas ni supervisión externa, descomponiendo la escena en campos de distancia signada estáticos y dinámicos y aprendiendo el movimiento mediante agregación temporal.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

El artículo presenta Ref-Adv, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento visual y fundamentación de los modelos de lenguaje multimodal en tareas de expresión de referencia, revelando que, a pesar de su alto rendimiento en conjuntos de datos existentes, estos modelos dependen en gran medida de atajos y carecen de un razonamiento genuino ante desafíos más rigurosos.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

El artículo presenta BUSD-Agent, un marco de agentes en cascada guiado por la experiencia que reduce las derivaciones innecesarias a biopsia en la detección de cáncer de mama mediante un proceso de decisión selectivo en dos etapas que utiliza un banco de memoria para adaptar dinámicamente las políticas de clasificación y diagnóstico basándose en casos históricos similares.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

El artículo presenta ABPolicy, una política de flujo asíncrona basada en B-splines que garantiza movimientos robóticos suaves y en tiempo real mediante la eliminación de discontinuidades y el jitter en la ejecución.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

El artículo presenta SegMate, un marco de trabajo 2.5D ligero y eficiente que integra arquitecturas asimétricas y mecanismos de atención para lograr un rendimiento de segmentación de múltiples órganos a nivel del estado del arte con una reducción significativa en los requisitos computacionales y de memoria, facilitando su despliegue en entornos clínicos con recursos limitados.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

El artículo presenta CS-CLIP, un método que mejora la comprensión composicional de los modelos CLIP al descomponer las descripciones en unidades de entidades y relaciones para corregir el problema de las "medio-verdades", donde detalles incorrectos aumentan artificialmente la puntuación de similitud.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Este trabajo propone un marco de estimación de transferibilidad basado en topología que, mediante métricas globales y locales de consistencia estructural, permite seleccionar modelos de visión médica foundation de manera eficiente y sin entrenamiento, superando significativamente a los métodos actuales en la tarea de segmentación.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

El artículo presenta GPU-SDF, un marco de reconstrucción neural implícita para interiores que mejora la fidelidad de los detalles finos mediante la estimación explícita de la incertidumbre de los priores geométricos y la aplicación de restricciones complementarias, como un campo de distancia de bordes y una regularización de consistencia multivista, para optimizar la influencia de los priores en lugar de descartarlos.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Este trabajo propone STE-VLN, un enfoque que mejora la navegación visión-lenguaje en entornos no vistos mediante la integración del primer grafo de conocimiento espaciotemporal multimodal a gran escala (YE-KG), extraído de videos de interiores reales, para resolver instrucciones ambiguas y razonamiento a largo plazo.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

El artículo presenta PointCoT, un marco innovador que mejora la comprensión de nubes de puntos 3D en modelos de lenguaje multimodal mediante un razonamiento explícito de tipo "cadena de pensamiento" y un nuevo conjunto de datos de instrucción, superando así las alucinaciones geométricas de los enfoques anteriores.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

← Anterior Siguiente →