cs.CV artículos | Gist.Science

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

El artículo presenta un modelo multi-modal multi-tarea que combina BERT y CLIP con una estrategia de aumento de datos basada en pseudo-etiquetado para detectar imágenes generadas por IA y sus modelos creadores, logrando el quinto puesto en las tareas A y B del concurso CT2.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

El artículo presenta ReSeg-CLIP, un método de segmentación semántica de vocabulario abierto para teledetección que, sin necesidad de entrenamiento, combina un esquema de enmascaramiento jerárquico basado en SAM para corregir las interacciones del CLIP y una composición de modelos con un nuevo esquema de ponderación para lograr resultados de vanguardia en tres conjuntos de datos.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Este artículo propone un sistema de percepción 3D de 360 grados para vehículos autónomos que, mediante la comunicación V2X, la computación en la nube y un algoritmo de optimización dinámica que ajusta el punto de división de la carga y la cuantización según el ancho de banda, logra reducir la latencia en un 72 % y mejorar la precisión de detección hasta un 20 % en comparación con soluciones puramente locales o estáticas.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Este estudio propone un enfoque de reconocimiento visual de lugares adaptativo a la altitud que, mediante el análisis de la densidad de características del suelo y el recorte de imágenes, logra una localización aérea precisa y robusta sin necesidad de hardware adicional, superando significativamente a los métodos tradicionales en entornos con variaciones altimétricas.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

El artículo presenta DACESR, un marco que mejora la super-resolución de imágenes en escenarios reales mediante un extractor de embebidos real (REE) para reconocer contenido degradado y un modulador de características condicionales (CFM) que alimenta una red basada en Mamba, logrando así un equilibrio óptimo entre fidelidad y calidad perceptual.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

El artículo presenta SelfOccFlow, un método de aprendizaje auto-supervisado que estima el flujo de ocupación 3D en entornos de conducción autónoma sin necesidad de anotaciones humanas ni supervisión externa, descomponiendo la escena en campos de distancia signada estáticos y dinámicos y aprendiendo el movimiento mediante agregación temporal.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

El artículo presenta Ref-Adv, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento visual y fundamentación de los modelos de lenguaje multimodal en tareas de expresión de referencia, revelando que, a pesar de su alto rendimiento en conjuntos de datos existentes, estos modelos dependen en gran medida de atajos y carecen de un razonamiento genuino ante desafíos más rigurosos.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

El artículo presenta BUSD-Agent, un marco de agentes en cascada guiado por la experiencia que reduce las derivaciones innecesarias a biopsia en la detección de cáncer de mama mediante un proceso de decisión selectivo en dos etapas que utiliza un banco de memoria para adaptar dinámicamente las políticas de clasificación y diagnóstico basándose en casos históricos similares.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

El artículo presenta ABPolicy, una política de flujo asíncrona basada en B-splines que garantiza movimientos robóticos suaves y en tiempo real mediante la eliminación de discontinuidades y el jitter en la ejecución.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

El artículo presenta SegMate, un marco de trabajo 2.5D ligero y eficiente que integra arquitecturas asimétricas y mecanismos de atención para lograr un rendimiento de segmentación de múltiples órganos a nivel del estado del arte con una reducción significativa en los requisitos computacionales y de memoria, facilitando su despliegue en entornos clínicos con recursos limitados.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

El artículo presenta CS-CLIP, un método que mejora la comprensión composicional de los modelos CLIP al descomponer las descripciones en unidades de entidades y relaciones para corregir el problema de las "medio-verdades", donde detalles incorrectos aumentan artificialmente la puntuación de similitud.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Este trabajo propone un marco de estimación de transferibilidad basado en topología que, mediante métricas globales y locales de consistencia estructural, permite seleccionar modelos de visión médica foundation de manera eficiente y sin entrenamiento, superando significativamente a los métodos actuales en la tarea de segmentación.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

El artículo presenta GPU-SDF, un marco de reconstrucción neural implícita para interiores que mejora la fidelidad de los detalles finos mediante la estimación explícita de la incertidumbre de los priores geométricos y la aplicación de restricciones complementarias, como un campo de distancia de bordes y una regularización de consistencia multivista, para optimizar la influencia de los priores en lugar de descartarlos.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Este trabajo propone STE-VLN, un enfoque que mejora la navegación visión-lenguaje en entornos no vistos mediante la integración del primer grafo de conocimiento espaciotemporal multimodal a gran escala (YE-KG), extraído de videos de interiores reales, para resolver instrucciones ambiguas y razonamiento a largo plazo.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

El artículo presenta PointCoT, un marco innovador que mejora la comprensión de nubes de puntos 3D en modelos de lenguaje multimodal mediante un razonamiento explícito de tipo "cadena de pensamiento" y un nuevo conjunto de datos de instrucción, superando así las alucinaciones geométricas de los enfoques anteriores.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Este artículo propone una red de extracción de características de microexpresiones de doble rama con atención paralela y fusión adaptativa que supera a los métodos existentes en el conjunto de datos CASME II, alcanzando una precisión del 74,67%.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

El artículo presenta CC-VQA, un método sin entrenamiento que mitiga los conflictos de conocimiento en la respuesta visual a preguntas basada en conocimiento mediante un razonamiento centrado en la visión y una codificación y decodificación guiadas por correlación, logrando un rendimiento superior en varios benchmarks.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Este estudio presenta GDA-YOLO11, un nuevo modelo de segmentación de instancias amodal que mejora la detección de frutas ocultas y la precisión en la recolección robótica de cítricos, logrando tasas de éxito superiores incluso en escenarios de alta oclusión.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

SwitchCraft es un marco de generación de video sin entrenamiento que mejora la claridad de eventos múltiples y la consistencia temporal mediante la alineación de las consultas de atención con los prompts específicos y el ajuste adaptativo de la fuerza de control.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

El artículo presenta NV-CoT, un marco que permite a los modelos de lenguaje multimodal realizar razonamiento visual mediante la generación de coordenadas numéricas continuas en lugar de tokens discretos, mejorando significativamente la precisión de localización y la exactitud de las respuestas con modificaciones arquitectónicas mínimas.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

← Anterior Siguiente →