cs.CV artículos | Gist.Science

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

El artículo presenta SPAN, un nuevo enfoque de alineación de proyección espacial que mejora la detección 3D monocular al imponer restricciones espaciales globales y de proyección 2D-3D para corregir la inconsistencia geométrica inherente a los paradigmas de predicción desacoplada, logrando así un rendimiento superior mediante una estrategia de aprendizaje jerárquico.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

El artículo presenta MediRound, un modelo y un nuevo conjunto de datos (MR-MedSeg) diseñados para abordar la tarea de segmentación médica mediante razonamiento de múltiples rondas, introduciendo un mecanismo de juicio y corrección para mitigar la propagación de errores en diálogos educativos progresivos.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming LuWed, 11 Ma🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Este artículo presenta el módulo de Caché de Diversidad Adaptativa (ADC), una solución plug-and-play y sin entrenamiento que mitiga el sesgo de cola larga en la detección de interacciones humano-objeto mediante la acumulación dinámica de representaciones de características diversas durante la inferencia, mejorando significativamente la detección de categorías raras sin requerir ajuste adicional.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

El artículo presenta V-Attack, un método novedoso que logra ataques adversarios controlables y precisos en Modelos Grandes de Visión y Lenguaje (LVLM) al manipular las características de valor (V) desentrelazadas en lugar de las representaciones de parches enredadas, logrando una tasa de éxito de ataque un 36% superior a los métodos existentes.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Este trabajo presenta UPA-RFAS, un marco unificado que genera parches adversarios universales y transferibles capaces de engañar a modelos de Visión-Lenguaje-Acción (VLA) en diversos escenarios, arquitecturas desconocidas y condiciones físicas, exponiendo así una vulnerabilidad crítica en la seguridad de los robots.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

El artículo presenta AFRO, un marco de aprendizaje auto-supervisado que genera representaciones 3D conscientes de la dinámica mediante un proceso difusivo y la modelación conjunta de dinámicas directas e inversas, logrando un rendimiento superior en tareas de manipulación robótica sin necesidad de supervisión de acciones o reconstrucción geométrica explícita.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabajo presenta el primer marco formal para Modelos de Mundo Audiovisuales (AVWM), introduciendo el conjunto de datos AVW-4k y el modelo AV-CDiT para simular dinámicas ambientales sincronizadas en audio y visión, lo que mejora significativamente la planificación y navegación de agentes en entornos multisensoriales.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Este artículo presenta AVGGT, un método de aceleración sin entrenamiento que analiza y reestructura la atención global en modelos como VGGT y $\pi^3$ mediante la conversión de capas tempranas y el muestreo de tokens, logrando aceleraciones de inferencia de hasta 10 veces en secuencias largas sin sacrificar la precisión.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

El artículo presenta LiM-YOLO, un detector de objetos optimizado para la detección de barcos en imágenes de teledetección óptica que logra un rendimiento superior con menos parámetros mediante el desplazamiento de los niveles de la pirámide de características (de P3-P5 a P2-P4) para preservar detalles de objetivos pequeños y la incorporación de un bloque de normalización por grupos para estabilizar el entrenamiento.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

El artículo presenta ADHint, un método de aprendizaje por refuerzo que integra dinámicamente la dificultad de las muestras para ajustar la proporción de pistas y modular los gradientes, logrando así un equilibrio superior entre exploración e imitación que mejora la capacidad de razonamiento y la generalización fuera de distribución.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

El artículo presenta la Inversión Textual Direccional (DTI), un método que mejora la personalización de generación de imágenes texto-a-imagen optimizando únicamente la dirección de los tokens en una hiperesfera para evitar la inflación de la norma de los embeddings, lo que resulta en una mayor fidelidad al prompt, una mejor contextualización y una interpolación semántica coherente.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este trabajo introduce DivGenBench para cuantificar el colapso de modo de preferencia en modelos de difusión y propone D²-Align, un marco de alineación que mitiga este problema mediante la corrección direccional de la señal de recompensa para preservar la diversidad generativa sin sacrificar la calidad.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

El artículo propone SeLop, un método de intervención en subespacio ortogonal de bajo rango que elimina las correlaciones espurias irrelevantes para la falsificación en las representaciones de CLIP, logrando así una detección de falsificaciones faciales más robusta y generalizable con un mínimo número de parámetros entrenables.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie FuWed, 11 Ma💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Este artículo propone un método de detección de imágenes generadas por IA que explota los componentes finales compartidos por diversos generadores, logrando una alta generalización y una precisión promedio del 98,83% al clasificar imágenes de generadores no vistos.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal SoumikWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

El artículo presenta CLEAR-Mamba, un marco mejorado basado en MedMamba que utiliza una capa de condicionamiento adaptativo (HaC) y un esquema de predicción consciente de la fiabilidad (RaP) para lograr una clasificación precisa, adaptable y confiable de angiografías oftálmicas multimodales (FFA e ICGA), superando a los modelos existentes en generalización y estabilidad.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

El artículo presenta RegionReasoner, un marco de aprendizaje por refuerzo que mejora el razonamiento visual iterativo mediante la exigencia de citas explícitas de cajas delimitadoras y una recompensa de consistencia semántica global-local, validado en un nuevo benchmark llamado RegionDial-Bench que abarca tareas de detección y segmentación.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

El artículo presenta WebAccessVL, un modelo de visión y lenguaje que corrige automáticamente las violaciones de accesibilidad en sitios web mediante la síntesis de código HTML condicional a las imágenes y a las descripciones de los errores, logrando una reducción del 96% en las violaciones y mejorando significativamente el diseño visual en comparación con modelos existentes.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. YehWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Este artículo presenta la Corrección en Tiempo de Prueba (TTC), un método libre de entrenamiento que utiliza el primer cuadro como ancla estable para corregir la deriva en la generación de videos largos con modelos autoregresivos destilados, logrando una calidad comparable a métodos basados en entrenamiento con un costo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

El artículo presenta RoSE, un nuevo enfoque que reformula la estimación de normales monoculares como la predicción de secuencias de sombreado mediante modelos generativos de imagen a video, logrando un rendimiento superior al estado del arte al resolver problemas de desalineación geométrica.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song BaiWed, 11 Ma🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artículo propone un marco de presupuestado de picos consciente de la energía para el aprendizaje continuo en redes neuronales de spiking, que integra replay de experiencia y parámetros neuronales adaptables para optimizar simultáneamente la precisión y la eficiencia energética en sistemas de visión neuromórfica tanto para datos basados en fotogramas como en eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI

← Anterior Siguiente →