cs.CV artigos | Gist.Science

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

O artigo propõe o SPAN (Spatial-Projection Alignment), um novo método para detecção 3D monocular que supera as limitações de consistência geométrica dos detectores existentes ao alinhar espacialmente as caixas 3D previstas com os verdadeiros e garantir que sua projeção 2D corresponda às caixas de detecção na imagem, resultando em melhor desempenho e estabilidade de treinamento.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

O artigo apresenta o MediRound, um modelo e um novo conjunto de dados (MR-MedSeg) que habilitam a segmentação de imagens médicas por meio de diálogos de múltiplas rodadas com raciocínio em nível de entidade, superando as limitações de métodos anteriores ao incorporar um mecanismo de julgamento e correção para mitigar erros de propagação.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming LuWed, 11 Ma🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Este artigo propõe o módulo Adaptive Diversity Cache (ADC), uma solução de treinamento livre e plug-and-play que mitiga o viés de cauda longa na detecção de Interação Humano-Objeto (HOI) ao acumular representações de características diversas e de alta confiança durante a inferência, melhorando significativamente a detecção de categorias raras sem necessidade de ajuste adicional.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

O artigo propõe o V-Attack, um novo método de ataque adversarial para Modelos Visuais-Linguísticos de Grande Escala (LVLMs) que supera as limitações de controle semântico existentes ao manipular diretamente as características de valor (V) desentrelaçadas, resultando em uma taxa de sucesso de ataque significativamente maior ao permitir a alteração precisa de conceitos locais nas imagens.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

O artigo apresenta o UPA-RFAS, um quadro unificado que gera um ataque de patch adversarial universal e transferível para modelos Visão-Linguagem-Ação (VLA), capaz de comprometer robôs em cenários de caixa preta, diferentes arquiteturas e transições simulação-realidade ao manipular representações de recursos, atenção e semântica.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

O artigo apresenta o AFRO, um framework de aprendizado auto-supervisionado que gera representações 3D dinâmicas e conscientes de ações para robótica, superando métodos existentes ao modelar transições causais sem necessidade de supervisão por reconstrução geométrica ou dados de ação, resultando em taxas de sucesso significativamente maiores em tarefas de manipulação.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabalho apresenta o primeiro framework formal para Modelos de Mundo Audiovisuais (AVWM), introduzindo o conjunto de dados AVW-4k e o modelo AV-CDiT para simular dinâmicas ambientais sincronizadas de áudio e vídeo, demonstrando melhorias significativas em tarefas de navegação contínua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

O artigo AVGGT propõe um esquema de aceleração sem treinamento que, baseado na análise das funções das camadas de atenção global, converte camadas iniciais em atenção de quadro e subsampleia as camadas finais, resultando em ganhos de velocidade de 2x a 10x em modelos como VGGT e $\pi^3$ sem comprometer a precisão em cenários de visão 3D multi-visão densa.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

O artigo apresenta o LiM-YOLO, um detector de navios otimizado para imagens de sensoriamento remoto que, ao deslocar os níveis da pirâmide de características de P3-P5 para P2-P4 e empregar normalização por grupos, resolve desafios de escala e estabilidade de treinamento, alcançando precisão superior com menos parâmetros.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

O artigo apresenta o ADHint, um método de Aprendizado por Reforço que integra dinamicamente a dificuldade das amostras no agendamento de dicas e na estimativa de vantagem, resultando em maior estabilidade, eficiência de amostragem e generalização de raciocínio.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

O artigo propõe a Inversão Textual Direcional (DTI), um método que otimiza apenas a direção dos embeddings no espaço de tokens do CLIP, mantendo a magnitude fixa, para superar as falhas de personalização em prompts complexos e permitir interpolações semânticas suaves, superando as limitações da Inversão Textual tradicional.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este artigo apresenta o DivGenBench, um novo benchmark para quantificar o colapso de modo de preferência em modelos de difusão, e propõe o D²-Align, um framework que mitiga esse problema ao corrigir direcionalmente o sinal de recompensa, preservando assim a diversidade gerativa sem comprometer a qualidade.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Este artigo propõe o SeLop, um método de intervenção em subespaço ortogonal de baixo posto que mitiga o viés espúrio de baixa ordem no CLIP ao isolar e remover fatores de correlação irrelevante, permitindo assim uma detecção de falsificação facial mais generalizável e robusta com poucos parâmetros treináveis.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie FuWed, 11 Ma💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Este artigo propõe um método inovador para detecção de imagens geradas por IA que explora a generalização dos componentes finais comuns das arquiteturas de geradores, alcançando uma precisão média de 98,83% em testes com geradores não vistos ao treinar um detector para distinguir imagens reais de versões "contaminadas" por esses componentes.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal SoumikWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

O artigo apresenta o CLEAR-Mamba, um framework aprimorado baseado em MedMamba que utiliza uma camada de condicionamento adaptativo (HaC) e um esquema de previsão consciente da confiabilidade (RaP) para superar as limitações de generalização e confiabilidade na classificação de angiografias oftalmológicas multimodais (FFA e ICGA), demonstrando desempenho superior em um novo conjunto de dados de grande escala.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

O artigo apresenta o RegionReasoner, um framework de aprendizado por reforço que aprimora o raciocínio visual multi-round ao exigir citações explícitas de caixas delimitadoras e garantir coerência semântica global-local, validado por um novo benchmark chamado RegionDial-Bench.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

O artigo apresenta o WebAccessVL, um modelo de linguagem e visão que corrige automaticamente violações de acessibilidade em sites (WCAG2) preservando o design original, alcançando uma redução de 96% nas violações e superando o desempenho do GPT-5 através de uma estratégia iterativa de refinamento guiada por detectores de erros.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. YehWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

O artigo apresenta o Test-Time Correction (TTC), um método sem treinamento que utiliza o quadro inicial como âncora estável para calibrar estados intermediários e corrigir o acúmulo de erros em modelos autoregressivos de difusão destilados, permitindo a geração de vídeos longos de alta qualidade com custo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

O artigo apresenta o RoSE, um novo método que reformula a estimativa de normais monoculares como uma tarefa de estimativa de sequências de sombreamento utilizando modelos generativos de imagem para vídeo, superando as limitações de alinhamento 3D dos métodos existentes e alcançando desempenho de última geração em benchmarks reais.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song BaiWed, 11 Ma🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artigo propõe um framework de orçamentação de picos consciente de energia para aprendizado contínuo em redes neurais de spiking, que integra replay de experiência e agendamento adaptativo para otimizar simultaneamente a precisão e a eficiência energética em sistemas de visão neuromórfica, demonstrando melhorias significativas tanto em dados baseados em quadros quanto em eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI

← Anterior Próximo →