cs.CV artigos | Gist.Science

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

O artigo apresenta o OddGridBench, um benchmark controlado que revela a baixa sensibilidade dos Modelos de Linguagem Multimodal (MLLMs) a discrepâncias visuais finas, e propõe o OddGrid-GRPO, um framework de aprendizado por reforço que melhora significativamente essa capacidade através de aprendizado curricular e recompensas sensíveis à distância espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artigo apresenta o benchmark STAR, um novo framework de avaliação multiagente que demonstra que a inteligência estratégica de Grandes Modelos de Linguagem em ambientes competitivos e dinâmicos depende não apenas da profundidade do raciocínio, mas também da capacidade de traduzir planos em ações rápidas, revelando uma lacuna significativa entre modelos de raciocínio profundo e modelos otimizados para velocidade em cenários de tempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

O artigo propõe a Calibração Espectral Preditiva (PSC), um framework sem fonte que estende o alinhamento de subespaço para correspondência espectral de blocos, melhorando a adaptação em tempo de teste para regressão de imagens sob mudanças de distribuição.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Este artigo propõe um framework de esteganografia de imagem robusto e comprovadamente seguro baseado em otimização iterativa no espaço latente, que melhora significativamente a precisão na extração de mensagens sob compressão e processamento de imagem sem comprometer a segurança teórica.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

O artigo propõe o EPPINN, um novo framework de redes neurais informadas por física que integra aprendizado evidencial para quantificar incertezas e melhorar a precisão e confiabilidade da estimativa de parâmetros de perfusão em imagens de tomografia computadorizada para avaliação de AVC isquêmico agudo.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

O artigo propõe o M3GCLR, um framework de aprendizado contrastivo baseado em teoria dos jogos que utiliza um modelo de jogo infinito de dados esqueléticos e otimização mini-max para superar limitações existentes na reconhecimento de ações baseado em esqueleto, alcançando desempenho superior a métodos atuais em conjuntos de dados padrão.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

O artigo propõe o MIL-PF, um framework escalável que combina codificadores de modelos fundamentais congelados com uma cabeça de Aprendizado de Múltiplas Instâncias leve para classificação de mamografias, alcançando desempenho de ponta com redução significativa na complexidade de treinamento ao lidar com imagens de alta resolução e anotações limitadas.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

O artigo apresenta o SinGeo, um framework inovador que utiliza aprendizado discriminativo dual e uma estratégia de aprendizado curricular para permitir que um único modelo realize geo-localização cruzada robusta em diversas condições de campo de visão, superando os métodos existentes e estabelecendo novos padrões de desempenho em benchmarks.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

O artigo apresenta o EventVGGT, um novo framework que supera as limitações de consistência temporal na estimativa de profundidade baseada em eventos ao tratar o fluxo de eventos como uma sequência de vídeo coesa e distilar conhecimentos espaciais, temporais e geométricos do modelo VGGT através de uma estratégia tripla de distilação, resultando em desempenho superior e generalização zero-shot.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

O artigo apresenta o MIDAS, um framework de esteganografia sem cobertura baseado em difusão e livre de treinamento que permite a ocultação de múltiplas imagens com controle de acesso específico por usuário, superando métodos existentes em qualidade, robustez e privacidade.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Este relatório apresenta o desafio ICDAR 2025 sobre Tradução de Imagem de Documento de Ponta a Ponta, que envolveu 69 equipes na tradução de textos em documentos com layouts complexos através de duas trilhas (com e sem OCR), demonstrando que abordagens com grandes modelos estabelecem um novo paradigma promissor para essa tarefa.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

O artigo apresenta o YOLO-NAS-Bench, o primeiro benchmark de substituição para busca de arquitetura neural em detectores YOLO, que utiliza um mecanismo de autoevolução para aprimorar um preditor baseado em LightGBM, permitindo a descoberta eficiente de arquiteturas que superam os modelos oficiais YOLOv8 a YOLO12.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

O artigo apresenta o FCDM, um modelo de difusão totalmente convolucional baseado no ConvNeXt que, ao utilizar apenas 50% dos FLOPs do DiT-XL/2, alcança desempenho competitivo com significativamente menos etapas de treinamento e maior eficiência, demonstrando que arquiteturas convolucionais modernas são uma alternativa viável e eficiente para a geração de imagens.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

O artigo apresenta o RiO-DETR, o primeiro detector baseado em transformers capaz de realizar detecção de objetos orientados em tempo real, superando desafios como periodicidade angular e convergência lenta através de designs nativos de tarefa que estabelecem um novo equilíbrio entre velocidade e precisão.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

O artigo apresenta o PromptDLA, um framework inovador de Análise de Layout de Documentos que utiliza um prompter sensível ao domínio e conhecimento descritivo como pistas para integrar priores específicos de cada domínio, superando as limitações da fusão direta de datasets e alcançando desempenho state-of-the-art em múltiplos benchmarks.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

O artigo apresenta o CIGPose, um framework baseado em redes neurais gráficas e intervenção causal que elimina correlações espúrias do contexto visual para gerar estimativas de pose corporal inteira mais robustas e anatomicamente plausíveis, estabelecendo um novo estado da arte no conjunto de dados COCO-WholeBody.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

O artigo apresenta o MetaDAT, um método de previsão de trajetória que combina um framework de meta-aprendizado para pré-treinamento e um mecanismo de atualização adaptativa de dados em tempo de teste, superando os métodos atuais ao lidar com mudanças de distribuição e garantindo alta precisão e eficiência em cenários desafiadores.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Este trabalho introduz o "Open-World Motion Forecasting", um novo cenário e framework de ponta a ponta para previsão de trajetória que supera as limitações de taxonomia fixa e percepção perfeita ao aprender continuamente novas classes de objetos a partir de imagens de câmera, mitigando o esquecimento catastrófico através de pseudo-rotulagem filtrada por modelos de linguagem visual e amostragem de replay baseada em variância de características.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

O artigo apresenta o GIIM, uma abordagem baseada em grafos que melhora o diagnóstico médico automatizado ao modelar simultaneamente as dependências intra-visão e inter-visão das anomalias, garantindo robustez mesmo na presença de dados incompletos.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

O artigo apresenta o OncoAgent, um agente de IA inovador que converte diretrizes clínicas textuais em contornos tridimensionais de volumes-alvo para radioterapia de forma zero-shot e sem treinamento, demonstrando desempenho superior e maior aceitação clínica em comparação a modelos supervisionados tradicionais.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

← Anterior Próximo →