cs.CV artigos | Gist.Science

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

O artigo apresenta o LiM-YOLO, um detector de navios otimizado para imagens de sensoriamento remoto que, ao deslocar os níveis da pirâmide de características de P3-P5 para P2-P4 e empregar normalização por grupos, resolve desafios de escala e estabilidade de treinamento, alcançando precisão superior com menos parâmetros.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

O artigo apresenta o ADHint, um método de Aprendizado por Reforço que integra dinamicamente a dificuldade das amostras no agendamento de dicas e na estimativa de vantagem, resultando em maior estabilidade, eficiência de amostragem e generalização de raciocínio.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

O artigo propõe a Inversão Textual Direcional (DTI), um método que otimiza apenas a direção dos embeddings no espaço de tokens do CLIP, mantendo a magnitude fixa, para superar as falhas de personalização em prompts complexos e permitir interpolações semânticas suaves, superando as limitações da Inversão Textual tradicional.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este artigo apresenta o DivGenBench, um novo benchmark para quantificar o colapso de modo de preferência em modelos de difusão, e propõe o D²-Align, um framework que mitiga esse problema ao corrigir direcionalmente o sinal de recompensa, preservando assim a diversidade gerativa sem comprometer a qualidade.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Este artigo propõe o SeLop, um método de intervenção em subespaço ortogonal de baixo posto que mitiga o viés espúrio de baixa ordem no CLIP ao isolar e remover fatores de correlação irrelevante, permitindo assim uma detecção de falsificação facial mais generalizável e robusta com poucos parâmetros treináveis.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Este artigo propõe um método inovador para detecção de imagens geradas por IA que explora a generalização dos componentes finais comuns das arquiteturas de geradores, alcançando uma precisão média de 98,83% em testes com geradores não vistos ao treinar um detector para distinguir imagens reais de versões "contaminadas" por esses componentes.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

O artigo apresenta o CLEAR-Mamba, um framework aprimorado baseado em MedMamba que utiliza uma camada de condicionamento adaptativo (HaC) e um esquema de previsão consciente da confiabilidade (RaP) para superar as limitações de generalização e confiabilidade na classificação de angiografias oftalmológicas multimodais (FFA e ICGA), demonstrando desempenho superior em um novo conjunto de dados de grande escala.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

Este artigo propõe uma arquitetura Transformer de múltiplas cabeças com um mecanismo de "gate" baseado em detecção que integra contexto inter-corte para suprimir falsos positivos e melhorar a plausibilidade anatômica na segmentação automática de radioterapia, demonstrando superioridade significativa sobre modelos convencionais ao eliminar previsões alucinadas em cortes sem estruturas-alvo.

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

O artigo apresenta o RegionReasoner, um framework de aprendizado por reforço que aprimora o raciocínio visual multi-round ao exigir citações explícitas de caixas delimitadoras e garantir coerência semântica global-local, validado por um novo benchmark chamado RegionDial-Bench.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

O artigo apresenta o WebAccessVL, um modelo de linguagem e visão que corrige automaticamente violações de acessibilidade em sites (WCAG2) preservando o design original, alcançando uma redução de 96% nas violações e superando o desempenho do GPT-5 através de uma estratégia iterativa de refinamento guiada por detectores de erros.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

O artigo apresenta o Test-Time Correction (TTC), um método sem treinamento que utiliza o quadro inicial como âncora estável para calibrar estados intermediários e corrigir o acúmulo de erros em modelos autoregressivos de difusão destilados, permitindo a geração de vídeos longos de alta qualidade com custo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

O artigo apresenta o RoSE, um novo método que reformula a estimativa de normais monoculares como uma tarefa de estimativa de sequências de sombreamento utilizando modelos generativos de imagem para vídeo, superando as limitações de alinhamento 3D dos métodos existentes e alcançando desempenho de última geração em benchmarks reais.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artigo propõe um framework de orçamentação de picos consciente de energia para aprendizado contínuo em redes neurais de spiking, que integra replay de experiência e agendamento adaptativo para otimizar simultaneamente a precisão e a eficiência energética em sistemas de visão neuromórfica, demonstrando melhorias significativas tanto em dados baseados em quadros quanto em eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Este artigo propõe o TCMax, um método de classificação multimodal sem hiperparâmetros que maximiza a correlação total entre características e rótulos para mitigar a competição entre modalidades e superar as abordagens de aprendizado conjuntos e unimodais existentes.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

O artigo apresenta o B-DENSE, um novo framework que utiliza alinhamento de trajetória multi-ramo para fornecer supervisão densa em modelos de difusão, mitigando erros de discretização e melhorando a qualidade da geração de imagens em comparação com métodos de destilação tradicionais.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

O artigo apresenta o CoPeDiT, um modelo de difusão latente unificado equipado com percepção de completude que, ao inferir automaticamente estados de dados ausentes sem necessidade de guias externos, supera os métodos atuais na síntese de alta fidelidade e consistência estrutural de ressonâncias magnéticas 3D.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

O artigo "ChimeraLoRA" propõe um método que combina LoRAs compartilhados por classe e específicos por imagem, guiados por caixas delimitadoras semânticas e combinados via distribuição de Dirichlet, para gerar conjuntos de dados sintéticos diversos e ricos em detalhes que melhoram a precisão da classificação em cenários com poucos exemplos.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

O artigo apresenta o OrthoAI, uma estrutura neurosimbólica que integra segmentação de dentes por meio de supervisão esparsa, inferência de viabilidade biomecânica baseada em restrições e avaliação de tratamento multicritério para apoiar a decisão clínica automatizada na ortodontia com alinhadores transparentes.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artigo apresenta uma abordagem de duplo pipeline para segmentação de imagens de aves que utiliza modelos fundamentais de 2025, alcançando resultados supervisionados superiores e desempenho zero-shot inédito ao combinar Grounding DINO 1.5 ou YOLOv11 para detecção com o Segment Anything Model 2.1 para geração de máscaras, sem necessidade de retreinamento do modelo de segmentação.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

O artigo apresenta o DOCFORGE-BENCH, o primeiro benchmark zero-shot unificado para detecção de falsificação de documentos, revelando que a falha generalizada dos métodos atuais em cenários práticos não se deve à falta de capacidade discriminativa, mas sim a uma calibração inadequada dos limiares de decisão devido à extrema raridade de pixels adulterados, o que exige adaptação de limiar em vez de retreinamento para viabilizar a implantação.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

← Anterior Próximo →