CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Este artigo apresenta o "Jr. AI Scientist", um sistema autônomo de ponta que simula o fluxo de trabalho de um pesquisador iniciante para gerar contribuições científicas válidas a partir de artigos de base, demonstrando desempenho superior em avaliações automatizadas enquanto identifica riscos e limitações críticos para a aplicação futura desses sistemas.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Counting Through Occlusion: Framework for Open World Amodal Counting

O artigo apresenta o CountOCC, um novo framework de contagem amodal que supera as limitações de métodos atuais em cenários de oclusão ao reconstruir hierarquicamente as características de objetos ocultos através de orientação multimodal e de um objetivo de equivalência visual, alcançando desempenho superior de última geração em conjuntos de dados ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Este trabalho propõe um novo método de ataque adversarial para redes hiperbólicas, chamado Angular Gradient Sign, que explora as propriedades geométricas do espaço hiperbólico ao aplicar perturbações apenas na direção angular (semântica) do gradiente, resultando em taxas de engano superiores e revelando vulnerabilidades específicas dessas representações hierárquicas.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

O artigo apresenta o Video2Layout, um framework que supera as limitações dos mapas cognitivos baseados em grades ao reconstruir layouts espaciais metricamente fundamentados a partir de coordenadas contínuas de limites de objetos, resultando em um modelo (V2LO-7B) que demonstra melhorias significativas no raciocínio espacial em comparação com métodos tradicionais.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

O artigo propõe o Radiative-Structured Neural Operator (RSNO), uma nova abordagem que utiliza um operador neural para aprender um mapeamento contínuo no domínio espectral e impõe consistência física através de um prior radiativo e projeções de consistência angular, superando as limitações dos métodos baseados em vetores discretos na super-resolução espectral.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

O artigo apresenta o UnfoldLDM, uma nova arquitetura de redes de desdobramento profundo que integra um modelo de difusão latente para superar as limitações de dependência de degradação e viés de suavização excessiva, permitindo a restauração cega de imagens com recuperação eficaz de detalhes de alta frequência.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

O artigo apresenta o Yo'City, um novo framework agêntico que utiliza modelos de linguagem grandes para gerar cenas de cidades 3D realistas, personalizadas e infinitamente expansíveis através de um planejamento hierárquico, síntese de imagens isométricas e um mecanismo de expansão guiado por relações espaciais e semânticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Este estudo apresenta o ForamDeepSlice, um framework de aprendizado profundo baseado em um ensemble de redes neurais que alcança alta precisão na classificação automática de espécies de foraminíferos a partir de fatias 2D de micro-TC, estabelecendo novos benchmarks para identificação micropaleontológica assistida por IA.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

O artigo apresenta o S2AM3D, um modelo inovador para segmentação de partes em nuvens de pontos 3D que combina prios de segmentação 2D com supervisão 3D consistente e um decodificador sensível à escala para ajustar a granularidade, apoiado por um novo conjunto de dados de grande escala que supera as limitações de generalização e consistência das abordagens existentes.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

O artigo apresenta o HiconAgent, um agente de interface gráfica otimizado com a estratégia HCPO, que utiliza amostragem de contexto dinâmico e compressão de histórico guiada por âncoras para melhorar a eficiência e o desempenho em tarefas de navegação sequencial, superando modelos maiores com menor custo computacional.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

O artigo apresenta o MAViD, um novo framework multimodal que utiliza uma arquitetura Conductor-Creator combinando modelos autoregressivos e de difusão para superar as limitações de sistemas existentes e gerar diálogos interativos de longa duração com áudio e vídeo sincronizados, coerentes e de alta qualidade.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artigo demonstra que, em camadas profundas de Modelos de Linguagem Visuais Grandes (VLLMs), os tokens visuais perdem progressivamente sua relevância até um "horizonte de informação", tornando a poda aleatória mais eficiente do que métodos existentes e permitindo alcançar resultados de ponta ao eliminar 50% dos tokens visuais sem comprometer significativamente o desempenho.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs