GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

O artigo apresenta o GroundCount, um framework que integra modelos de detecção de objetos a Modelos Visuais-Linguísticos (VLMs) para mitigar alucinações de contagem, demonstrando que a ancoragem espacial explícita via prompts estruturados supera a fusão de características e melhora significativamente a precisão na maioria das arquiteturas avaliadas.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Este artigo apresenta o Dataset e a Métrica de Fidelidade de Cor (CFD e CFM) para avaliar objetivamente a autenticidade cromática em gerações de imagem, além de propor um método de refinamento (CFR) que corrige a tendência de imagens excessivamente vívidas, formando um framework progressivo para melhorar a fidelidade realista na geração de imagens por texto.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Em uma colaboração interdisciplinar, este estudo caracteriza os mecanismos pelos quais os Modelos de Linguagem Visual (VLMs) preveem estilos artísticos, revelando que a grande maioria dos conceitos extraídos é considerada coerente e relevante por historiadores da arte, embora o sucesso do modelo em alguns casos também possa ser atribuído à sua compreensão formal de características visuais como contrastes de luz e sombra.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

O artigo apresenta o DynVLA, um modelo de VLA para condução autônoma que introduz o paradigma "Dynamics CoT", utilizando um tokenizador de dinâmica para prever compactamente a evolução do mundo e decoplar dinâmicas egocêntricas e ambientais, resultando em decisões mais informadas e fisicamente fundamentadas que superam os métodos tradicionais de raciocínio textual e visual.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

Agentar-Fin-OCR

O artigo apresenta o Agentar-Fin-OCR, um sistema de parseamento de documentos otimizado para o setor financeiro que converte PDFs ultra-longos em saídas estruturadas com alta precisão e procedência auditável, combinando algoritmos de consolidação de conteúdo entre páginas e aprendizado curricular adaptativo, além de introduzir o FinDocBench, um novo benchmark com anotações verificadas por especialistas para avaliar e impulsionar aplicações de documentos financeiros.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

O artigo apresenta o NeFTY, um framework de física diferenciável que utiliza campos neurais para realizar a reconstrução quantitativa 3D de propriedades materiais e a localização de defeitos subsuperficiais a partir de medições térmicas, superando as limitações de métodos tradicionais e redes PINNs em cenários de difusão transitória.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

Image Captioning via Compact Bidirectional Architecture

Este artigo apresenta um modelo Transformer bidirecional compacto para legendagem de imagens que integra fluxos de esquerda para direita e de direita para esquerda em uma única arquitetura executável em paralelo, alcançando resultados state-of-the-art no conjunto de dados MSCOCO ao aproveitar o contexto bidirecional e técnicas de ensemble.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

O artigo apresenta o TIMotion, um framework eficiente e eficaz para geração de movimentos humanos interativos que supera as limitações dos métodos existentes ao empregar injeção interativa causal, varredura de papéis evolutivos e amplificação de padrões localizados para modelar com precisão as dinâmicas temporais e de interação entre duas pessoas.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artigo propõe um quadro unificado que modela a quantização e a esparsificação como ruído aditivo e introduz uma transformada de dequantização por dedução para estabelecer um caminho de gradiente explícito, permitindo o treinamento estável e robusto de redes neurais em precisões arbitrárias e níveis de esparsidade, incluindo regimes sub-bit e A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

O artigo apresenta o DRUPI, um método de condensação de dados que melhora o desempenho de modelos ao sintetizar informações privilegiadas (como rótulos de características ou atenção) junto com o conjunto de dados reduzido, oferecendo supervisão auxiliar que supera as abordagens tradicionais baseadas apenas em pares de dados e rótulos.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artigo propõe um método de aprendizado de representação não supervisionado que fatora transformações de variáveis latentes em componentes esparsos, decompondo um modelo de fluxo de probabilidade em campos vetoriais rotacionais e potenciais para gerar representações disjuntas que alcançam resultados de ponta em verossimilhança de dados e erros de equivariância aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Este artigo propõe uma técnica de compressão de imagens baseada em modelos que utiliza síntese de novas vistas e otimização por descida de gradiente para permitir o feedback visual em tempo real no controle de veículos operados remotamente subaquáticos, superando as limitações de largura de banda da comunicação acústica.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess