cs.CV artigos | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

O artigo apresenta o GroundCount, um framework que integra modelos de detecção de objetos a Modelos Visuais-Linguísticos (VLMs) para mitigar alucinações de contagem, demonstrando que a ancoragem espacial explícita via prompts estruturados supera a fusão de características e melhora significativamente a precisão na maioria das arquiteturas avaliadas.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Este artigo apresenta o Dataset e a Métrica de Fidelidade de Cor (CFD e CFM) para avaliar objetivamente a autenticidade cromática em gerações de imagem, além de propor um método de refinamento (CFR) que corrige a tendência de imagens excessivamente vívidas, formando um framework progressivo para melhorar a fidelidade realista na geração de imagens por texto.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Em uma colaboração interdisciplinar, este estudo caracteriza os mecanismos pelos quais os Modelos de Linguagem Visual (VLMs) preveem estilos artísticos, revelando que a grande maioria dos conceitos extraídos é considerada coerente e relevante por historiadores da arte, embora o sucesso do modelo em alguns casos também possa ser atribuído à sua compreensão formal de características visuais como contrastes de luz e sombra.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

O artigo apresenta o DynVLA, um modelo de VLA para condução autônoma que introduz o paradigma "Dynamics CoT", utilizando um tokenizador de dinâmica para prever compactamente a evolução do mundo e decoplar dinâmicas egocêntricas e ambientais, resultando em decisões mais informadas e fisicamente fundamentadas que superam os métodos tradicionais de raciocínio textual e visual.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

O artigo apresenta o V2M-Zero, um método inovador de geração de música sincronizada com vídeos que, ao alinhar as curvas de eventos temporais de cada modalidade de forma independente, alcança resultados superiores aos modelos baseados em dados pareados sem exigir treinamento cruzado ou pares de dados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

O artigo apresenta o Agentar-Fin-OCR, um sistema de parseamento de documentos otimizado para o setor financeiro que converte PDFs ultra-longos em saídas estruturadas com alta precisão e procedência auditável, combinando algoritmos de consolidação de conteúdo entre páginas e aprendizado curricular adaptativo, além de introduzir o FinDocBench, um novo benchmark com anotações verificadas por especialistas para avaliar e impulsionar aplicações de documentos financeiros.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

O artigo apresenta o NeFTY, um framework de física diferenciável que utiliza campos neurais para realizar a reconstrução quantitativa 3D de propriedades materiais e a localização de defeitos subsuperficiais a partir de medições térmicas, superando as limitações de métodos tradicionais e redes PINNs em cenários de difusão transitória.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

O artigo "LiTo" propõe uma representação latente 3D unificada que tokeniza campos de luz de superfície para modelar simultaneamente geometria e aparência dependente do ponto de vista, permitindo a geração de objetos 3D realistas com efeitos especulares e reflexos consistentes a partir de uma única imagem de entrada.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

O artigo propõe um sistema de IA totalmente automatizado que utiliza uma população de agentes inspirados em papéis de estúdio e críticos de LLM alinhados a preferências reais para gerar vídeos de comédia esboçada de alta qualidade, alcançando desempenho próximo ao de produções profissionais.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

Este artigo apresenta um modelo Transformer bidirecional compacto para legendagem de imagens que integra fluxos de esquerda para direita e de direita para esquerda em uma única arquitetura executável em paralelo, alcançando resultados state-of-the-art no conjunto de dados MSCOCO ao aproveitar o contexto bidirecional e técnicas de ensemble.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

O artigo apresenta o SDR-GAIN, um método inovador e em tempo real que utiliza redes adversariais generativas para completar a pose de pedestres oclusos em cenários de direção autônoma, superando abordagens convencionais na precisão da recuperação de keypoints e na velocidade de inferência.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

O artigo apresenta o PnLCalib, um pipeline de calibração baseado em otimização que utiliza um modelo 3D de campo de futebol, pontos-chave e linhas detectadas para superar as limitações dos métodos tradicionais e alcançar maior precisão e robustez na calibração de câmeras em vídeos esportivos de transmissão.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

O artigo propõe o DP-IQA, um método pioneiro de avaliação de qualidade de imagem cega que aproveita os priores de modelos de difusão pré-treinados e um processo de destilação de conhecimento para alcançar desempenho superior e generalização em imagens com distorções complexas do mundo real.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

O artigo apresenta o SGMD, um modelo de difusão de movimento guiado por estilo que integra características musicais e prompts de estilo para gerar sequências de dança realistas e controláveis, superando as limitações de alinhamento estilístico e flexibilidade existentes em abordagens anteriores.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

O artigo apresenta o TIMotion, um framework eficiente e eficaz para geração de movimentos humanos interativos que supera as limitações dos métodos existentes ao empregar injeção interativa causal, varredura de papéis evolutivos e amplificação de padrões localizados para modelar com precisão as dinâmicas temporais e de interação entre duas pessoas.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artigo propõe um quadro unificado que modela a quantização e a esparsificação como ruído aditivo e introduz uma transformada de dequantização por dedução para estabelecer um caminho de gradiente explícito, permitindo o treinamento estável e robusto de redes neurais em precisões arbitrárias e níveis de esparsidade, incluindo regimes sub-bit e A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

O artigo apresenta o DRUPI, um método de condensação de dados que melhora o desempenho de modelos ao sintetizar informações privilegiadas (como rótulos de características ou atenção) junto com o conjunto de dados reduzido, oferecendo supervisão auxiliar que supera as abordagens tradicionais baseadas apenas em pares de dados e rótulos.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artigo propõe um método de aprendizado de representação não supervisionado que fatora transformações de variáveis latentes em componentes esparsos, decompondo um modelo de fluxo de probabilidade em campos vetoriais rotacionais e potenciais para gerar representações disjuntas que alcançam resultados de ponta em verossimilhança de dados e erros de equivariância aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Este artigo propõe uma técnica de compressão de imagens baseada em modelos que utiliza síntese de novas vistas e otimização por descida de gradiente para permitir o feedback visual em tempo real no controle de veículos operados remotamente subaquáticos, superando as limitações de largura de banda da comunicação acústica.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Este artigo propõe um framework de aprendizado ativo eficiente em orçamento para modelos visão-linguagem, que utiliza agrupamento guiado por classe e consultas seletivas baseadas em limiares adaptativos para melhorar a precisão com menos dados rotulados.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← Anterior Próximo →