Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

O artigo demonstra que, em tarefas médicas de visão e linguagem, o raciocínio passo a passo (Chain-of-Thought) frequentemente performa pior que respostas diretas devido a um gargalo de percepção médica, mas propõe intervenções de ancoragem perceptiva e fundamentação descritiva para mitigar esse problema e melhorar a precisão dos modelos.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

O artigo apresenta o SJD-PV, um método de aceleração sem treinamento para geração de imagens autoregressiva que utiliza verificação especulativa em nível de frases, agrupando tokens visualmente correlacionados para reduzir a latência de inferência em até 30% sem comprometer a qualidade visual.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

O artigo apresenta o CalibFusion, um detector de fusão Radar-Câmera baseado em Transformers que realiza refinamento extrínseco diferenciável e em tempo real para melhorar a detecção 2D em ambientes de superfície aquática, superando as limitações das metodologias existentes que dependem de estruturas ricas e alvos abundantes.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Este estudo demonstra que, embora a inicialização com ruído semântico apresente uma tendência positiva marginal em dimensões temporais para modelos de geração de vídeo, ela não oferece ganhos estatisticamente significativos em relação ao ruído gaussiano padrão, sugerindo que os benefícios observados em imagens não se transferem diretamente para vídeos devido à instabilidade temporal.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Este artigo propõe um autoencoder CNN não supervisionado com uma função de perda de distância angular espectral ponderada (WSAD) para realizar a separação cega de imagens hiperespectrais de micro-FTIR em seções transversais de pinturas a óleo históricas, permitindo uma análise automatizada e mais interpretável dos materiais constituintes, como demonstrado no caso do Políptico de São Bavo.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

O artigo apresenta o AutoFigure-Edit, um sistema integrado que gera ilustrações científicas totalmente editáveis a partir de textos longos, permitindo adaptação estilística flexível por meio de imagens de referência e facilitando a criação e o refinamento eficiente de diagramas técnicos.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Este trabalho apresenta um modelo híbrido de classificação baseado em aprendizado de poucos exemplos e inteligência artificial explicável (XAI) que integra redes Siamesas e Prototípicas com Grad-CAM para diagnosticar com alta precisão e transparência doenças em folhas de milho, arroz e trigo, mesmo com dados anotados limitados.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

O artigo apresenta o MultiGen, um sistema de geração de jogos baseado em difusão que introduz uma memória externa persistente e editável para superar as limitações de controle do usuário e de simulação multiplayer em modelos de mundo atuais, permitindo experiências interativas reprodutíveis e consistentes entre múltiplos jogadores.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

O artigo apresenta o RADAR, um benchmark multimodal baseado em exames de tomografia computadorizada abdominal que avalia a capacidade de modelos de IA em analisar discrepâncias clínicas e revisar relatórios radiológicos, simulando o fluxo de trabalho onde radiologistas em treinamento elaboram relatórios preliminares revisados por especialistas.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

O artigo apresenta o ECHO, um framework multiagente que utiliza operações em hipergrafos e uma estratégia de "vincular antes de atribuir" para refinar iterativamente hipóteses de eventos multimídia, superando significativamente os métodos existentes na extração de eventos multimídia ao mitigar erros de alinhamento e propagação de erros.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

O artigo apresenta o TimeSpot, um novo benchmark com 1.455 imagens reais de 80 países para avaliar a capacidade de modelos de visão e linguagem de inferir atributos geográficos e temporais, revelando que os modelos atuais têm desempenho insuficiente nessa tarefa e destacando a necessidade de novos métodos para um entendimento geo-temporal robusto.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

O artigo apresenta o "Narrative Weaver", um novo framework que integra planejamento narrativo automatizado, controle fino e coerência visual de longo alcance para gerar conteúdo visual consistente e multi-modal, apoiado por uma estratégia de treinamento progressiva e pelo lançamento do primeiro dataset abrangente para storyboards de publicidade em e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Este artigo apresenta um novo quadro de aprendizado não supervisionado, baseado em filtragem por convolução e redes neurais com estratégias de parada antecipada, que permite a reconstrução de alta fidelidade de imagens de feixes de partículas e a detecção de halos além de sete desvios padrão em condições de dados ruidosos e sem conjuntos de treinamento.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Este estudo avalia a adaptação do modelo fundacional multimodal TerraMind para tarefas de imageamento hiperespectral sem pré-treinamento específico, comparando estratégias de seleção de bandas e agrupamento físico, e conclui que, embora a adaptação seja viável com perda moderada de desempenho, a integração nativa de dados espectrais em futuras arquiteturas é essencial para superar as limitações atuais.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artigo apresenta um framework robusto de detecção de uma única etapa para raquetes de badminton em robôs móveis, que inclui a criação de um novo conjunto de dados anotados semi-automaticamente, o desenvolvimento de um pipeline de anotação eficiente e a otimização de uma rede YOLOv8 para detecção em tempo real em viewpoints dinâmicos e ambientes variados.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs