Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

O artigo demonstra que, em tarefas médicas de visão e linguagem, o raciocínio passo a passo (Chain-of-Thought) frequentemente performa pior que respostas diretas devido a um gargalo de percepção médica, mas propõe intervenções de ancoragem perceptiva e fundamentação descritiva para mitigar esse problema e melhorar a precisão dos modelos.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

O artigo apresenta o SJD-PV, um método de aceleração sem treinamento para geração de imagens autoregressiva que utiliza verificação especulativa em nível de frases, agrupando tokens visualmente correlacionados para reduzir a latência de inferência em até 30% sem comprometer a qualidade visual.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

O artigo apresenta o SIL-GPO, um framework de aprendizado por reforço que utiliza redes de atenção em grafos e aprendizado de auto-imitação para otimizar a orquestração híbrida de serviços de IA de borda e microsserviços, reduzindo significativamente a latência e melhorando a utilização de recursos em comparação com abordagens existentes.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

O artigo apresenta o CalibFusion, um detector de fusão Radar-Câmera baseado em Transformers que realiza refinamento extrínseco diferenciável e em tempo real para melhorar a detecção 2D em ambientes de superfície aquática, superando as limitações das metodologias existentes que dependem de estruturas ricas e alvos abundantes.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Este estudo demonstra que, embora a inicialização com ruído semântico apresente uma tendência positiva marginal em dimensões temporais para modelos de geração de vídeo, ela não oferece ganhos estatisticamente significativos em relação ao ruído gaussiano padrão, sugerindo que os benefícios observados em imagens não se transferem diretamente para vídeos devido à instabilidade temporal.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

O artigo apresenta o AutoFigure-Edit, um sistema integrado que gera ilustrações científicas totalmente editáveis a partir de textos longos, permitindo adaptação estilística flexível por meio de imagens de referência e facilitando a criação e o refinamento eficiente de diagramas técnicos.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

O artigo apresenta o MultiGen, um sistema de geração de jogos baseado em difusão que introduz uma memória externa persistente e editável para superar as limitações de controle do usuário e de simulação multiplayer em modelos de mundo atuais, permitindo experiências interativas reprodutíveis e consistentes entre múltiplos jogadores.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

O artigo apresenta o RADAR, um benchmark multimodal baseado em exames de tomografia computadorizada abdominal que avalia a capacidade de modelos de IA em analisar discrepâncias clínicas e revisar relatórios radiológicos, simulando o fluxo de trabalho onde radiologistas em treinamento elaboram relatórios preliminares revisados por especialistas.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

O artigo apresenta o ECHO, um framework multiagente que utiliza operações em hipergrafos e uma estratégia de "vincular antes de atribuir" para refinar iterativamente hipóteses de eventos multimídia, superando significativamente os métodos existentes na extração de eventos multimídia ao mitigar erros de alinhamento e propagação de erros.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

O artigo apresenta o "Narrative Weaver", um novo framework que integra planejamento narrativo automatizado, controle fino e coerência visual de longo alcance para gerar conteúdo visual consistente e multi-modal, apoiado por uma estratégia de treinamento progressiva e pelo lançamento do primeiro dataset abrangente para storyboards de publicidade em e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Este estudo avalia a adaptação do modelo fundacional multimodal TerraMind para tarefas de imageamento hiperespectral sem pré-treinamento específico, comparando estratégias de seleção de bandas e agrupamento físico, e conclui que, embora a adaptação seja viável com perda moderada de desempenho, a integração nativa de dados espectrais em futuras arquiteturas é essencial para superar as limitações atuais.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artigo apresenta um framework robusto de detecção de uma única etapa para raquetes de badminton em robôs móveis, que inclui a criação de um novo conjunto de dados anotados semi-automaticamente, o desenvolvimento de um pipeline de anotação eficiente e a otimização de uma rede YOLOv8 para detecção em tempo real em viewpoints dinâmicos e ambientes variados.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

O artigo apresenta o HARP, um framework de aprendizado profundo que harmoniza dados de ressonância magnética de difusão in vivo entre diferentes scanners utilizando exclusivamente treinamento com fantomas, eliminando a necessidade de sujeitos humanos viajantes e viabilizando estudos clínicos em grande escala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este artigo apresenta um método que utiliza rastreamento ocular sequencial como supervisão para guiar modelos de visão e linguagem na radiologia, introduzindo tokens de olhar que ensinam o modelo a adquirir evidências visuais de forma temporalmente ordenada, semelhante ao raciocínio humano, resultando em desempenho superior e maior robustez.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs