RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

O artigo apresenta o RADAR, um benchmark multimodal baseado em exames de tomografia computadorizada abdominal que avalia a capacidade de modelos de IA em analisar discrepâncias clínicas e revisar relatórios radiológicos, simulando o fluxo de trabalho onde radiologistas em treinamento elaboram relatórios preliminares revisados por especialistas.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

O artigo apresenta o ECHO, um framework multiagente que utiliza operações em hipergrafos e uma estratégia de "vincular antes de atribuir" para refinar iterativamente hipóteses de eventos multimídia, superando significativamente os métodos existentes na extração de eventos multimídia ao mitigar erros de alinhamento e propagação de erros.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

O artigo apresenta o "Narrative Weaver", um novo framework que integra planejamento narrativo automatizado, controle fino e coerência visual de longo alcance para gerar conteúdo visual consistente e multi-modal, apoiado por uma estratégia de treinamento progressiva e pelo lançamento do primeiro dataset abrangente para storyboards de publicidade em e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Este estudo avalia a adaptação do modelo fundacional multimodal TerraMind para tarefas de imageamento hiperespectral sem pré-treinamento específico, comparando estratégias de seleção de bandas e agrupamento físico, e conclui que, embora a adaptação seja viável com perda moderada de desempenho, a integração nativa de dados espectrais em futuras arquiteturas é essencial para superar as limitações atuais.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artigo apresenta um framework robusto de detecção de uma única etapa para raquetes de badminton em robôs móveis, que inclui a criação de um novo conjunto de dados anotados semi-automaticamente, o desenvolvimento de um pipeline de anotação eficiente e a otimização de uma rede YOLOv8 para detecção em tempo real em viewpoints dinâmicos e ambientes variados.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

O artigo apresenta o HARP, um framework de aprendizado profundo que harmoniza dados de ressonância magnética de difusão in vivo entre diferentes scanners utilizando exclusivamente treinamento com fantomas, eliminando a necessidade de sujeitos humanos viajantes e viabilizando estudos clínicos em grande escala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este artigo apresenta um método que utiliza rastreamento ocular sequencial como supervisão para guiar modelos de visão e linguagem na radiologia, introduzindo tokens de olhar que ensinam o modelo a adquirir evidências visuais de forma temporalmente ordenada, semelhante ao raciocínio humano, resultando em desempenho superior e maior robustez.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este artigo demonstra que a destilação de conhecimento assimétrica de um Vision Transformer para CNNs de capacidade limitada no CIFAR-10 induz um colapso dimensional severo que reduz a imunidade ao ruído do modelo, revelando um trade-off crítico onde restrições de capacidade extremas atuam como filtros de baixa frequência mais robustos do que modelos ligeiramente maiores que sofrem de fragilidade geométrica.

Kabir Thayani2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artigo apresenta o SIQA, um novo framework e benchmark para avaliação de qualidade de imagens científicas que, ao diferenciar entre validação de conhecimento e percepção visual, revela que os modelos de linguagem multimodal atuais conseguem alinhar-se bem com as avaliações de especialistas, mas ainda possuem compreensão científica substancialmente inferior.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Este artigo apresenta uma abordagem que estende a mineração de especificações a tipos de dados mais ricos, unificando a síntese de transformações de dados e especificações temporais via TSLf_f para gerar programas reativos com maior eficiência de amostragem e robustez em comparação a métodos tradicionais baseados em abstração booleana.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Este artigo apresenta a "kiri-spoon", uma colher de utensílio reconfigurável baseada em pivô e kirigami, desenvolvida em colaboração com stakeholders para permitir que adultos com tremores essenciais ou Parkinson possam alimentar-se de forma independente ou assistida por robôs, prevenindo derramamentos ao permitir que o usuário aperte as alças para prender ou escorar os alimentos.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artigo apresenta uma abordagem de planejamento hierárquico que integra dados suplementares de satélites geoestacionários para melhorar o desempenho do direcionamento dinâmico de observações de satélites, superando as limitações de sensores a bordo e alcançando ganhos de até 41% em cenários como evasão de nuvens e caça a tempestades.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs