TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

O artigo apresenta o TriFusion-SR, um novo framework baseado em difusão condicional guiada por wavelets que realiza a fusão conjunta e a super-resolução de imagens médicas tri-modais, superando os métodos existentes ao decompor características em bandas de frequência e calibrar coeficientes latentes para obter ganhos significativos em qualidade perceptual e métricas de precisão.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

O artigo apresenta o Robotic Scene Cloning (RSC), um método inovador que aprimora a adaptação zero-shot de robôs a novos cenários de manipulação ao editar trajetórias existentes por meio de prompts visuais, permitindo a geração de amostras consistentes e a transferência eficaz de políticas para ambientes reais sem necessidade de coleta extensiva de dados.

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong Chen2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

O artigo apresenta o FrameDiT, uma arquitetura de Transformer de Difusão que introduz o mecanismo de Atenção Matricial em nível de quadro para superar o compromisso entre eficiência e modelagem de dinâmicas espaço-temporais complexas, alcançando resultados de ponta na geração de vídeo com alta coerência temporal e qualidade.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

Este artigo apresenta um filtro de Kalman de conjunto regularizado para modelos de campo de fase de fratura frágil, que atualiza o estado do modelo (deslocamentos e campo de fase) com dados de sensores via inferência bayesiana, corrigindo violações de suposições de modelagem através de uma técnica de regularização baseada em campo de fase.

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

O artigo apresenta o WVA, um plano de controle de otimização global co-projetado com o \texttt{llmd} que supera as limitações dos autoscalers tradicionais ao integrar o estado interno do servidor de inferência e a heterogeneidade de hardware, resultando em um aumento de 37% no rendimento efetivo, uma redução de 10 vezes nas falhas de requisição e menor consumo de energia.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

O artigo apresenta o FetalAgents, o primeiro sistema multi-agente que orquestra especialistas de visão computacional para analisar ultrassons fetais em vídeo e gerar relatórios clínicos estruturados, superando modelos existentes em precisão e adaptabilidade ao fluxo de trabalho clínico.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artigo apresenta o SACA, um novo quadro de alinhamento contrastivo sensível a etapas que extrai supervisão densa de trajetórias imperfeitas para superar as limitações de generalização e estabilidade no treinamento de agentes de Navegação Visão-Linguagem em Ambientes Contínuos, alcançando desempenho state-of-the-art.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

O artigo apresenta o ENIGMA-360, um novo conjunto de dados sincronizado de vídeos egocêntricos e exocêntricos em cenários industriais reais, equipado com anotações temporais e espaciais para impulsionar a compreensão do comportamento humano e estabelecer linhas de base para tarefas como segmentação de ações e detecção de interações.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

O artigo apresenta o LAP, um modelo inovador que utiliza a expressividade da linguagem para superar a ambiguidade visual no planejamento de procedimentos em vídeos instrucionais, alcançando desempenho superior ao estado da arte em múltiplos benchmarks ao empregar um modelo de linguagem visual para gerar representações textuais distintas que alimentam um modelo de difusão para prever sequências de ações.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Este artigo defende que os videogames comerciais constituem um ambiente de pesquisa subutilizado e rico na interseção entre Interação Humano-Computador e Ciência Cognitiva, permitindo o estudo ecológico de percepção, atenção e funções executivas por meio de um mapeamento sistemático entre as affordances do jogo e processos cognitivos.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs