ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

O artigo apresenta o ObjChangeVR, um novo framework e dataset (ObjChangeVR-Dataset) projetados para superar os desafios de detectar mudanças de estado de objetos em ambientes de realidade virtual a partir de visões egocêntricas contínuas, especialmente quando ocorrem sem interação direta do usuário, demonstrando desempenho superior em comparação com abordagens de base.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Este artigo propõe um framework de consistência de margem com pontuação de fidelidade a perturbações para subtipar adenocarcinoma pulmonar invasivo em imagens de lâminas inteiras, alcançando alta precisão e robustez a variações de imagem e generalização entre instituições.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

O artigo apresenta o PaLMR, um framework que alinha tanto o resultado quanto o processo de raciocínio em modelos multimodais por meio de dados conscientes da percepção e uma fusão hierárquica de recompensas, reduzindo significativamente alucinações e alcançando resultados de ponta em benchmarks de raciocínio visual.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

Digital Twin-Enabled Mobility-Aware Cooperative Caching in Vehicular Edge Computing

Este artigo propõe o framework DAPR, que integra Aprendizado Federado Assíncrono, um modelo preditivo GRU-VAE e Aprendizado por Reforço Profundo para otimizar o cache cooperativo em computação de borda veicular, superando as limitações de seleção de clientes e precisão preditiva dos métodos tradicionais.

Jiahao Zeng, Zhenkui Shi, Chunpei Li, Mengkai Yan, Hongliang Zhang, Sihan Chen, Xiantao Hu, Xianxian Li2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

O artigo apresenta o GameVerse, um benchmark abrangente que demonstra como Modelos Visuais-Linguísticos podem aprimorar suas políticas de jogo através de um ciclo reflexivo que combina a análise de falhas e tutoriais em vídeo, funcionando como uma alternativa sem treinamento ao aprendizado por reforço e ao ajuste fino supervisionado.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

O artigo apresenta o ASMIL, um novo quadro unificado de aprendizado múltiplo de instâncias estabilizado por atenção que supera as limitações de instabilidade dinâmica, superajuste e concentração excessiva em imagens de lâminas inteiras, alcançando melhorias significativas no desempenho em comparação com os métodos mais avançados.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Este capítulo examina o potencial da inteligência artificial generativa para promover a coerência no ensino, aprendizagem e avaliação da alfabetização científica nos níveis K-16+, abordando seus benefícios, desafios e a arquitetura necessária para sua implementação.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

O artigo demonstra que, em tarefas médicas de visão e linguagem, o raciocínio passo a passo (Chain-of-Thought) frequentemente performa pior que respostas diretas devido a um gargalo de percepção médica, mas propõe intervenções de ancoragem perceptiva e fundamentação descritiva para mitigar esse problema e melhorar a precisão dos modelos.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

O artigo apresenta o SJD-PV, um método de aceleração sem treinamento para geração de imagens autoregressiva que utiliza verificação especulativa em nível de frases, agrupando tokens visualmente correlacionados para reduzir a latência de inferência em até 30% sem comprometer a qualidade visual.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

O artigo apresenta o SIL-GPO, um framework de aprendizado por reforço que utiliza redes de atenção em grafos e aprendizado de auto-imitação para otimizar a orquestração híbrida de serviços de IA de borda e microsserviços, reduzindo significativamente a latência e melhorando a utilização de recursos em comparação com abordagens existentes.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

O artigo apresenta o CalibFusion, um detector de fusão Radar-Câmera baseado em Transformers que realiza refinamento extrínseco diferenciável e em tempo real para melhorar a detecção 2D em ambientes de superfície aquática, superando as limitações das metodologias existentes que dependem de estruturas ricas e alvos abundantes.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Este estudo demonstra que, embora a inicialização com ruído semântico apresente uma tendência positiva marginal em dimensões temporais para modelos de geração de vídeo, ela não oferece ganhos estatisticamente significativos em relação ao ruído gaussiano padrão, sugerindo que os benefícios observados em imagens não se transferem diretamente para vídeos devido à instabilidade temporal.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

O artigo apresenta o AutoFigure-Edit, um sistema integrado que gera ilustrações científicas totalmente editáveis a partir de textos longos, permitindo adaptação estilística flexível por meio de imagens de referência e facilitando a criação e o refinamento eficiente de diagramas técnicos.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

O artigo apresenta o MultiGen, um sistema de geração de jogos baseado em difusão que introduz uma memória externa persistente e editável para superar as limitações de controle do usuário e de simulação multiplayer em modelos de mundo atuais, permitindo experiências interativas reprodutíveis e consistentes entre múltiplos jogadores.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs