EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf AljundiWed, 11 Ma🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

O artigo apresenta o World2Mind, um kit de ferramentas de inteligência espacial sem treinamento que, ao construir mapas cognitivos estruturados e uma Árvore Espacial Alocêntrica (AST) a partir de reconstrução 3D e segmentação, permite que modelos de fundação realizem raciocínio espacial robusto e generalizável, alcançando desempenho superior mesmo em modelos puramente textuais.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin WangWed, 11 Ma🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Este artigo demonstra que a inferência baseada em simulação (SBI) é uma ferramenta viável para estimar parâmetros de modelos de interação de neutrinos, conseguindo refinar as configurações do gerador GENIE e aproximar-se de simulações alternativas como o NuWro, superando ligeiramente os ajustes empíricos anteriores ao utilizar dados experimentais do MicroBooNE.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe CeratiWed, 11 Ma⚛️ hep-ph

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

O artigo apresenta o SCENEBench, um conjunto de benchmarks para avaliar a compreensão de áudio além da transcrição de fala, focando em cenários de acessibilidade e industriais como a compreensão de sons ambientes, localização de ruído e reconhecimento de características vocais, e revela lacunas críticas no desempenho de modelos de linguagem de áudio de última geração.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Este artigo apresenta o framework DAPL, que utiliza modelagem de mundo explícita para aprender representações de dinâmicas induzidas por contato, permitindo que a destreza extrínseca em cenas desordenadas surja naturalmente sem heurísticas manuais e superando métodos existentes tanto em simulação quanto em aplicações do mundo real.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

O artigo apresenta o MedMASLab, um framework unificado e plataforma de benchmarking para sistemas de agentes médicos multimodais que estabelece um protocolo de comunicação padronizado, um avaliador de raciocínio clínico automatizado e o maior conjunto de testes até a data, revelando lacunas críticas de desempenho na transição entre subdomínios médicos especializados.

Yunhang Qian, Xiaobin Hu, Jiaquan Yu, Siyang Xin, Xiaokun Chen, Jiangning Zhang, Peng-Tao Jiang, Jiawei Liu, Hongwei Bran LiWed, 11 Ma🤖 cs.AI

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

O artigo apresenta o ACADiff, um framework baseado em difusão latente que utiliza dados clínicos e metadados para sintetizar modalidades de imagem cerebral ausentes e realizar a imputação de dados multimodais, demonstrando desempenho superior na geração de imagens e na manutenção da precisão diagnóstica para a doença de Alzheimer mesmo em cenários com até 80% de dados faltantes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging InitiativeWed, 11 Ma🤖 cs.AI