OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

O artigo apresenta o OPENXRD, um framework abrangente de benchmarking para avaliar a capacidade de modelos de linguagem (LLMs) e multimodais (MLLMs) de assimilar informações contextuais em perguntas sobre difração de raios-X, demonstrando que materiais revisados por especialistas e modelos de porte médio obtêm os maiores ganhos de desempenho em comparação com conteúdos gerados por IA e modelos muito grandes.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Este estudo apresenta um framework baseado em agentes de LLM para simular a evolução das atitudes dos cidadãos dos EUA em relação à China entre 2005 e 2025, demonstrando que a introdução de um agente "advogado do diabo" é a estratégia mais eficaz para mitigar vieses de mídia e promover opiniões mais alinhadas com a cognição humana, ao mesmo tempo que revela vieses inerentes dependentes da origem geográfica dos modelos.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

O artigo propõe o método SFDA-PFT, uma abordagem leve de adaptação de domínio sem fonte que utiliza tradução de características no espaço latente para personalizar modelos de reconhecimento de expressões faciais usando apenas dados de alvo neutros, superando as limitações de métodos existentes e evitando a geração instável de imagens.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

O artigo apresenta o EgoCross, um novo benchmark abrangente para avaliar a generalização de modelos de linguagem multimodal em cenários de vídeo egocêntrico que transcendem atividades cotidianas, cobrindo domínios desafiadores como cirurgia, indústria, esportes extremos e perspectiva animal.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

O artigo apresenta o TaoSR1, um novo paradigma que adapta Grandes Modelos de Linguagem (LLMs) para a previsão de relevância em buscas de e-commerce, utilizando um processo de três etapas com raciocínio passo a passo (Chain-of-Thought) e otimização de preferências para superar limitações de modelos anteriores e alcançar desempenho superior tanto em testes offline quanto em avaliações online.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Este artigo apresenta o CMASE, um quadro de trabalho para experimentos computacionais em sociedades multiagentes que integra agentes generativos com métodos etnográficos virtuais, permitindo que pesquisadores atuem como participantes embutidos para simular, interpretar e intervir em fenômenos sociais complexos com rigor causal e precisão empírica.

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

O artigo apresenta o v-HUB, um novo benchmark para compreensão de humor em vídeos que utiliza vídeos não verbais e anotações ricas para avaliar modelos de linguagem multimodal, demonstrando que a integração de pistas auditivas melhora significativamente a capacidade desses modelos de entender o humor.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

O artigo apresenta o AlphaApollo, um sistema de raciocínio agênico que supera limitações em modelos fundamentais ao combinar interações de múltiplas voltas, aprendizado por reforço e evolução iterativa para melhorar significativamente o desempenho em tarefas de raciocínio complexo e de longo prazo.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI