The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artigo propõe um novo quadro de avaliação e a métrica CRT para analisar a "iconicidade multimodal" em modelos de difusão, distinguindo entre o reconhecimento de referências culturais e sua realização (replicação ou reinterpretação), demonstrando que o comportamento desses modelos em contextos culturalmente icônicos depende de fatores como frequência de dados, unicidade textual e popularidade, indo além da simples reprodução de imagens.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

XR-DT: Extended Reality-Enhanced Digital Twin for Safe Motion Planning via Human-Aware Model Predictive Path Integral Control

Este artigo apresenta o XR-DT, um quadro de Gêmeo Digital aprimorado por Realidade Estendida que integra um controlador de planejamento de trajetória HA-MPPI com um modelo de previsão humana baseado em Transformer (ATLAS) para garantir navegação segura, eficiente e interpretável de robôs móveis em ambientes compartilhados com humanos.

Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Yiming Xu, Jihyung Park, Tianyi Zeng, Sikai Chen, Ziran Wang, Junfeng Jiao, Christian Claudel2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Este trabalho propõe um método que utiliza a família de divergências α\alpha para aproximar uma distribuição-alvo filtrada, permitindo controlar o compromisso entre precisão e diversidade em modelos de linguagem e alcançando desempenho superior em provas de teoremas ao superar as limitações de perda de diversidade típicas do Aprendizado por Reforço.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Este trabalho propõe uma abordagem baseada em nuvem de pontos para estimativa de pose humana que explora as propriedades espaço-temporais de câmeras de eventos, utilizando módulos de convolução de fatias temporais e representação de nuvem de pontos aprimorada por bordas para melhorar a precisão e a eficiência computacional sem converter os fluxos de eventos em quadros densos.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Este artigo propõe uma nova métrica de sensibilidade global baseada em Curvas de Expectativa Condicional Individual (ICE) para superar as limitações dos Gráficos de Dependência Parcial (PDP) na presença de interações fortes, demonstrando matematicamente sua superioridade e validando-a em casos de engenharia aeroespacial e eólica através de comparações com métodos como SHAP e índices de Sobol'.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph Morlier2026-03-09🤖 cs.AI

Understanding and Improving Hyperbolic Deep Reinforcement Learning

O artigo apresenta o Hyper++, um novo agente de aprendizado por reforço em geometria hiperbólica que supera desafios de otimização através de regularização de características, perda categórica de valor e camadas de rede reformuladas, garantindo treinamento estável e desempenho superior em benchmarks como ProcGen e Atari-5.

Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek2026-03-09🤖 cs.AI

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

O artigo apresenta o CASA, um modelo que reinvestiga e demonstra a eficácia da atenção cruzada como uma alternativa eficiente e de baixa latência à inserção de tokens para fusão visão-linguagem, superando limitações anteriores de desempenho e custo computacional em aplicações como legendagem de vídeo em tempo real.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal

O artigo apresenta o CARE, um framework de pós-treinamento para raciocínio multimodal que transforma falhas em sinal de supervisão através de um objetivo contrastivo ancorado e de uma reamostragem guiada por reflexão, resultando em ganhos significativos de precisão e suavidade no treinamento em comparação com métodos existentes.

Yongxin Wang, Zhicheng Yang, Meng Cao, Mingfei Han, Haokun Lin, Yingying Zhu, Xiaojun Chang, Xiaodan Liang2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Este artigo apresenta o WBC (Window-Based Comparison), um novo método de ataque de inferência de associação que supera as abordagens globais ao utilizar janelas deslizantes para capturar sinais localizados de memorização em modelos de linguagem grandes, demonstrando superioridade significativa em precisão e taxas de detecção em diversos conjuntos de dados.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

O artigo apresenta o SpatialMem, um sistema baseado em memória que utiliza uma estrutura espacial métrica 3D como índice interpretável para permitir a recuperação e perguntas e respostas (QA) fundamentadas em linguagem a partir de vídeos egocêntricos de longo alcance, demonstrando robustez em cenários reais sem a necessidade de sensores especializados.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

O artigo propõe o Aprendizado em Contexto Localizado (L-ICL), uma técnica que corrige iterativamente os erros de planejadores baseados em Grandes Modelos de Linguagem (LLMs) ao injetar exemplos de correção específicos para as primeiras violações de restrições, resultando em planos válidos significativamente mais frequentes do que métodos tradicionais em diversas tarefas de planejamento simbólico.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artigo apresenta estudos de caso e técnicas comuns que demonstram como a colaboração com modelos de IA avançados, especificamente o Gemini, pode acelerar a descoberta científica em áreas como ciência da computação teórica e física, atuando como um parceiro genuíno na resolução de problemas abertos, refutação de conjecturas e geração de novas provas.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI