DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

O artigo apresenta o DrivingGen, o primeiro benchmark abrangente para modelos de mundo generativos na condução autónoma, que combina um conjunto de dados diversificado com métricas inovadoras para avaliar a realismo visual, a plausibilidade de trajetórias, a coerência temporal e o controlo, preenchendo lacunas críticas na avaliação e fomentando o desenvolvimento de simuladores mais fiáveis e seguros.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

O artigo apresenta o R^4, um framework agêntico autoaperfeiçoável que melhora a análise de imagens médicas através da decomposição do fluxo de trabalho em quatro agentes coordenados (roteamento, recuperação, reflexão e reparo), resultando em relatórios mais precisos e caixas delimitadoras melhor fundamentadas sem a necessidade de ajuste fino baseado em gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudo audita e realiza uma etnografia traçada do preditor LAION-Aesthetics, revelando como seu viés algorítmico reforça o olhar imperial e masculino ao filtrar desproporcionalmente imagens com representações de mulheres, homens e pessoas LGBTQ+, além de priorizar estilos artísticos ocidentais e japoneses, devido à origem de seus dados de treinamento em fotógrafos anglófonos e entusiastas de IA ocidentais.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

O artigo apresenta o "Single-Shot Planning" para Agentes de Uso de Computador, uma arquitetura de segurança que gera um plano de execução completo antes de observar o ambiente, garantindo integridade contra injeções de prompt e ataques de desvio de ramificação enquanto mantém ou melhora o desempenho em modelos de IA.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

O artigo apresenta o BoxMind, um sistema de IA de ciclo fechado que transforma dados de vídeo em estratégias táticas otimizadas, validado durante os Jogos Olímpicos de 2024 com contribuições diretas para o histórico desempenho da equipe nacional de boxe da China.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

O artigo apresenta o S2DiT, um modelo Transformer de Difusão em "sanduíche" otimizado para geração de vídeo em streaming de alta fidelidade em dispositivos móveis, que combina mecanismos de atenção híbrida e eficiente com um framework de destilação para alcançar desempenho comparável a modelos de servidor com mais de 10 FPS em iPhones.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

Este trabalho investiga o design de contratos de pagamento igualitário para equipes de agentes, estabelecendo algoritmos de aproximação eficientes e limites de dureza para diversas funções de recompensa, demonstrando que tais restrições de equidade resolvem problemas abertos no design de contratos não restritos e geram um custo de equidade (price of equality) de Θ(logn/loglogn)\Theta(\log n/ \log \log n).

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

O artigo apresenta o ReViP, um novo framework para modelos Visão-Linguagem-Ação que mitiga o problema de "falsa conclusão" através do reequilíbrio entre visão e propriocepção, utilizando pistas visuais conscientes do progresso do task para melhorar a robustez e o desempenho em tarefas de manipulação robótica.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Este artigo apresenta o ScenePilot-Bench, um benchmark e conjunto de dados em grande escala baseado em 3.847 horas de vídeos de direção, projetado para avaliar e impulsionar o desempenho de modelos de visão e linguagem em cenários de direção autônoma através de uma avaliação abrangente de compreensão de cena, percepção espacial e planejamento de movimento.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Este artigo apresenta o método QSTar, uma abordagem inovadora para Resposta a Perguntas Audiovisuais (AVQA) que supera as limitações dos métodos existentes ao integrar ativamente as informações da pergunta e as características de frequência do áudio em todo o processo de raciocínio, resultando em desempenho superior em diversos benchmarks.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

Este artigo apresenta um framework dinâmico para manter a conectividade por arestas kk em grafos simples não direcionados, utilizando certificados esparsos de Nagamochi-Ibaraki e árvores Link-Cut para inserções em tempo amortizado O(klogn)O(k \log n) e um cálculo de fluxo máximo para restaurar a conectividade após deleções em tempo O(k3/2n3/2)O(k^{3/2} n^{3/2}), garantindo que o grafo permaneça com O(kn)O(kn) arestas.

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Este artigo apresenta o BioAgent Bench, uma suite de avaliação e conjunto de dados que mede o desempenho e a robustez de agentes de IA em tarefas de bioinformática, revelando que, embora modelos de ponta consigam executar pipelines complexos, eles falham sob perturbações controladas e que modelos de pesos abertos são preferíveis em cenários que exigem privacidade de dados.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Este trabalho apresenta o R2M, um novo framework leve de RLHF que supera as limitações da otimização excessiva de recompensas ao alinhar o modelo de recompensa com as mudanças de distribuição da política em tempo real, utilizando estados ocultos da política em vez de depender apenas de informações semânticas superficiais.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Este estudo avalia o impacto da análise de sentimentos de notícias baseada em LLMs (DeBERTa, RoBERTa e FinBERT) na previsão de movimentos de preços de ações, demonstrando que o DeBERTa individualmente atinge 75% de precisão, um ensemble dos três modelos chega a 80% e que as características de sentimento oferecem benefícios modestos a diversos modelos de previsão.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Este artigo investiga como abordagens de design sensíveis à idade, utilizando tecnologias interativas e geração de vídeo por IA, permitem que mulheres chinesas aposentadas superem barreiras técnicas e transitem de meras espectadoras para co-criadoras empoderadas de suas performances de dança.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs