HiconAgent: History Context-aware Policy Optimization for GUI Agents

O artigo apresenta o HiconAgent, um agente de interface gráfica otimizado com a estratégia HCPO, que utiliza amostragem de contexto dinâmico e compressão de histórico guiada por âncoras para melhorar a eficiência e o desempenho em tarefas de navegação sequencial, superando modelos maiores com menor custo computacional.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

O artigo apresenta o MAViD, um novo framework multimodal que utiliza uma arquitetura Conductor-Creator combinando modelos autoregressivos e de difusão para superar as limitações de sistemas existentes e gerar diálogos interativos de longa duração com áudio e vídeo sincronizados, coerentes e de alta qualidade.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artigo demonstra que, em camadas profundas de Modelos de Linguagem Visuais Grandes (VLLMs), os tokens visuais perdem progressivamente sua relevância até um "horizonte de informação", tornando a poda aleatória mais eficiente do que métodos existentes e permitindo alcançar resultados de ponta ao eliminar 50% dos tokens visuais sem comprometer significativamente o desempenho.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

O artigo apresenta o ReMeDI-SAM3, uma extensão sem treinamento do modelo SAM3 que aprimora a segmentação de instrumentos cirúrgicos em vídeos endoscópicos ao introduzir filtragem de memória orientada à relevância, interpolação de memória e reidentificação baseada em características para superar desafios como oclusões e movimentos rápidos, alcançando desempenho superior ao de abordagens anteriores treinadas em conjuntos de dados públicos.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudo analisa as discrepâncias entre a percepção subjetiva e a medição objetiva de áreas verdes urbanas em cinco países, revelando que, embora demografia e personalidade não influenciem significativamente essa percepção, o local de residência do indivíduo é um fator determinante na forma como a vegetação é observada.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

O artigo apresenta o VOIC, um novo método de conclusão semântica de cenas 3D baseado em visão monoculares que introduz uma estratégia de extração de rótulos de regiões visíveis e uma rede de dupla decodificação para separar e otimizar a percepção de áreas visíveis e o raciocínio sobre regiões ocluídas, alcançando desempenho superior em benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artigo demonstra que, em ambientes de nuvem como o Google BigQuery, os modelos de linguagem com raciocínio reduzem significativamente os custos de execução de consultas Text-to-SQL ao processarem menos dados e evitarem padrões ineficientes, revelando que a otimização de tempo não garante eficiência financeira e fornecendo diretrizes para mitigar riscos em ambientes corporativos.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

O artigo apresenta o DrivingGen, o primeiro benchmark abrangente para modelos de mundo generativos na condução autónoma, que combina um conjunto de dados diversificado com métricas inovadoras para avaliar a realismo visual, a plausibilidade de trajetórias, a coerência temporal e o controlo, preenchendo lacunas críticas na avaliação e fomentando o desenvolvimento de simuladores mais fiáveis e seguros.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

O artigo apresenta o R^4, um framework agêntico autoaperfeiçoável que melhora a análise de imagens médicas através da decomposição do fluxo de trabalho em quatro agentes coordenados (roteamento, recuperação, reflexão e reparo), resultando em relatórios mais precisos e caixas delimitadoras melhor fundamentadas sem a necessidade de ajuste fino baseado em gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudo audita e realiza uma etnografia traçada do preditor LAION-Aesthetics, revelando como seu viés algorítmico reforça o olhar imperial e masculino ao filtrar desproporcionalmente imagens com representações de mulheres, homens e pessoas LGBTQ+, além de priorizar estilos artísticos ocidentais e japoneses, devido à origem de seus dados de treinamento em fotógrafos anglófonos e entusiastas de IA ocidentais.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

O artigo apresenta o "Single-Shot Planning" para Agentes de Uso de Computador, uma arquitetura de segurança que gera um plano de execução completo antes de observar o ambiente, garantindo integridade contra injeções de prompt e ataques de desvio de ramificação enquanto mantém ou melhora o desempenho em modelos de IA.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

O artigo apresenta o BoxMind, um sistema de IA de ciclo fechado que transforma dados de vídeo em estratégias táticas otimizadas, validado durante os Jogos Olímpicos de 2024 com contribuições diretas para o histórico desempenho da equipe nacional de boxe da China.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs