ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

O artigo apresenta o ReMeDI-SAM3, uma extensão sem treinamento do modelo SAM3 que aprimora a segmentação de instrumentos cirúrgicos em vídeos endoscópicos ao introduzir filtragem de memória orientada à relevância, interpolação de memória e reidentificação baseada em características para superar desafios como oclusões e movimentos rápidos, alcançando desempenho superior ao de abordagens anteriores treinadas em conjuntos de dados públicos.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudo analisa as discrepâncias entre a percepção subjetiva e a medição objetiva de áreas verdes urbanas em cinco países, revelando que, embora demografia e personalidade não influenciem significativamente essa percepção, o local de residência do indivíduo é um fator determinante na forma como a vegetação é observada.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

O artigo apresenta o VOIC, um novo método de conclusão semântica de cenas 3D baseado em visão monoculares que introduz uma estratégia de extração de rótulos de regiões visíveis e uma rede de dupla decodificação para separar e otimizar a percepção de áreas visíveis e o raciocínio sobre regiões ocluídas, alcançando desempenho superior em benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artigo demonstra que, em ambientes de nuvem como o Google BigQuery, os modelos de linguagem com raciocínio reduzem significativamente os custos de execução de consultas Text-to-SQL ao processarem menos dados e evitarem padrões ineficientes, revelando que a otimização de tempo não garante eficiência financeira e fornecendo diretrizes para mitigar riscos em ambientes corporativos.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

O artigo apresenta o DrivingGen, o primeiro benchmark abrangente para modelos de mundo generativos na condução autónoma, que combina um conjunto de dados diversificado com métricas inovadoras para avaliar a realismo visual, a plausibilidade de trajetórias, a coerência temporal e o controlo, preenchendo lacunas críticas na avaliação e fomentando o desenvolvimento de simuladores mais fiáveis e seguros.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

O artigo apresenta o R^4, um framework agêntico autoaperfeiçoável que melhora a análise de imagens médicas através da decomposição do fluxo de trabalho em quatro agentes coordenados (roteamento, recuperação, reflexão e reparo), resultando em relatórios mais precisos e caixas delimitadoras melhor fundamentadas sem a necessidade de ajuste fino baseado em gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudo audita e realiza uma etnografia traçada do preditor LAION-Aesthetics, revelando como seu viés algorítmico reforça o olhar imperial e masculino ao filtrar desproporcionalmente imagens com representações de mulheres, homens e pessoas LGBTQ+, além de priorizar estilos artísticos ocidentais e japoneses, devido à origem de seus dados de treinamento em fotógrafos anglófonos e entusiastas de IA ocidentais.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

O artigo apresenta o "Single-Shot Planning" para Agentes de Uso de Computador, uma arquitetura de segurança que gera um plano de execução completo antes de observar o ambiente, garantindo integridade contra injeções de prompt e ataques de desvio de ramificação enquanto mantém ou melhora o desempenho em modelos de IA.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

O artigo apresenta o BoxMind, um sistema de IA de ciclo fechado que transforma dados de vídeo em estratégias táticas otimizadas, validado durante os Jogos Olímpicos de 2024 com contribuições diretas para o histórico desempenho da equipe nacional de boxe da China.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

O artigo apresenta o S2DiT, um modelo Transformer de Difusão em "sanduíche" otimizado para geração de vídeo em streaming de alta fidelidade em dispositivos móveis, que combina mecanismos de atenção híbrida e eficiente com um framework de destilação para alcançar desempenho comparável a modelos de servidor com mais de 10 FPS em iPhones.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

Este trabalho investiga o design de contratos de pagamento igualitário para equipes de agentes, estabelecendo algoritmos de aproximação eficientes e limites de dureza para diversas funções de recompensa, demonstrando que tais restrições de equidade resolvem problemas abertos no design de contratos não restritos e geram um custo de equidade (price of equality) de Θ(logn/loglogn)\Theta(\log n/ \log \log n).

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

O artigo apresenta o ReViP, um novo framework para modelos Visão-Linguagem-Ação que mitiga o problema de "falsa conclusão" através do reequilíbrio entre visão e propriocepção, utilizando pistas visuais conscientes do progresso do task para melhorar a robustez e o desempenho em tarefas de manipulação robótica.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs