UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

O artigo apresenta o UnfoldLDM, uma nova arquitetura de redes de desdobramento profundo que integra um modelo de difusão latente para superar as limitações de dependência de degradação e viés de suavização excessiva, permitindo a restauração cega de imagens com recuperação eficaz de detalhes de alta frequência.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

O artigo apresenta o Yo'City, um novo framework agêntico que utiliza modelos de linguagem grandes para gerar cenas de cidades 3D realistas, personalizadas e infinitamente expansíveis através de um planejamento hierárquico, síntese de imagens isométricas e um mecanismo de expansão guiado por relações espaciais e semânticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

O artigo apresenta o DOPD, uma arquitetura dinâmica de desagregação de pré-preenchimento e decodificação para inferência de LLMs que ajusta automaticamente a alocação de recursos com base na carga em tempo real, superando desequilíbrios de workloads heterogêneos e alcançando ganhos significativos em boa produção e cumprimento de SLOs em comparação com abordagens existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Este artigo apresenta um framework multiagente assistido por LLM que automatiza o projeto e a adaptação de sistemas de controle para manufatura rolo-a-rolo, garantindo segurança e reduzindo o esforço de ajuste manual através de identificação de sistema, seleção automática de controladores e adaptação simula-real validada experimentalmente.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

O artigo apresenta o S2AM3D, um modelo inovador para segmentação de partes em nuvens de pontos 3D que combina prios de segmentação 2D com supervisão 3D consistente e um decodificador sensível à escala para ajustar a granularidade, apoiado por um novo conjunto de dados de grande escala que supera as limitações de generalização e consistência das abordagens existentes.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Este artigo apresenta o CAEC, um sistema baseado na Arquitetura de Computação Confidencial (CCA) da Arm que introduz Memória Compartilhada Confidencial (CSM) para permitir o compartilhamento seguro e de alto desempenho de dados entre Máquinas Virtuais Confidenciais (CVMs) sem acesso do hipervisor, eliminando a necessidade de criptografia onerosa e reduzindo drasticamente o uso de ciclos de CPU.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

O artigo apresenta o HiconAgent, um agente de interface gráfica otimizado com a estratégia HCPO, que utiliza amostragem de contexto dinâmico e compressão de histórico guiada por âncoras para melhorar a eficiência e o desempenho em tarefas de navegação sequencial, superando modelos maiores com menor custo computacional.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

O artigo apresenta o MAViD, um novo framework multimodal que utiliza uma arquitetura Conductor-Creator combinando modelos autoregressivos e de difusão para superar as limitações de sistemas existentes e gerar diálogos interativos de longa duração com áudio e vídeo sincronizados, coerentes e de alta qualidade.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artigo demonstra que, em camadas profundas de Modelos de Linguagem Visuais Grandes (VLLMs), os tokens visuais perdem progressivamente sua relevância até um "horizonte de informação", tornando a poda aleatória mais eficiente do que métodos existentes e permitindo alcançar resultados de ponta ao eliminar 50% dos tokens visuais sem comprometer significativamente o desempenho.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

O artigo apresenta o ReMeDI-SAM3, uma extensão sem treinamento do modelo SAM3 que aprimora a segmentação de instrumentos cirúrgicos em vídeos endoscópicos ao introduzir filtragem de memória orientada à relevância, interpolação de memória e reidentificação baseada em características para superar desafios como oclusões e movimentos rápidos, alcançando desempenho superior ao de abordagens anteriores treinadas em conjuntos de dados públicos.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudo analisa as discrepâncias entre a percepção subjetiva e a medição objetiva de áreas verdes urbanas em cinco países, revelando que, embora demografia e personalidade não influenciem significativamente essa percepção, o local de residência do indivíduo é um fator determinante na forma como a vegetação é observada.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

O artigo apresenta o VOIC, um novo método de conclusão semântica de cenas 3D baseado em visão monoculares que introduz uma estratégia de extração de rótulos de regiões visíveis e uma rede de dupla decodificação para separar e otimizar a percepção de áreas visíveis e o raciocínio sobre regiões ocluídas, alcançando desempenho superior em benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artigo demonstra que, em ambientes de nuvem como o Google BigQuery, os modelos de linguagem com raciocínio reduzem significativamente os custos de execução de consultas Text-to-SQL ao processarem menos dados e evitarem padrões ineficientes, revelando que a otimização de tempo não garante eficiência financeira e fornecendo diretrizes para mitigar riscos em ambientes corporativos.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs