cs artigos | Gist.Science

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

O artigo apresenta o UnfoldLDM, uma nova arquitetura de redes de desdobramento profundo que integra um modelo de difusão latente para superar as limitações de dependência de degradação e viés de suavização excessiva, permitindo a restauração cega de imagens com recuperação eficaz de detalhes de alta frequência.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Este estudo analisa como os usuários do Reddit negociam coletivamente as preocupações com a privacidade do ChatGPT, identificando práticas discursivas e adaptativas que servem para sinalizar riscos, estabelecer normas e promover alternativas que preservam a privacidade.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabalho apresenta um sistema estável de rastreamento GNSS para robôs marinhos, utilizando múltiplos drones com detecção visual, triangulação baseada em GNSS e um filtro de Kalman estendido ponderado por confiança para fornecer estimativas precisas e em tempo real na superfície e perto dela.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

O artigo apresenta o Yo'City, um novo framework agêntico que utiliza modelos de linguagem grandes para gerar cenas de cidades 3D realistas, personalizadas e infinitamente expansíveis através de um planejamento hierárquico, síntese de imagens isométricas e um mecanismo de expansão guiado por relações espaciais e semânticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

O artigo apresenta o DOPD, uma arquitetura dinâmica de desagregação de pré-preenchimento e decodificação para inferência de LLMs que ajusta automaticamente a alocação de recursos com base na carga em tempo real, superando desequilíbrios de workloads heterogêneos e alcançando ganhos significativos em boa produção e cumprimento de SLOs em comparação com abordagens existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Este trabalho inicia o estudo de spanners tolerantes a falhas em hipergrafos, propondo um algoritmo baseado em agrupamento que constrói spanners de arestas tolerantes a falhas com tamanho sublinear e tempo de execução eficiente, além de estabelecer limites inferiores e métodos para spanners aditivos.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Este artigo apresenta um framework multiagente assistido por LLM que automatiza o projeto e a adaptação de sistemas de controle para manufatura rolo-a-rolo, garantindo segurança e reduzindo o esforço de ajuste manual através de identificação de sistema, seleção automática de controladores e adaptação simula-real validada experimentalmente.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

O artigo apresenta o RadDiff, um novo método de difusão denoising aumentada por recuperação que supera os métodos existentes no dobramento inverso de proteínas ao integrar conhecimento atualizado de bancos de dados externos, alcançando taxas de recuperação de sequência superiores e maior eficiência.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Este artigo propõe a integração de um modelo fundamental causal em um framework de manutenção prescritiva para simular cenários "e se", identificar causas raízes de falhas e recomendar ações otimizadas que maximizem a Eficácia Global dos Equipamentos (OEE) em linhas de produção.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

O artigo apresenta o S2AM3D, um modelo inovador para segmentação de partes em nuvens de pontos 3D que combina prios de segmentação 2D com supervisão 3D consistente e um decodificador sensível à escala para ajustar a granularidade, apoiado por um novo conjunto de dados de grande escala que supera as limitações de generalização e consistência das abordagens existentes.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Este artigo apresenta o CAEC, um sistema baseado na Arquitetura de Computação Confidencial (CCA) da Arm que introduz Memória Compartilhada Confidencial (CSM) para permitir o compartilhamento seguro e de alto desempenho de dados entre Máquinas Virtuais Confidenciais (CVMs) sem acesso do hipervisor, eliminando a necessidade de criptografia onerosa e reduzindo drasticamente o uso de ciclos de CPU.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

O artigo apresenta o HiconAgent, um agente de interface gráfica otimizado com a estratégia HCPO, que utiliza amostragem de contexto dinâmico e compressão de histórico guiada por âncoras para melhorar a eficiência e o desempenho em tarefas de navegação sequencial, superando modelos maiores com menor custo computacional.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

O artigo apresenta o MAViD, um novo framework multimodal que utiliza uma arquitetura Conductor-Creator combinando modelos autoregressivos e de difusão para superar as limitações de sistemas existentes e gerar diálogos interativos de longa duração com áudio e vídeo sincronizados, coerentes e de alta qualidade.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artigo demonstra que, em camadas profundas de Modelos de Linguagem Visuais Grandes (VLLMs), os tokens visuais perdem progressivamente sua relevância até um "horizonte de informação", tornando a poda aleatória mais eficiente do que métodos existentes e permitindo alcançar resultados de ponta ao eliminar 50% dos tokens visuais sem comprometer significativamente o desempenho.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Este estudo demonstra que, no ambiente heterogêneo HeMAC, a estratégia padrão IPPO consegue generalizar eficazmente para novos parceiros de equipe sem necessidade de treinamento diversificado, performando de forma comparável a abordagens mais complexas como o Treinamento de Política Rotativa (RPT).

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabalho apresenta o MaGRoad, um novo framework baseado em raciocínio centrado em caminhos, e o dataset WildRoad para superar as limitações dos métodos atuais na extração robusta de redes viárias em ambientes off-road, alcançando desempenho superior e maior eficiência inferencial.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

O artigo apresenta o ReMeDI-SAM3, uma extensão sem treinamento do modelo SAM3 que aprimora a segmentação de instrumentos cirúrgicos em vídeos endoscópicos ao introduzir filtragem de memória orientada à relevância, interpolação de memória e reidentificação baseada em características para superar desafios como oclusões e movimentos rápidos, alcançando desempenho superior ao de abordagens anteriores treinadas em conjuntos de dados públicos.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudo analisa as discrepâncias entre a percepção subjetiva e a medição objetiva de áreas verdes urbanas em cinco países, revelando que, embora demografia e personalidade não influenciem significativamente essa percepção, o local de residência do indivíduo é um fator determinante na forma como a vegetação é observada.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

O artigo apresenta o VOIC, um novo método de conclusão semântica de cenas 3D baseado em visão monoculares que introduz uma estratégia de extração de rótulos de regiões visíveis e uma rede de dupla decodificação para separar e otimizar a percepção de áreas visíveis e o raciocínio sobre regiões ocluídas, alcançando desempenho superior em benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artigo demonstra que, em ambientes de nuvem como o Google BigQuery, os modelos de linguagem com raciocínio reduzem significativamente os custos de execução de consultas Text-to-SQL ao processarem menos dados e evitarem padrões ineficientes, revelando que a otimização de tempo não garante eficiência financeira e fornecendo diretrizes para mitigar riscos em ambientes corporativos.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

← Anterior Próximo →