cs artigos | Gist.Science

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

O artigo apresenta o DOPD, uma arquitetura dinâmica de desagregação de pré-preenchimento e decodificação para inferência de LLMs que ajusta automaticamente a alocação de recursos com base na carga em tempo real, superando desequilíbrios de workloads heterogêneos e alcançando ganhos significativos em boa produção e cumprimento de SLOs em comparação com abordagens existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Este trabalho inicia o estudo de spanners tolerantes a falhas em hipergrafos, propondo um algoritmo baseado em agrupamento que constrói spanners de arestas tolerantes a falhas com tamanho sublinear e tempo de execução eficiente, além de estabelecer limites inferiores e métodos para spanners aditivos.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Este artigo apresenta um framework multiagente assistido por LLM que automatiza o projeto e a adaptação de sistemas de controle para manufatura rolo-a-rolo, garantindo segurança e reduzindo o esforço de ajuste manual através de identificação de sistema, seleção automática de controladores e adaptação simula-real validada experimentalmente.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

O artigo apresenta o RadDiff, um novo método de difusão denoising aumentada por recuperação que supera os métodos existentes no dobramento inverso de proteínas ao integrar conhecimento atualizado de bancos de dados externos, alcançando taxas de recuperação de sequência superiores e maior eficiência.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Este artigo propõe a integração de um modelo fundamental causal em um framework de manutenção prescritiva para simular cenários "e se", identificar causas raízes de falhas e recomendar ações otimizadas que maximizem a Eficácia Global dos Equipamentos (OEE) em linhas de produção.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

O artigo apresenta o S2AM3D, um modelo inovador para segmentação de partes em nuvens de pontos 3D que combina prios de segmentação 2D com supervisão 3D consistente e um decodificador sensível à escala para ajustar a granularidade, apoiado por um novo conjunto de dados de grande escala que supera as limitações de generalização e consistência das abordagens existentes.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Este artigo apresenta o CAEC, um sistema baseado na Arquitetura de Computação Confidencial (CCA) da Arm que introduz Memória Compartilhada Confidencial (CSM) para permitir o compartilhamento seguro e de alto desempenho de dados entre Máquinas Virtuais Confidenciais (CVMs) sem acesso do hipervisor, eliminando a necessidade de criptografia onerosa e reduzindo drasticamente o uso de ciclos de CPU.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

O artigo apresenta o HiconAgent, um agente de interface gráfica otimizado com a estratégia HCPO, que utiliza amostragem de contexto dinâmico e compressão de histórico guiada por âncoras para melhorar a eficiência e o desempenho em tarefas de navegação sequencial, superando modelos maiores com menor custo computacional.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

O artigo apresenta o MAViD, um novo framework multimodal que utiliza uma arquitetura Conductor-Creator combinando modelos autoregressivos e de difusão para superar as limitações de sistemas existentes e gerar diálogos interativos de longa duração com áudio e vídeo sincronizados, coerentes e de alta qualidade.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Este artigo demonstra que, em camadas profundas de Modelos de Linguagem Visuais Grandes (VLLMs), os tokens visuais perdem progressivamente sua relevância até um "horizonte de informação", tornando a poda aleatória mais eficiente do que métodos existentes e permitindo alcançar resultados de ponta ao eliminar 50% dos tokens visuais sem comprometer significativamente o desempenho.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Este estudo demonstra que, no ambiente heterogêneo HeMAC, a estratégia padrão IPPO consegue generalizar eficazmente para novos parceiros de equipe sem necessidade de treinamento diversificado, performando de forma comparável a abordagens mais complexas como o Treinamento de Política Rotativa (RPT).

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Este trabalho apresenta o MaGRoad, um novo framework baseado em raciocínio centrado em caminhos, e o dataset WildRoad para superar as limitações dos métodos atuais na extração robusta de redes viárias em ambientes off-road, alcançando desempenho superior e maior eficiência inferencial.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Test-Time Modification: Inverse Domain Transformation for Robust Perception

Este artigo propõe uma abordagem de modificação em tempo de teste que utiliza modelos de difusão para transformar imagens de domínios-alvo desconhecidos de volta à distribuição do domínio de origem, melhorando significativamente a robustez e o desempenho em tarefas de percepção como segmentação, detecção e classificação sem a necessidade de gerar dados sintéticos em larga escala.

Arpit Jadon, Joshua Niemeijer, Yuki M. Asano2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

O artigo apresenta o ReMeDI-SAM3, uma extensão sem treinamento do modelo SAM3 que aprimora a segmentação de instrumentos cirúrgicos em vídeos endoscópicos ao introduzir filtragem de memória orientada à relevância, interpolação de memória e reidentificação baseada em características para superar desafios como oclusões e movimentos rápidos, alcançando desempenho superior ao de abordagens anteriores treinadas em conjuntos de dados públicos.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Este estudo analisa as discrepâncias entre a percepção subjetiva e a medição objetiva de áreas verdes urbanas em cinco países, revelando que, embora demografia e personalidade não influenciem significativamente essa percepção, o local de residência do indivíduo é um fator determinante na forma como a vegetação é observada.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

O artigo apresenta o VOIC, um novo método de conclusão semântica de cenas 3D baseado em visão monoculares que introduz uma estratégia de extração de rótulos de regiões visíveis e uma rede de dupla decodificação para separar e otimizar a percepção de áreas visíveis e o raciocínio sobre regiões ocluídas, alcançando desempenho superior em benchmarks como SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Este artigo demonstra que, em ambientes de nuvem como o Google BigQuery, os modelos de linguagem com raciocínio reduzem significativamente os custos de execução de consultas Text-to-SQL ao processarem menos dados e evitarem padrões ineficientes, revelando que a otimização de tempo não garante eficiência financeira e fornecendo diretrizes para mitigar riscos em ambientes corporativos.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

NashOpt -- A Python Library for Computing Generalized Nash Equilibria

O NashOpt é uma biblioteca Python de código aberto que computa equilíbrios de Nash generalizados em jogos não cooperativos com restrições compartilhadas, utilizando condições KKT conjuntas e técnicas como diferenciação automática via JAX e programação linear inteira mista para resolver problemas não lineares, lineares-quadráticos e de design de jogos.

Alberto Bemporad2026-03-10💻 cs

Toward a Physical Theory of Intelligence

Este artigo apresenta o quadro de Codificação Congruente à Conservação (CCE), uma estrutura física unificada que explica a inteligência como um processo termodinâmico emergente, conectando dissipação, medição quântica e geometria do espaço-tempo para derivar limites fundamentais da computação e da consciência.

Peter David Fagan2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

O artigo apresenta o DrivingGen, o primeiro benchmark abrangente para modelos de mundo generativos na condução autónoma, que combina um conjunto de dados diversificado com métricas inovadoras para avaliar a realismo visual, a plausibilidade de trajetórias, a coerência temporal e o controlo, preenchendo lacunas críticas na avaliação e fomentando o desenvolvimento de simuladores mais fiáveis e seguros.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

← Anterior Próximo →