cs articoli | Gist.Science

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Il paper propone DOPD, un'architettura di disaggregazione dinamica per l'inferenza LLM che ottimizza il rapporto tra istanze di prefill e decoding in base al carico in tempo reale, migliorando significativamente il goodput e riducendo i tempi di risposta rispetto alle soluzioni esistenti.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Questo lavoro introduce il primo studio sugli spanner tolleranti ai guasti negli ipergrafi, proponendo un algoritmo basato sul clustering che costruisce spanner ipergrafici con un numero di archi sublineare rispetto al numero di guasti e fornendo un limite inferiore teorico che evidenzia un divario da colmare per ottenere soluzioni ottimali.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Questo articolo presenta un framework multi-agente assistito da LLM che automatizza la progettazione e l'adattamento dei sistemi di controllo per la produzione roll-to-roll, garantendo sicurezza e riducendo l'intervento manuale attraverso identificazione del sistema, sintonizzazione automatica, adattamento sim-to-real e monitoraggio continuo.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

Il paper propone RadDiff, un nuovo metodo di folding inverso delle proteine basato su un modello di diffusione denoising potenziato da un meccanismo di recupero che integra conoscenze aggiornate, ottenendo risultati superiori rispetto agli stati dell'arte in termini di recupero della sequenza e capacità di generare sequenze ripiegabili.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Questo articolo propone l'integrazione di un modello fondazionale causale pre-addestrato in un framework di manutenzione prescrittiva per simulare interventi e ottimizzare l'efficienza complessiva degli impianti (OEE), superando i limiti delle sole correlazioni statistiche per identificare le vere cause radice dei guasti.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Il paper presenta S2AM3D, un approccio innovativo per la segmentazione di parti in nuvole di punti 3D che combina conoscenze di segmentazione 2D con supervisione 3D coerente e un decoder sensibile alla scala per regolare la granularità, supportato da un nuovo dataset su larga scala che garantisce prestazioni leader e robustezza.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Questo paper presenta CAEC, un sistema basato sull'architettura Arm CCA che introduce la Memoria Condivisa Riservata (CSM) per abilitare una comunicazione sicura, verificabile e ad alte prestazioni tra macchine virtuali confidenziali, eliminando la necessità di costose cifrature tramite l'ipervisore.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

Il paper introduce HiconAgent, un agente GUI che utilizza l'ottimizzazione della politica consapevole del contesto storico (HCPO) per migliorare l'efficienza e le prestazioni nei compiti di navigazione riducendo il carico computazionale attraverso il campionamento dinamico del contesto e la compressione della storia guidata da ancoraggi.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

Il paper presenta MAViD, un nuovo framework multimodale basato su un'architettura "Conductor-Creator" che integra modelli autoregressivi e di diffusione per comprendere e generare interazioni dialogiche audio-visive coerenti, naturali e a lunga durata.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Questo studio rivela che nei modelli linguistici visivi profondi le informazioni dei token visivi si esauriscono oltre una certa "orizzonte informativo", rendendo la rimozione casuale dei token nelle fasi avanzate più efficace dei metodi di pruning esistenti e permettendo di ottenere risultati all'avanguardia riducendo del 50% i token visivi.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Lo studio dimostra che, nell'ambiente eterogeneo HeMAC, la semplice strategia di training IPPO generalizza efficacemente verso nuovi compagni di squadra, rendendo superflua la complessa Rotating Policy Training (RPT) progettata per migliorare tale adattabilità.

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Questo lavoro introduce WildRoad, un nuovo dataset globale per strade off-road, e MaGRoad, un framework di estrazione basato su un ragionamento centrato sul percorso che supera i limiti dei metodi esistenti ottenendo prestazioni allo stato dell'arte e una maggiore efficienza.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Test-Time Modification: Inverse Domain Transformation for Robust Perception

Questo articolo propone un metodo di modifica a tempo di test che utilizza modelli di diffusione per trasformare le immagini del dominio target nel dominio sorgente, migliorando significativamente la robustezza dei modelli di percezione in scenari di generalizzazione di dominio sconosciuti senza richiedere dati sintetici su larga scala.

Arpit Jadon, Joshua Niemeijer, Yuki M. Asano2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

Il paper presenta ReMeDI-SAM3, un'estensione senza addestramento di SAM3 che migliora la segmentazione degli strumenti chirurgici in endoscopia filtrando la memoria, espandendone la capacità e disambiguando le identità dopo le occlusioni, ottenendo risultati superiori rispetto agli approcci esistenti su diversi dataset.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Questo studio analizza le discrepanze tra la percezione soggettiva e la misurazione oggettiva del verde urbano in cinque paesi, rivelando che, sebbene i dati demografici e la personalità non influenzino significativamente la percezione, il luogo di residenza dell'individuo è il fattore determinante che modella come le persone osservano il verde nelle città.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Il paper presenta VOIC, un nuovo framework a doppio decodificatore che risolve il problema della diluizione delle caratteristiche nella completazione semantica di scene 3D da singola immagine separando esplicitamente la percezione delle regioni visibili dal ragionamento sulle regioni occluse, ottenendo così prestazioni state-of-the-art sui benchmark SemanticKITTI e SSCBench-KITTI360.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Questo studio dimostra che, nel contesto delle query Text-to-SQL su Google BigQuery, i modelli di ragionamento offrono un'efficienza dei costi superiore rispetto ai modelli non di ragionamento, poiché riducono significativamente il consumo di dati mantenendo un'accuratezza equivalente, mentre evidenzia che l'ottimizzazione della velocità non garantisce l'efficienza economica a causa di una debole correlazione tra tempo di esecuzione e costi cloud.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

NashOpt -- A Python Library for Computing Generalized Nash Equilibria

NashOpt è una libreria Python open-source che calcola equilibri di Nash generalizzati in giochi non cooperativi con vincoli condivisi, sfruttando le condizioni KKT congiunte e strumenti come JAX e la programmazione lineare intera mista per risolvere sia giochi non lineari che lineari-quadratici, inclusi problemi di progettazione inversa e di Stackelberg.

Alberto Bemporad2026-03-10💻 cs

Toward a Physical Theory of Intelligence

Il documento presenta il quadro teorico CCE (Conservation-Congruent Encoding), che unifica dissipazione termodinamica, misurazione quantistica e geometria dello spaziotempo in un modello fisico neutrale rispetto al substrato per definire l'intelligenza come un processo di estrazione di lavoro che rispetta i vincoli di conservazione.

Peter David Fagan2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Il paper presenta DrivingGen, il primo benchmark completo per i modelli di mondo generativi nella guida autonoma, che combina un dataset diversificato e nuove metriche per valutare realisticamente la coerenza temporale, la plausibilità delle traiettorie e il controllo, colmando le lacune delle valutazioni attuali e guidando lo sviluppo di simulatori affidabili.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

← Precedente Successivo →