cs articoli | Gist.Science

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Il paper presenta Video2Layout, un framework che supera i limiti delle mappe cognitive a griglia ricostruendo layout spaziali metrici basati su coordinate continue dei bordi degli oggetti, migliorando significativamente il ragionamento spaziale nei modelli multimodali.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Il paper presenta MOMNet, una rete innovativa per la super-risoluzione della profondità che supera i limiti delle allineamenti RGB-D imperfetti attraverso un meccanismo di corrispondenza multi-ordine e un'aggregazione adattiva, ottenendo prestazioni all'avanguardia in scenari reali.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Il paper presenta DualMindVLM, un modello di linguaggio visivo che implementa un meccanismo di pensiero duale adattivo, imitando la capacità umana di alternare risposte intuitive rapide a ragionamenti deliberati lenti in base alla complessità del compito, ottenendo così prestazioni di ragionamento all'avanguardia con un'efficienza dei token significativamente superiore rispetto ai modelli esistenti.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Il paper propone il Radiative-Structured Neural Operator (RSNO), un approccio che integra principi fisici e operatori neurali per ricostruire immagini iperspettrali continue da osservazioni multispettrali, garantendo coerenza fisica e riducendo le distorsioni cromatiche attraverso fasi di upsampling, ricostruzione e raffinamento.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Il paper presenta UnfoldLDM, un nuovo approccio per il ripristino cieco delle immagini che integra le reti di deep unfolding con un modello di diffusione latente, superando le limitazioni delle metodologie esistenti grazie a un modulo di stima della degradazione e a un meccanismo di correzione per i dettagli ad alta frequenza.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Questo studio analizza come gli utenti di Reddit negoziano collettivamente le preoccupazioni sulla privacy di ChatGPT tra il 2022 e il 2025, identificando attraverso un'analisi tematica e BERTopic pratiche discorsive come la segnalazione dei rischi e l'adozione di alternative che preservano la privacy.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Questo lavoro presenta un sistema di tracciamento GNSS basato su droni multipli che integra rilevamento visivo, allineamento degli ID e un filtro di Kalman esteso per garantire un tracciamento stabile e accurato dei robot marini in superficie e in prossimità della superficie.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Il paper presenta Yo'City, un innovativo framework agentic che utilizza modelli di grandi dimensioni per generare scene urbane 3D realistiche, personalizzabili e infinitamente espandibili attraverso una pianificazione gerarchica e un meccanismo di espansione guidato dall'utente, superando le prestazioni degli stati dell'arte esistenti.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Il paper propone DOPD, un'architettura di disaggregazione dinamica per l'inferenza LLM che ottimizza il rapporto tra istanze di prefill e decoding in base al carico in tempo reale, migliorando significativamente il goodput e riducendo i tempi di risposta rispetto alle soluzioni esistenti.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Questo lavoro introduce il primo studio sugli spanner tolleranti ai guasti negli ipergrafi, proponendo un algoritmo basato sul clustering che costruisce spanner ipergrafici con un numero di archi sublineare rispetto al numero di guasti e fornendo un limite inferiore teorico che evidenzia un divario da colmare per ottenere soluzioni ottimali.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Questo articolo presenta un framework multi-agente assistito da LLM che automatizza la progettazione e l'adattamento dei sistemi di controllo per la produzione roll-to-roll, garantendo sicurezza e riducendo l'intervento manuale attraverso identificazione del sistema, sintonizzazione automatica, adattamento sim-to-real e monitoraggio continuo.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

Il paper propone RadDiff, un nuovo metodo di folding inverso delle proteine basato su un modello di diffusione denoising potenziato da un meccanismo di recupero che integra conoscenze aggiornate, ottenendo risultati superiori rispetto agli stati dell'arte in termini di recupero della sequenza e capacità di generare sequenze ripiegabili.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Questo articolo propone l'integrazione di un modello fondazionale causale pre-addestrato in un framework di manutenzione prescrittiva per simulare interventi e ottimizzare l'efficienza complessiva degli impianti (OEE), superando i limiti delle sole correlazioni statistiche per identificare le vere cause radice dei guasti.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Il paper presenta S2AM3D, un approccio innovativo per la segmentazione di parti in nuvole di punti 3D che combina conoscenze di segmentazione 2D con supervisione 3D coerente e un decoder sensibile alla scala per regolare la granularità, supportato da un nuovo dataset su larga scala che garantisce prestazioni leader e robustezza.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

Confidential, Attestable, and Efficient Inter-CVM Communication with Arm CCA

Questo paper presenta CAEC, un sistema basato sull'architettura Arm CCA che introduce la Memoria Condivisa Riservata (CSM) per abilitare una comunicazione sicura, verificabile e ad alte prestazioni tra macchine virtuali confidenziali, eliminando la necessità di costose cifrature tramite l'ipervisore.

Sina Abdollahi, Amir Al Sadi, Marios Kogias, David Kotz, Hamed Haddadi2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

Il paper introduce HiconAgent, un agente GUI che utilizza l'ottimizzazione della politica consapevole del contesto storico (HCPO) per migliorare l'efficienza e le prestazioni nei compiti di navigazione riducendo il carico computazionale attraverso il campionamento dinamico del contesto e la compressione della storia guidata da ancoraggi.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

Il paper presenta MAViD, un nuovo framework multimodale basato su un'architettura "Conductor-Creator" che integra modelli autoregressivi e di diffusione per comprendere e generare interazioni dialogiche audio-visive coerenti, naturali e a lunga durata.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Questo studio rivela che nei modelli linguistici visivi profondi le informazioni dei token visivi si esauriscono oltre una certa "orizzonte informativo", rendendo la rimozione casuale dei token nelle fasi avanzate più efficace dei metodi di pruning esistenti e permettendo di ottenere risultati all'avanguardia riducendo del 50% i token visivi.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Lo studio dimostra che, nell'ambiente eterogeneo HeMAC, la semplice strategia di training IPPO generalizza efficacemente verso nuovi compagni di squadra, rendendo superflua la complessa Rotating Policy Training (RPT) progettata per migliorare tale adattabilità.

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Questo lavoro introduce WildRoad, un nuovo dataset globale per strade off-road, e MaGRoad, un framework di estrazione basato su un ragionamento centrato sul percorso che supera i limiti dei metodi esistenti ottenendo prestazioni allo stato dell'arte e una maggiore efficienza.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

← Precedente Successivo →