cs articoli | Gist.Science

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Il paper presenta InstantSfM, un sistema SfM globale nativo per GPU e compatibile con PyTorch che risolve l'ambiguità della scala integrando priori di profondità metrica e garantisce stabilità numerica, ottenendo un'efficienza fino a 40 volte superiore rispetto a COLMAP mantenendo un'accuratezza di ricostruzione comparabile.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

Il paper presenta UltraGen, un nuovo framework che utilizza l'attenzione locale gerarchica con guida globale a bassa risoluzione per abilitare la generazione efficiente, scalabile e semanticamente coerente di immagini ultra-ad alta risoluzione (oltre 8K) con un significativo aumento della velocità e una riduzione dell'uso di memoria rispetto ai modelli esistenti.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Il paper introduce REALM, un framework basato su agenti MLLM che esegue la segmentazione e l'editing 3D in mondi aperti su rappresentazioni Gaussian Splatting, utilizzando una strategia di grounding spaziale globale-locale per interpretare istruzioni complesse senza necessità di un addestramento specifico 3D.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

Questo articolo propone algoritmi di campionamento e un metodo asincrono deterministico per massimizzare l'opinione complessiva nelle reti sociali modificando strategicamente le opinioni interne dei nodi chiave, superando i limiti computazionali dei metodi tradizionali con elevata efficienza e precisione anche su dataset di grandi dimensioni.

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Importance of Overlapping Network Nodes in Influence Spreading

Lo studio dimostra che i nodi sovrapposti nelle strutture a "cerchi" delle reti complesse esercitano un'influenza superiore rispetto ai nodi non sovrapposti durante i processi di diffusione, evidenziando come la definizione di tali cerchi e la loro importanza topologica siano cruciali per comprendere la dinamica della diffusione.

Kosti Koistinen, Vesa Kuikka, Kimmo Kaski2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Il paper presenta Compiler.next, un nuovo compilatore basato sulla ricerca progettato per generare automaticamente software funzionante a partire da intenti umani ottimizzando architetture cognitive e parametri, con l'obiettivo di democratizzare lo sviluppo software nell'era dell'ingegneria guidata dall'IA.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Il paper presenta EyeAgent, il primo sistema di intelligenza artificiale agenziale multimodale per l'oftalmologia che, integrando un modello linguistico con 53 strumenti specializzati, fornisce supporto decisionale clinico interpretabile e migliora significativamente l'accuratezza diagnostica e la qualità dei referti, specialmente tra gli oftalmologi junior.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

Evaluation of Audio Compression Codecs

Il documento valuta diversi codec di compressione audio, sostenendo che gli utenti dovrebbero considerare non solo l'efficienza di compressione ma anche la qualità percettiva sonora per scegliere lo schema di compressione più adatto.

Thien T. Duong, Jan P. Springer2026-03-12💻 cs

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

Il paper presenta X-WIN, un modello mondiale innovativo per le radiografie toraciche che apprende la conoscenza volumetrica 3D dai tomografi computerizzati (CT) prevedendo le loro proiezioni 2D nello spazio latente, superando così i limiti delle immagini piane e migliorando le prestazioni in compiti diagnostici a valle.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Il paper presenta MergeVLA, un'architettura VLA progettata per il merging di modelli che risolve le sfide dell'addestramento multi-abilità attraverso l'uso di adapter LoRA attivati sparsamente e blocchi di attenzione incrociata, consentendo a un agente generalista di superare le prestazioni dei singoli esperti finetunati su diverse piattaforme robotiche.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

Il paper presenta COVec, un nuovo framework di vettorizzazione illuminazione-consapevole ispirato al principio del chiaroscuro che, decomponendo le immagini in livelli intrinseci di albedo, ombra e luce, supera i limiti dei metodi esistenti garantendo una maggiore fedeltà visiva e migliorata modificabilità per immagini reali complesse.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Il paper introduce AD-R1, un framework di apprendimento per rinforzo in ciclo chiuso che utilizza un "Modello di Mondo Imparziale" addestrato tramite sintesi controfattuale per prevedere onestamente i pericoli e ridurre significativamente le violazioni di sicurezza nella guida autonoma end-to-end.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Il paper presenta TEAR, un framework di red-teaming automatizzato e consapevole del tempo progettato per identificare rischi di sicurezza specifici nella generazione di video dinamici, ottenendo un tasso di successo degli attacchi superiore all'80% su vari modelli Text-to-Video.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Questo articolo presenta algoritmi randomizzati che calcolano approssimazioni $(1-\varepsilon)$ del massimo clique in grafi di dischi con tempi di esecuzione quasi lineari, offrendo una soluzione quasi lineare per i grafi di dischi unitari e uno schema di approssimazione parametrizzato per grafi con $t$ raggi distinti.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

Il paper presenta AEIC, un nuovo framework di compressione asimmetrica che utilizza un encoder leggero e un decoder basato su diffusione in un singolo passo per ottenere ricostruzioni ad alta fedeltà a bitrate ultra-bassi, garantendo al contempo un'elevata efficienza di codifica adatta ai dispositivi edge.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

Questo lavoro presenta un metodo di controllo basato sull'apprendimento per rinforzo che permette a un manipolatore aereo sottodimensionato e leggero di raggiungere un controllo preciso della posa dell'organo terminale in sei gradi di libertà, dimostrando robustezza e accuratezza anche in compiti di manipolazione fisica complessi.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Questo lavoro introduce SVBench, il primo benchmark per valutare la capacità di ragionamento sociale dei modelli di generazione video, rivelando attraverso una valutazione su larga scala che, nonostante i progressi nel realismo visivo, i sistemi attuali faticano ancora a produrre comportamenti socialmente coerenti e psicologicamente fondati.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Il paper presenta Cosmos-H-Surgical, un modello di mondo che genera dati sintetici video-azione da un vasto corpus di video chirurgici non etichettati, permettendo l'addestramento di politiche robotiche che superano le prestazioni ottenute con i soli dati reali.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

Il paper propone AFTER, un metodo che mitiga le allucinazioni degli oggetti nei Large Vision-Language Models tramite un'editing adattiva delle attivazioni guidata da fatti, combinando un'orientazione delle attivazioni potenziata da dati fattuali e un'ottimizzazione adattiva specifica per la query.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

← Precedente Successivo →