cs articoli | Gist.Science

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Il paper presenta Farsighted-LAM e SSM-VLA, nuovi framework che migliorano i modelli Vision-Language-Action integrando codifica spaziale geometrica, modellazione temporale multi-scala e un modulo di ragionamento visivo per superare le limitazioni nella comprensione spaziale e temporale, ottenendo prestazioni state-of-the-art in simulazione e nel mondo reale.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Il paper propone un framework di distillazione della conoscenza che combina modelli visione-linguaggio, reti neurali convoluzionali e una rete neurale a impulsi adattiva per abilitare il rilevamento di oggetti a vocabolario aperto su dati di eventi, superando la mancanza di informazioni testurali e preservando le caratteristiche temporali critiche.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Il paper propone una nuova strategia di apprendimento auto-supervisionato basata su una definizione di equivarianza e su perdite di splitting, che permette di ottenere stime imparziali della funzione di perdita supervisionata e raggiungere prestazioni all'avanguardia in problemi inversi con dati incompleti, come la tomografia computerizzata e la risonanza magnetica accelerata.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Il paper presenta SymSkill, un framework unificato che apprende simultaneamente astrazioni simboliche e abilità motorie da dimostrazioni non etichettate per abilitare la pianificazione composizionale e il recupero reattivo in tempo reale durante compiti di manipolazione a lungo raggio sia in simulazione che su robot reali.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

A Graded Modal Type Theory for Pulse Schedules

Il paper propone GRAMPUS, una teoria dei tipi modale graduata che utilizza i gradi per rappresentare le informazioni temporali, al fine di fornire un linguaggio formalmente semantico per la specifica degli impulsi di controllo nei computer quantistici a qubit superconduttori.

Robin Adams, Jean-Philippe Bernardy, Lorenzo Perticone, Jeremy Pope2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Questo studio dimostra che un framework basato su LLM, che estrae span testuali contestuali e misura le variazioni semantiche nelle disclosure aziendali, supera i metodi tradizionali basati su NER, generando un alpha aggiustato per il rischio più che doppio e una maggiore capacità predittiva.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

R v F (2025): Addressing the Defence of Hacking

Questo studio di caso su R v F (2025) analizza la difesa dell'hacking ("SODDI") fornendo alle indagini forensi digitali le prime linee guida pratiche ed empiriche per confutare tale argomentazione in tribunale.

Junade Ali2026-03-12💻 cs

Computational Complexity in Property Testing

Questo lavoro avvia uno studio sistematico sulla complessità computazionale del testing delle proprietà, stabilendo teoremi di gerarchia tempo-query e fornendo limiti inferiori basati su congetture fine-grained per l'approssimazione della distanza degli iperpiani, dimostrando così una separazione fondamentale tra complessità di query e complessità temporale.

Renato Ferreira Pinto Jr., Diptaksho Palit, Sofya Raskhodnikova2026-03-12💻 cs

CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

Il paper introduce CompassNav, un nuovo paradigma che sposta l'addestramento dei modelli di navigazione dalla mera imitazione dei percorsi alla comprensione delle decisioni, utilizzando un dataset annotato e una funzione di reward ibrida per sviluppare agenti capaci di generalizzare e navigare con successo sia in simulazione che su robot fisici.

LinFeng Li, Jian Zhao, Yuan Xie, Xin Tan, Xuelong Li2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Il paper presenta SDGraph, un'architettura di apprendimento profondo basata su un'architettura grafica sparsa-densa che, attraverso una proposta di rappresentazione multilivello (livello schizzo, tratto e punto), identifica e sfrutta le informazioni efficaci negli schizzi a mano libera per migliorare significativamente le prestazioni in compiti di classificazione, recupero e generazione.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Il paper presenta InstantSfM, un sistema SfM globale nativo per GPU e compatibile con PyTorch che risolve l'ambiguità della scala integrando priori di profondità metrica e garantisce stabilità numerica, ottenendo un'efficienza fino a 40 volte superiore rispetto a COLMAP mantenendo un'accuratezza di ricostruzione comparabile.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

Il paper presenta UltraGen, un nuovo framework che utilizza l'attenzione locale gerarchica con guida globale a bassa risoluzione per abilitare la generazione efficiente, scalabile e semanticamente coerente di immagini ultra-ad alta risoluzione (oltre 8K) con un significativo aumento della velocità e una riduzione dell'uso di memoria rispetto ai modelli esistenti.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Il paper introduce REALM, un framework basato su agenti MLLM che esegue la segmentazione e l'editing 3D in mondi aperti su rappresentazioni Gaussian Splatting, utilizzando una strategia di grounding spaziale globale-locale per interpretare istruzioni complesse senza necessità di un addestramento specifico 3D.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

Questo articolo propone algoritmi di campionamento e un metodo asincrono deterministico per massimizzare l'opinione complessiva nelle reti sociali modificando strategicamente le opinioni interne dei nodi chiave, superando i limiti computazionali dei metodi tradizionali con elevata efficienza e precisione anche su dataset di grandi dimensioni.

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Importance of Overlapping Network Nodes in Influence Spreading

Lo studio dimostra che i nodi sovrapposti nelle strutture a "cerchi" delle reti complesse esercitano un'influenza superiore rispetto ai nodi non sovrapposti durante i processi di diffusione, evidenziando come la definizione di tali cerchi e la loro importanza topologica siano cruciali per comprendere la dinamica della diffusione.

Kosti Koistinen, Vesa Kuikka, Kimmo Kaski2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Il paper presenta Compiler.next, un nuovo compilatore basato sulla ricerca progettato per generare automaticamente software funzionante a partire da intenti umani ottimizzando architetture cognitive e parametri, con l'obiettivo di democratizzare lo sviluppo software nell'era dell'ingegneria guidata dall'IA.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Il paper presenta EyeAgent, il primo sistema di intelligenza artificiale agenziale multimodale per l'oftalmologia che, integrando un modello linguistico con 53 strumenti specializzati, fornisce supporto decisionale clinico interpretabile e migliora significativamente l'accuratezza diagnostica e la qualità dei referti, specialmente tra gli oftalmologi junior.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

Evaluation of Audio Compression Codecs

Il documento valuta diversi codec di compressione audio, sostenendo che gli utenti dovrebbero considerare non solo l'efficienza di compressione ma anche la qualità percettiva sonora per scegliere lo schema di compressione più adatto.

Thien T. Duong, Jan P. Springer2026-03-12💻 cs

X-WIN: Building Chest Radiograph World Model via Predictive Sensing

Il paper presenta X-WIN, un modello mondiale innovativo per le radiografie toraciche che apprende la conoscenza volumetrica 3D dai tomografi computerizzati (CT) prevedendo le loro proiezioni 2D nello spazio latente, superando così i limiti delle immagini piane e migliorando le prestazioni in compiti diagnostici a valle.

Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan2026-03-12💻 cs

← Precedente Successivo →