cs articoli | Gist.Science

Pixel Motion Diffusion is What We Need for Robot Control

Il paper presenta DAWN, un framework unificato basato sulla diffusione che utilizza una rappresentazione strutturata del movimento dei pixel per il controllo robotico guidato dal linguaggio, ottenendo risultati all'avanguardia su benchmark come CALVIN e MetaWorld e dimostrando una efficace trasferibilità nel mondo reale con un minimo fine-tuning.

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo2026-03-12💻 cs

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Il paper presenta Dolphin, un metodo efficiente per la separazione del parlato audio-visivo che utilizza un codificatore video leggero basato su semantica labiale discreta e un meccanismo di attenzione globale-locale multi-scala, ottenendo prestazioni superiori allo stato dell'arte con una significativa riduzione dei parametri e del tempo di inferenza.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

Il paper presenta PD-Diag-Net, un metodo di diagnosi automatica end-to-end per il morbo di Parkinson basato su risonanza magnetica cerebrale che integra conoscenze cliniche prioritarie per migliorare l'accuratezza diagnostica e l'interpretabilità, ottenendo risultati superiori rispetto agli stati dell'arte sia su dati esterni che nella diagnosi precoce.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Il paper presenta Farsighted-LAM e SSM-VLA, nuovi framework che migliorano i modelli Vision-Language-Action integrando codifica spaziale geometrica, modellazione temporale multi-scala e un modulo di ragionamento visivo per superare le limitazioni nella comprensione spaziale e temporale, ottenendo prestazioni state-of-the-art in simulazione e nel mondo reale.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Il paper propone un framework di distillazione della conoscenza che combina modelli visione-linguaggio, reti neurali convoluzionali e una rete neurale a impulsi adattiva per abilitare il rilevamento di oggetti a vocabolario aperto su dati di eventi, superando la mancanza di informazioni testurali e preservando le caratteristiche temporali critiche.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Il paper propone una nuova strategia di apprendimento auto-supervisionato basata su una definizione di equivarianza e su perdite di splitting, che permette di ottenere stime imparziali della funzione di perdita supervisionata e raggiungere prestazioni all'avanguardia in problemi inversi con dati incompleti, come la tomografia computerizzata e la risonanza magnetica accelerata.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Il paper presenta SymSkill, un framework unificato che apprende simultaneamente astrazioni simboliche e abilità motorie da dimostrazioni non etichettate per abilitare la pianificazione composizionale e il recupero reattivo in tempo reale durante compiti di manipolazione a lungo raggio sia in simulazione che su robot reali.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

A Graded Modal Type Theory for Pulse Schedules

Il paper propone GRAMPUS, una teoria dei tipi modale graduata che utilizza i gradi per rappresentare le informazioni temporali, al fine di fornire un linguaggio formalmente semantico per la specifica degli impulsi di controllo nei computer quantistici a qubit superconduttori.

Robin Adams, Jean-Philippe Bernardy, Lorenzo Perticone, Jeremy Pope2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Questo studio dimostra che un framework basato su LLM, che estrae span testuali contestuali e misura le variazioni semantiche nelle disclosure aziendali, supera i metodi tradizionali basati su NER, generando un alpha aggiustato per il rischio più che doppio e una maggiore capacità predittiva.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

R v F (2025): Addressing the Defence of Hacking

Questo studio di caso su R v F (2025) analizza la difesa dell'hacking ("SODDI") fornendo alle indagini forensi digitali le prime linee guida pratiche ed empiriche per confutare tale argomentazione in tribunale.

Junade Ali2026-03-12💻 cs

Computational Complexity in Property Testing

Questo lavoro avvia uno studio sistematico sulla complessità computazionale del testing delle proprietà, stabilendo teoremi di gerarchia tempo-query e fornendo limiti inferiori basati su congetture fine-grained per l'approssimazione della distanza degli iperpiani, dimostrando così una separazione fondamentale tra complessità di query e complessità temporale.

Renato Ferreira Pinto Jr., Diptaksho Palit, Sofya Raskhodnikova2026-03-12💻 cs

CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

Il paper introduce CompassNav, un nuovo paradigma che sposta l'addestramento dei modelli di navigazione dalla mera imitazione dei percorsi alla comprensione delle decisioni, utilizzando un dataset annotato e una funzione di reward ibrida per sviluppare agenti capaci di generalizzare e navigare con successo sia in simulazione che su robot fisici.

LinFeng Li, Jian Zhao, Yuan Xie, Xin Tan, Xuelong Li2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Il paper presenta SDGraph, un'architettura di apprendimento profondo basata su un'architettura grafica sparsa-densa che, attraverso una proposta di rappresentazione multilivello (livello schizzo, tratto e punto), identifica e sfrutta le informazioni efficaci negli schizzi a mano libera per migliorare significativamente le prestazioni in compiti di classificazione, recupero e generazione.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Il paper presenta InstantSfM, un sistema SfM globale nativo per GPU e compatibile con PyTorch che risolve l'ambiguità della scala integrando priori di profondità metrica e garantisce stabilità numerica, ottenendo un'efficienza fino a 40 volte superiore rispetto a COLMAP mantenendo un'accuratezza di ricostruzione comparabile.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

Il paper presenta UltraGen, un nuovo framework che utilizza l'attenzione locale gerarchica con guida globale a bassa risoluzione per abilitare la generazione efficiente, scalabile e semanticamente coerente di immagini ultra-ad alta risoluzione (oltre 8K) con un significativo aumento della velocità e una riduzione dell'uso di memoria rispetto ai modelli esistenti.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Il paper introduce REALM, un framework basato su agenti MLLM che esegue la segmentazione e l'editing 3D in mondi aperti su rappresentazioni Gaussian Splatting, utilizzando una strategia di grounding spaziale globale-locale per interpretare istruzioni complesse senza necessità di un addestramento specifico 3D.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

Questo articolo propone algoritmi di campionamento e un metodo asincrono deterministico per massimizzare l'opinione complessiva nelle reti sociali modificando strategicamente le opinioni interne dei nodi chiave, superando i limiti computazionali dei metodi tradizionali con elevata efficienza e precisione anche su dataset di grandi dimensioni.

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Importance of Overlapping Network Nodes in Influence Spreading

Lo studio dimostra che i nodi sovrapposti nelle strutture a "cerchi" delle reti complesse esercitano un'influenza superiore rispetto ai nodi non sovrapposti durante i processi di diffusione, evidenziando come la definizione di tali cerchi e la loro importanza topologica siano cruciali per comprendere la dinamica della diffusione.

Kosti Koistinen, Vesa Kuikka, Kimmo Kaski2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Il paper presenta Compiler.next, un nuovo compilatore basato sulla ricerca progettato per generare automaticamente software funzionante a partire da intenti umani ottimizzando architetture cognitive e parametri, con l'obiettivo di democratizzare lo sviluppo software nell'era dell'ingegneria guidata dall'IA.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

← Precedente Successivo →