cs articoli | Gist.Science

A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

Questo paper presenta un modello duale audio-visivo a due stadi basato su DINOv2 e Wav2Vec 2.0, che integra tecniche di estrazione robusta delle caratteristiche e fusione temporale per superare le sfide del riconoscimento delle espressioni facciali nel contesto del workshop ABAW 10, ottenendo risultati superiori rispetto alle linee di base ufficiali.

Jiajun Sun, Zhe Gao2026-03-13💻 cs

Language Model Teams as Distributed Systems

Il documento propone di utilizzare i principi dei sistemi distribuiti come fondamento teorico per progettare e valutare team di modelli linguistici su larga scala, superando l'approccio empirico attuale per affrontare sfide fondamentali come la struttura, la dimensione e l'efficacia del team.

Elizabeth Mieczkowski, Katherine M. Collins, Ilia Sucholutsky + 2 more2026-03-13💻 cs

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Il paper introduce SceneAssistant, un agente guidato da feedback visivo che combina modelli di generazione 3D e modelli visione-linguaggio per creare e modificare scene 3D complesse e open-vocabulary attraverso comandi testuali naturali e iterazioni di raffinamento spaziale.

Jun Luo, Jiaxiang Tang, Ruijie Lu + 1 more2026-03-13💻 cs

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

Il paper introduce HandelBot, un framework che combina una politica simulata con un adattamento rapido in due fasi per permettere a un robot di suonare il pianoforte con entrambe le mani in modo preciso, superando le limitazioni del trasferimento diretto dalla simulazione e richiedendo solo 30 minuti di dati di interazione fisica.

Amber Xie, Haozhi Qi, Dorsa Sadigh2026-03-13💻 cs

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Il paper introduce ELIT, un meccanismo compatibile con i Diffusion Transformers che decouplea la dimensione dell'input dal calcolo tramite un'interfaccia latente elastica, permettendo di adattare dinamicamente il consumo computazionale durante l'inferenza senza modificare la struttura del modello o l'obiettivo di addestramento.

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov + 6 more2026-03-13💻 cs

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Il paper presenta FIRM, un quadro completo che sviluppa modelli di ricompresa robusti e strategie di apprendimento per rinforzo innovative per migliorare l'aderenza alle istruzioni e la fedeltà nella generazione e modifica di immagini, superando i limiti delle attuali metriche di valutazione.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

Il paper presenta DVD, un framework innovativo che adatta deterministicamente modelli di diffusione video pre-addestrati per la stima della profondità, superando i compromessi tra modelli generativi e discriminativi e ottenendo prestazioni all'avanguardia in modalità zero-shot con una frazione minima di dati specifici.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Il paper presenta AutoGaze, un modulo leggero che migliora l'efficienza e la scalabilità della comprensione video nei modelli multimediali selezionando autoregressivamente solo le patch visive essenziali, riducendo drasticamente i token visivi e permettendo l'analisi di video lunghi e ad alta risoluzione con prestazioni superiori.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

DreamVideo-Omni è un framework unificato che, attraverso un paradigma di addestramento progressivo in due fasi e un meccanismo di rinforzo dell'identità latente, risolve le sfide della personalizzazione video multi-soggetto permettendo un controllo preciso e simultaneo di identità, movimenti globali, dinamiche locali e movimenti della camera.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

HumDex:Humanoid Dexterous Manipulation Made Easy

Il paper presenta HumDex, un sistema di teleoperazione portatile e open-source che risolve il compromesso tra portabilità e precisione per la manipolazione destrezza degli umanoidi, combinando tracciamento IMU, un metodo di retargeting basato sull'apprendimento e un framework di apprendimento per imitazione a due stadi per raccogliere dati dimostrativi di alta qualità e migliorare la generalizzazione dei compiti.

Liang Heng, Yihe Tang, Jiajun Xu + 3 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Il paper propone Video Streaming Thinking (VST), un nuovo paradigma per i modelli linguistici video che integra simultaneamente la percezione in streaming e il ragionamento logico, superando i compromessi tra latenza e coerenza cognitiva grazie a una pipeline di addestramento avanzata e ottenendo prestazioni superiori su benchmark online senza sacrificare le capacità di ragionamento offline.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

$Ψ_0$ : An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

Il paper introduce $\Psi_0$ , un modello fondazionale open source per la loco-manipolazione umanoide che, decouplando l'addestramento in una fase di pre-training su video umani egocentrici e una fase di post-training su dati robotici specifici, raggiunge prestazioni superiori rispetto alle basi esistenti utilizzando una frazione dei dati.

Songlin Wei, Hongyi Jing, Boqian Li + 12 more2026-03-13💻 cs

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Il paper introduce GRADE, il primo benchmark progettato per valutare la capacità dei modelli multimodali di ragionamento e modifica delle immagini basata su conoscenze disciplinari specifiche, rivelando attraverso un protocollo di valutazione multidimensionale le significative limitazioni degli attuali modelli di stato dell'arte in contesti di editing complessi e orientati alla conoscenza.

Mingxin Liu, Ziqian Fan, Zhaokai Wang + 13 more2026-03-13💻 cs

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Il paper presenta OmniStream, un backbone visivo unificato per flussi continui che, grazie a un'architettura causale e un pre-addestramento multi-task su 29 dataset, riesce a percepire, ricostruire e agire in tempo reale con prestazioni competitive in compiti di ragionamento semantico, spaziale e temporale, anche per agenti robotici non visti durante l'addestramento.

Yibin Yan, Jilan Xu, Shangzhe Di + 2 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Il paper introduce MM-CondChain, un benchmark verificabile programmaticamente che valuta la capacità dei modelli linguistici multimodali di eseguire ragionamenti compositi profondi e visivamente radicati attraverso catene di condizioni logiche complesse, rivelando che anche i modelli più avanzati faticano a gestire tale complessità.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Il paper presenta EVATok, un framework di tokenizzazione video adattiva che ottimizza la lunghezza delle sequenze di token per bilanciare qualità e costi computazionali, ottenendo risultati di generazione autoregressiva superiori con una riduzione significativa del consumo di token rispetto agli stati dell'arte.

Tianwei Xiong, Jun Hao Liew, Zilong Huang + 3 more2026-03-13💻 cs

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Il documento dimostra che, in un modello di decisione di gruppo tramite voto su ipotesi binarie, l'apprendimento sociale è inutile e il segreto del voto è ottimale, poiché ignorare le decisioni precedenti degli altri agenti massimizza le prestazioni complessive del team.

Joong Bum Rhim, Vivek K. Goyal2026-03-12💻 cs

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Lo studio dimostra che, in un processo di apprendimento sociale sequenziale, è controintuitivamente ottimale per gli agenti bayesiani adottare credenze iniziali inaccurate e sistematicamente distorte per massimizzare l'informazione trasmessa ai successivi, permettendo così all'ultimo agente di prendere la decisione migliore.

Joong Bum Rhim, Vivek K Goyal2026-03-12💻 cs

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Il paper propone un framework basato su reticoli per l'allocazione adattiva dei tentativi nella stima dei parametri di processi Bernoulliani, dimostrando attraverso simulazioni ispirate all'imaging attivo che tale approccio riduce significativamente l'errore quadratico medio rispetto ai metodi tradizionali.

Safa C. Medin, John Murray-Bruce, David Castañón + 1 more2026-03-12💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

Questo articolo offre una panoramica completa dei recenti progressi nel tracciamento multi-oggetto, esaminando l'evoluzione dalle architetture tradizionali ai modelli basati su transformer e foundation models, analizzando le tendenze nei benchmark e le metriche di valutazione, e delineando le direzioni future per l'adozione pratica in scenari reali.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs

← Precedente Successivo →

cs