cs articoli | Gist.Science

The Orthogonal Vulnerabilities of Generative AI Watermarks: A Comparative Empirical Benchmark of Spatial and Latent Provenance

Questo studio dimostra empiricamente che i filigrane digitali attuali, operanti esclusivamente nei domini spaziali o latenti, possiedono vulnerabilità ortogonali e mutuamente esclusive che le rendono inefficaci contro gli strumenti di editing generativo moderno, evidenziando così la necessità urgente di architetture crittografiche multi-dominio per garantire una provenienza digitale robusta.

Jesse Yu, Nicholas Wei2026-03-12💻 cs

FC-4DFS: Frequency-controlled Flexible 4D Facial Expression Synthesizing

Il paper presenta FC-4DFS, un metodo innovativo per la sintesi di espressioni facciali 4D che garantisce flessibilità e fluidità temporale grazie a una rete LSTM controllata in frequenza e a una rete di spostamento multi-livello basata su meccanismi di cross-attention, ottenendo risultati all'avanguardia sui dataset CoMA e Florence4D.

Xin Lu, Chuanqing Zhuang. Zhengda Lu, Yiqun Wang, Jun Xiao2026-03-12💻 cs

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Il paper presenta "Fuel Gauge", un metodo innovativo che stima in anticipo la lunghezza del ragionamento a catena di pensiero (CoT) nei Modelli Multimodali su larga scala (LMM) analizzando un parametro nascosto, consentendo così un'allocazione più efficiente della memoria e una regolazione ottimale della lunghezza del ragionamento per migliorare le prestazioni e ridurre gli sprechi computazionali.

Yuedong Yang, Xiwen Wei, Mustafa Munir, Radu Marculescu2026-03-12💻 cs

Landmark Guided 4D Facial Expression Generation

Il paper propone LM-4DGAN, un modello generativo che utilizza i landmark facciali neutri, un discriminatore di identità e un autoencoder per sintetizzare espressioni facciali 4D robuste rispetto all'identità, migliorando le soluzioni esistenti che si basano su etichette o parlato.

Xin Lu, Zhengda Lu, Yiqun Wang, Jun Xiao2026-03-12💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Il paper presenta AgentServe, un sistema di serving per AI agenti su GPU consumer che, attraverso la co-progettazione algoritmo-sistema e l'isolamento delle fasi di prefill e decode, garantisce un'esecuzione multi-agente stabile con riduzioni fino a 2,8 volte nel tempo di primo token e 2,7 volte nel tempo per token rispetto alle soluzioni attuali.

Yuning Zhang, Yan Yan, Nan Yang, Dong Yuan2026-03-12💻 cs

EmoStory: Emotion-Aware Story Generation

Il paper introduce EmoStory, un nuovo framework a due stadi che genera storie visive coerenti e soggettivamente consistenti guidate da direzioni emotive esplicite, superando i limiti dei metodi esistenti che trascurano l'impatto emotivo sulla narrazione.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Questo paper introduce un quadro unificato basato su un Manifold di Equilibrio parametrizzato e una strategia di "haptic SLAM" che integra stima aptica, pianificazione online e controllo di impedenza adattivo per raggiungere una destrezza simile a quella umana nella manipolazione mediata da strumenti, come dimostrato da oltre 260 prove reali di allentamento di viti.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Il paper propone S-HPLB, una strategia di bilanciamento del carico parallelo a livello di testa che sfrutta l'eterogeneità stabile della sparsità nelle teste di attenzione degli LLM per ridurre i tempi di calcolo fino a 2,88 volte senza compromettere la qualità dell'inferenza.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi Guo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

Il paper introduce StyleGallery, un framework di trasferimento di stile personalizzato e privo di addestramento che, attraverso segmentazione semantica, corrispondenza di regioni e ottimizzazione guidata, risolve le limitazioni delle metodologie esistenti garantendo una migliore preservazione del contenuto e una maggiore adattabilità a riferimenti stilistici arbitrari.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Il paper propone un framework unificato che, manipolando i token visivi tramite calibrazione sinergica e causale delle rappresentazioni latenti, riduce efficacemente le allucinazioni nei modelli multimediali senza richiedere riaddestramento, migliorando la precisione POLO del 2% con un lieve sovraccarico computazionale.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Geometric Autoencoder for Diffusion Models

Il paper propone il Geometric Autoencoder (GAE), un framework innovativo che integra prior di modelli fondazionali visivi e normalizzazione latente per superare i limiti degli attuali autoencoder, ottenendo risultati di stato dell'arte nella generazione visiva ad alta risoluzione con un equilibrio superiore tra compressione, profondità semantica e stabilità di ricostruzione.

Hangyu Liu, Jianyong Wang, Yutao Sun2026-03-12💻 cs

GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

Il paper "GeoSense" presenta un nuovo framework per i modelli linguistici multimodali che, invece di iniettare rigidamente informazioni geometriche in ogni input, li dota della capacità di riconoscere autonomamente l'insufficienza dei segnali visivi 2D e di attivare dinamicamente canali geometrici solo quando necessario, migliorando così il ragionamento spaziale senza compromettere le prestazioni generali.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

Factor Dimensionality and the Bias-Variance Tradeoff in Diffusion Portfolio Models

Questo studio implementa un modello di diffusione condizionale per la previsione dei rendimenti azionari, rivelando che esiste un numero ottimale di fattori che bilancia il compromesso tra errore e varianza, permettendo di costruire portafogli con prestazioni fuori campione superiori rispetto alle strategie di base.

Avi Bagchi, Michael Tesfaye, Om Shastri2026-03-12💻 cs

Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw

Questo articolo analizza le gravi vulnerabilità di sicurezza della piattaforma OpenClaw, dimostrando che la sua resistenza nativa agli attacchi è scarsa e proponendo un nuovo strato difensivo basato sulla collaborazione uomo-macchina (HITL) che riduce significativamente i rischi di esecuzione di comandi dannosi.

Zhengyang Shan, Jiayun Xin, Yue Zhang, Minghui Xu2026-03-12💻 cs

Silent Subversion: Sensor Spoofing Attacks via Supply Chain Implants in Satellite Systems

Questo articolo presenta una dimostrazione end-to-end di un attacco di spoofing dei sensori tramite componenti compromessi nella catena di approvvigionamento di satelliti, evidenziando come tale minaccia interna possa ingannare sia i sistemi di bordo che gli operatori a terra e proponendo contromisure per garantire l'integrità della missione.

Jack Vanlyssel, Gruia-Catalin Roman, Afsah Anwar2026-03-12💻 cs

ScanDP: Generalizable 3D Scanning with Diffusion Policy

Il paper propone ScanDP, un framework di scansione 3D generalizzabile ed efficiente dal punto di vista dei dati che utilizza una Diffusion Policy e una mappatura a griglia di occupazione per imitare strategie di scansione umane, garantendo una maggiore copertura, percorsi più brevi e una robustezza al rumore rispetto ai metodi esistenti.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi2026-03-12💻 cs

Moving Phones, Active Peers: Exploring the Effect of Animated Phones as Facilitators in In-Person Group Discussion

Questo studio esplora come animare gli smartphone tramite il supporto "AnimaStand" durante discussioni di gruppo faccia a faccia, trasformandoli in facilitatori attivi che migliorano l'engagement, le prestazioni del compito e le relazioni tra i partecipanti.

Ziqi Pan, Ziqi Liu, Jinhan Zhang, Zeyu Huang, Xiaojuan Ma2026-03-12💻 cs

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Questo articolo propone OCpose, una nuova metrica per la valutazione della stima della posa multi-persona basata sul trasporto ottimo, che garantisce un'equa valutazione bilanciando veri e falsi positivi indipendentemente dai punteggi di confidenza, pur utilizzandoli per migliorare l'affidabilità dell'abbinamento.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Il paper propone SpatioCoupledNet, un metodo di controllo ibrido che combina conoscenze cinematiche e apprendimento automatico per gestire l'instabilità e migliorare la precisione nella forma di un robot iper-redundante planare flessibile, superando le prestazioni dei modelli puramente analitici o basati sui dati.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Rethinking Gaussian Trajectory Predictors: Calibrated Uncertainty for Safe Planning

Questo paper introduce un nuovo metodo di perdita basato sulla stima della densità kernel e sulla distribuzione Chi-quadro per calibrare l'incertezza nei predittori di traiettoria gaussiani, migliorando così l'affidabilità della pianificazione sicura in ambienti affollati.

Fatemeh Cheraghi Pouria, Mahsa Golchoubian, Katherine Driggs-Campbell2026-03-12💻 cs

← Precedente Successivo →