cs articoli | Gist.Science

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Il paper introduce AD-R1, un framework di apprendimento per rinforzo in ciclo chiuso che utilizza un "Modello di Mondo Imparziale" addestrato tramite sintesi controfattuale per prevedere onestamente i pericoli e ridurre significativamente le violazioni di sicurezza nella guida autonoma end-to-end.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Il paper presenta TEAR, un framework di red-teaming automatizzato e consapevole del tempo progettato per identificare rischi di sicurezza specifici nella generazione di video dinamici, ottenendo un tasso di successo degli attacchi superiore all'80% su vari modelli Text-to-Video.

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Questo articolo presenta algoritmi randomizzati che calcolano approssimazioni $(1-\varepsilon)$ del massimo clique in grafi di dischi con tempi di esecuzione quasi lineari, offrendo una soluzione quasi lineare per i grafi di dischi unitari e uno schema di approssimazione parametrizzato per grafi con $t$ raggi distinti.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder

Il paper presenta AEIC, un nuovo framework di compressione asimmetrica che utilizza un encoder leggero e un decoder basato su diffusione in un singolo passo per ottenere ricostruzioni ad alta fedeltà a bitrate ultra-bassi, garantendo al contempo un'elevata efficienza di codifica adatta ai dispositivi edge.

Tianyu Zhang, Dong Liu, Chang Wen Chen2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

Questo lavoro presenta un metodo di controllo basato sull'apprendimento per rinforzo che permette a un manipolatore aereo sottodimensionato e leggero di raggiungere un controllo preciso della posa dell'organo terminale in sei gradi di libertà, dimostrando robustezza e accuratezza anche in compiti di manipolazione fisica complessi.

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Questo lavoro introduce SVBench, il primo benchmark per valutare la capacità di ragionamento sociale dei modelli di generazione video, rivelando attraverso una valutazione su larga scala che, nonostante i progressi nel realismo visivo, i sistemi attuali faticano ancora a produrre comportamenti socialmente coerenti e psicologicamente fondati.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Il paper presenta Cosmos-H-Surgical, un modello di mondo che genera dati sintetici video-azione da un vasto corpus di video chirurgici non etichettati, permettendo l'addestramento di politiche robotiche che superano le prestazioni ottenute con i soli dati reali.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

Il paper propone AFTER, un metodo che mitiga le allucinazioni degli oggetti nei Large Vision-Language Models tramite un'editing adattiva delle attivazioni guidata da fatti, combinando un'orientazione delle attivazioni potenziata da dati fattuali e un'ottimizzazione adattiva specifica per la query.

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Questo articolo propone due framework basati su rappresentazioni neurali implicite (INR) per l'analisi volumetrica 3D delle immagini OCT retiniche, permettendo un'interpolazione densa tra scansioni distanti e la creazione di un atlante retinico agnostico rispetto alla risoluzione, superando così i limiti delle metodologie tradizionali bidimensionali e dipendenti dalla risoluzione.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Questo studio introduce OODEval, un benchmark manuale e una metrica unificata (CLUE) per valutare le capacità di progettazione orientata agli oggetti di 29 modelli linguistici, rivelando che, sebbene alcuni modelli raggiungano livelli comparabili agli studenti universitari, mostrano ancora significative carenze semantiche rispetto ai migliori progettisti umani.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING è un framework efficiente per la ricostruzione 3D in streaming che, grazie a una rappresentazione ibrida che disaccoppia primitivi geometrici espliciti e Gaussiane neurali, ottiene simultaneamente alta qualità di rendering e geometria accurata, superando i metodi esistenti in termini di velocità e precisione.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Questa ricerca dimostra che l'ordine di valutazione (prima la recensione o prima il voto) polarizza le recensioni dei consumatori, aumentando i voti estremi per servizi di alta o bassa qualità grazie a euristiche affettive e sforzo cognitivo, un effetto confermato sia da esperimenti controllati che da dati reali di piattaforme come Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

Il paper presenta Paracosm, un metodo zero-shot e senza addestramento per il recupero di immagini composte che supera i limiti degli approcci attuali generando direttamente l'immagine mentale richiesta tramite un modello multimodale su larga scala e costruendo un "paracosmo" di immagini sintetiche per colmare il divario di dominio con le immagini reali.

Tong Wang, Yunhan Zhao, Shu Kong2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth è un metodo plug-and-play e privo di addestramento che mitiga le allucinazioni nei modelli linguistici multimodali applicando una regolarizzazione adattiva basata sull'entropia dell'attenzione agli stati nascosti, migliorando così significativamente la coerenza visiva e le prestazioni complessive durante l'inferenza.

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Questo articolo analizza empiricamente la letteratura robotica dal 1980 al 2024 per evidenziare la scarsa definizione del concetto di lavori "noiosi, sporchi e pericolosi" (DDD), integrando studi di scienze sociali per proporre un quadro concettuale che guidi la comunità robotica verso una comprensione più informata dell'impatto della tecnologia sul lavoro umano.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent è un sistema di inferenza agenziale semplice, veloce e consapevole del programma che, astruendo i flussi di lavoro come "LLM Programs" e gestendo in modo unificato risorse eterogenee come cache KV e strumenti esterni, supera le limitazioni delle architetture attuali ottenendo significativi miglioramenti nel throughput e nel risparmio di memoria.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ è un framework di Virtual Try-On universale e privo di addestramento che, integrando morfing strutturato dei capi, guida della posa principale e cucitura continua dei bordi, risolve le sfide di allineamento e coerenza strutturale per ottenere prestazioni all'avanguardia su scenari, tipi di abbigliamento e personaggi diversi senza necessità di riaddestramento.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

Il framework Similarity-as-Evidence (SaE) risolve il problema della sovracconfidenza nei Modelli Vision-Language per l'apprendimento attivo medico, calibrando le similarità testo-immagine attraverso una distribuzione Dirichlet per quantificare l'incertezza e selezionare in modo efficiente campioni informativi, ottenendo così prestazioni superiori e una migliore interpretabilità clinica.

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Il paper propone un framework di triangolazione guidato da template che integra i confini derivati da immagini in una griglia triangolare regolare, consentendo una discretizzazione stabile e parallela delle PDE con una migliore fedeltà geometrica e una riduzione degli elementi scadenti rispetto ai metodi tradizionali come la triangolazione di Delaunay vincolata.

Wei Feng, Haiyong Zheng2026-03-12💻 cs

SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

Il paper presenta SIMSPINE, un framework di simulazione biomeccanica e il primo dataset open-source con annotazioni 3D a livello vertebrale per il movimento della colonna, che colma il divario tra modellazione muscolo-scheletrica e visione artificiale fornendo benchmark e baseline pre-addestrate per la stima anatomica del movimento spinale.

Muhammad Saif Ullah Khan, Didier Stricker2026-03-12💻 cs

← Precedente Successivo →