TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Il paper presenta TIDE, un metodo di estrazione senza addestramento per i Diffusion Transformer che risolve i problemi di degradazione strutturale e perdita di dettagli nelle immagini ad alta risoluzione bilanciando i token testuali e immateriali tramite un ancoraggio testuale e un controllo dinamico della temperatura basato sulla progressione spettrale.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Questo studio introduce un benchmark sintetico e propone un approccio innovativo che utilizza modelli visione-linguaggio fondazionali (Gemma 3 e Qwen3-VL) per generare automaticamente configurazioni JSON per simulazioni di piante da immagini di droni, offrendo un framework scalabile per la creazione di gemelli digitali in agricoltura.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Il paper presenta PathoScribe, un framework unificato basato su modelli linguistici di grandi dimensioni (LLM) che trasforma gli archivi di patologia statici in una "biblioteca vivente" interattiva, abilitando il recupero semantico, il ragionamento clinico e la costruzione automatizzata di coorti di ricerca con elevata precisione ed efficienza.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Il paper presenta SVG-EAR, un metodo senza parametri che migliora l'efficienza della generazione video tramite Diffusion Transformers utilizzando una compensazione lineare basata su centroidi e un routing consapevole dell'errore per recuperare le informazioni perse nella sparsificazione, ottenendo significativi guadagni di velocità senza compromettere la qualità.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Il paper presenta SurgCalib, un framework automatico e senza marcatori basato su Gaussian Splatting per la calibrazione mano-occhio del robot chirurgico da Vinci, che risolve le sfide delle misurazioni imprecise dei robot a cavo attraverso un'ottimizzazione differenziabile sotto vincolo RCM, ottenendo errori di riproiezione e di distanza 3D ridotti sul benchmark dVRK.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Il paper propone Normalized Flow Matching (NFM), un nuovo metodo che distilla l'accoppiamento quasi-deterministico di modelli di Flussi Normalizzanti preaddestrati per addestrare modelli di Flow Matching studenti, ottenendo prestazioni superiori sia rispetto ai tradizionali accoppiamenti indipendenti o di trasporto ottimo, sia rispetto al modello insegnante stesso.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Questo lavoro propone una misura di piattezza esatta e fedele all'architettura per le CNN, derivando un'espressione in forma chiusa per la traccia dell'Hessiano e specializzandola per i livelli convoluzionali, dimostrando empiricamente la sua efficacia come strumento robusto per stimare le prestazioni di generalizzazione e guidare la progettazione dei modelli.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Il documento presenta WS-Net, un framework di deep learning che combina modellazione a spazio di stato (Mamba) e un meccanismo di attenzione per segnali deboli, al fine di migliorare l'accuratezza della stima delle abbondanze nell'unmixing iperspettrale, specialmente in presenza di risposte spettrali deboli e rumore.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Questo studio propone un framework potenziato basato su YOLOv8 che integra rilevamento di incendi e fumo con un'analisi di prossimità per valutare i rischi nei cantieri ingegneristici, calcolando distanze reali e generando un punteggio di rischio quantitativo con prestazioni superiori al 90% di precisione.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Questo studio diagnostica il "gap di modalità" che riduce le prestazioni dei modelli linguistici multimodali quando elaborano testo come immagini, identificando le cause degli errori di lettura e proponendo un metodo di auto-distillazione che ripristina l'accuratezza fino a livelli superiori al 92% senza dimenticare le conoscenze pregresse.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Training-free Motion Factorization for Compositional Video Generation

Il paper propone un framework di fattorizzazione del movimento che, senza richiedere addestramento, scompone la generazione video composita in tre categorie (staticità, movimento rigido e non rigido) attraverso una fase di pianificazione strutturata e una generazione disaccoppiata, migliorando la sintesi di motion su modelli di diffusione esistenti.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs