TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

TIDE is een trainingsvrije methode die Diffusion Transformers in staat stelt om afbeeldingen van willekeurige resoluties en aspectverhoudingen te genereren zonder extra samplekosten, door een tekstankeringsmechanisme en een dynamische temperatuurregeling te gebruiken om structurele degradatie en artefacten te voorkomen.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Dit paper introduceert een synthetische benchmark die aantoont dat Vision Language Foundation-modellen, zoals Gemma 3 en Qwen3-VL, via in-context learning dronebeelden kunnen vertalen naar JSON-configuraties voor plantensimulaties, waarmee een schaalbaar raamwerk wordt geboden voor digitale tweelingen in de landbouw, hoewel de modellen nog steeds vatbaar zijn voor contextuele bias en afhankelijkheid van datasetgemiddelden.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Het artikel introduceert SVG-EAR, een parameterloze methode die de rekenefficiëntie van videogeneratie met Diffusion Transformers verbetert door een foutbewuste routering te gebruiken om verwaarloosde attention-blokken nauwkeurig te compenseren zonder extra training.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Dit paper introduceert Normalized Flow Matching (NFM), een methode die de quasi-bepaalde koppelingsstrategie van een voorgeïntegreerd autoregressief normaliserend stroommodel distilleert om een student-model te trainen dat zowel de prestaties van onafhankelijke en optimale transport-koppelingen overtreft als die van de leraar zelf verbetert.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Dit paper introduceert WS-Net, een diep leerframework dat state-space-modelling en een zwak-signaal-attentie-mechanisme combineert om de nauwkeurigheid van hyperspectrale ontbinding te verbeteren door zwakke signaalresponsen effectief te isoleren van dominante eindleden en ruis.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Dit onderzoek analyseert de prestatieverschillen tussen tekst en afbeeldingen in multimodale taalmodellen, identificeert de oorzaken van deze 'modale kloof' en stelt een zelfdistillatiemethode voor die de nauwkeurigheid bij het lezen van tekst in afbeeldingen aanzienlijk verbetert zonder kennisverlies.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Training-free Motion Factorization for Compositional Video Generation

Deze paper introduceert een trainingsvrij raamwerk voor compositievideo-generatie dat complexe beweging ontbindt in statische, rigide en niet-rigide categorieën via een 'planning-voor-generatie'-paradigma, waardoor diverse objecten met gecontroleerde bewegingen en uiterlijk kunnen worden gegenereerd zonder bestaande diffusion-modellen te hoeven hertrainen.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs