TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Die Arbeit stellt TIDE vor, eine trainingsfreie Methode zur dynamischen Bildextrapolation für Diffusion-Transformer, die durch einen textbasierten Ankermechanismus und eine schrittweise temperaturgesteuerte Dynamik strukturelle Verzerrungen bei der Generierung höherer Auflösungen und beliebiger Seitenverhältnisse ohne zusätzliche Sampling-Kosten vermeidet.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Diese Studie stellt ein synthetisches Benchmark vor, das zeigt, wie Vision-Language-Modelle wie Gemma 3 und Qwen3-VL mithilfe von In-Context-Learning aus Drohnenbildern JSON-Konfigurationen für die Simulation von Pflanzen in landwirtschaftlichen Digital Twins generieren können, wobei zwar strukturelle Parameter erfolgreich extrahiert werden, die Modelle jedoch bei unzureichenden visuellen Hinweisen anfällig für Kontextverzerrungen sind.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Die Studie stellt PathoScribe vor, ein einheitliches Framework auf Basis von Retrieval-Augmented Large Language Models, das statische Pathologie-Archive in eine interaktive Wissensdatenbank verwandelt und durch Funktionen wie semantische Suche, automatische Kohortenbildung sowie klinische Fragebeantwortung die Diagnoseunterstützung und Forschungseffizienz erheblich steigert.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Die Arbeit stellt SVG-EAR vor, eine parametrenfreie Methode zur linearen Kompensation in Diffusion Transformern für die Videogenerierung, die durch semantische Clustering-basierte Approximation und ein fehlerbewusstes Routing-Verfahren die Effizienz signifikant steigert, ohne dabei die Generierungsqualität zu beeinträchtigen.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Diese Arbeit stellt ein multimodales Framework vor, das Diffusionsmodelle mit ControlNet nutzt, um Kopiererkennungsmuster durch die Kombination von Originalvorlage, gedrucktem Muster und Drucker-Signatur zu authentifizieren und dabei hochauflösende Fälschungen zuverlässiger als herkömmliche Methoden zu erkennen.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Die Arbeit stellt Normalized Flow Matching (NFM) vor, eine Methode, die die quasi-deterministischen Kopplungen von vortrainierten autoregressiven Normalizing-Flow-Modellen destilliert, um Student-Flow-Modelle zu trainieren, die sowohl ihre Lehrer als auch herkömmliche Flow-Matching-Ansätze mit unabhängigen oder optimalen Transport-Kopplungen übertreffen.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Die Arbeit stellt WS-Net vor, ein tiefes Entmischungsframework, das durch die Kombination von State-Space-Modellierung und einer Schwachsignal-Aufmerksamkeitsfusion die Genauigkeit bei der Rekonstruktion schwacher hyperspektraler Signale unter Rauschbedingungen signifikant verbessert.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Der vorgestellte Ansatz adressiert die Herausforderung der physikalisch plausiblen Videogenerierung, indem er physikalische Phänomene durch eine Kombination aus physikgetriebener Ereignisketten-Logik und transitionsbewusstem cross-modalem Prompting in eine Folge kausal verknüpfter, dynamisch evolvierender Ereignisse zerlegt, um so die Kontinuität und physikalische Konsistenz generierter Videos zu gewährleisten.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Das Papier stellt MedKCO vor, eine Methode zur medizinischen Vision-Language-Pretraining, die durch ein zweistufiges Curriculum-Learning und einen selbstgesteuerten asymmetrischen kontrastiven Verlust die kognitive Orchestrierung von Wissen optimiert, um suboptimale Merkmalsdarstellungen zu vermeiden und die Leistung bei downstream-Aufgaben signifikant zu steigern.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

Dieses Paper stellt einen trainingsfreien Rahmen zur Bewegungszerlegung vor, der komplexe Bewegungen in statische, starre und nicht-starre Kategorien aufteilt und durch eine sequenzielle Planung vor der Generierung sowie modale Entkopplung eine präzise, zusammengesetzte Videogenerierung mit verschiedenen Erscheinungsformen und Bewegungen ermöglicht.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs