cs.CV Arbeiten | Gist.Science

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Die Arbeit stellt TIDE vor, eine trainingsfreie Methode zur dynamischen Bildextrapolation für Diffusion-Transformer, die durch einen textbasierten Ankermechanismus und eine schrittweise temperaturgesteuerte Dynamik strukturelle Verzerrungen bei der Generierung höherer Auflösungen und beliebiger Seitenverhältnisse ohne zusätzliche Sampling-Kosten vermeidet.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Diese Studie stellt ein synthetisches Benchmark vor, das zeigt, wie Vision-Language-Modelle wie Gemma 3 und Qwen3-VL mithilfe von In-Context-Learning aus Drohnenbildern JSON-Konfigurationen für die Simulation von Pflanzen in landwirtschaftlichen Digital Twins generieren können, wobei zwar strukturelle Parameter erfolgreich extrahiert werden, die Modelle jedoch bei unzureichenden visuellen Hinweisen anfällig für Kontextverzerrungen sind.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Die Studie stellt PathoScribe vor, ein einheitliches Framework auf Basis von Retrieval-Augmented Large Language Models, das statische Pathologie-Archive in eine interaktive Wissensdatenbank verwandelt und durch Funktionen wie semantische Suche, automatische Kohortenbildung sowie klinische Fragebeantwortung die Diagnoseunterstützung und Forschungseffizienz erheblich steigert.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Das Paper stellt BiCLIP vor, einen extrem einfachen und parameterarmen Rahmen, der durch eine strukturierte geometrische Transformation multimodaler Merkmale, die auf wenigen Ankerpunkten basiert, das Zero-Shot-Lernen von Vision-Language-Modellen in spezialisierten Domänen auf den Stand des Kunstzustands bringt.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Die Arbeit stellt den ersten exemplarfreien Benchmark für kontinuierliches Audio-Visuelles Segmentieren (AVS) vor und schlägt das Modell ATLAS mit Low-Rank Anchoring vor, um das Vergessen bisheriger Aufgaben in dynamischen Umgebungen zu verhindern.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Die Arbeit stellt SVG-EAR vor, eine parametrenfreie Methode zur linearen Kompensation in Diffusion Transformern für die Videogenerierung, die durch semantische Clustering-basierte Approximation und ein fehlerbewusstes Routing-Verfahren die Effizienz signifikant steigert, ohne dabei die Generierungsqualität zu beeinträchtigen.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Die Arbeit stellt SurgCalib vor, ein markerloses Framework zur Hand-Augen-Kalibrierung des da Vinci-Operationsroboters, das mittels Gaußschem Splatting und einer zweiphasigen Optimierung unter RCM-Bedingungen präzise Kalibrierungsergebnisse ohne zusätzliche fiduzielle Marker erzielt.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

Die Arbeit stellt SkipGS vor, eine effiziente Trainingsmethode für 3D-Gaussian-Splatting, die durch einen adaptiven Mechanismus zum selektiven Überspringen von Rückwärtsdurchläufen in der Nachverdichtungsphase die Trainingszeit um 23,1 % reduziert, ohne die Rekonstruktionsqualität zu beeinträchtigen.

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Diese Arbeit stellt ein multimodales Framework vor, das Diffusionsmodelle mit ControlNet nutzt, um Kopiererkennungsmuster durch die Kombination von Originalvorlage, gedrucktem Muster und Drucker-Signatur zu authentifizieren und dabei hochauflösende Fälschungen zuverlässiger als herkömmliche Methoden zu erkennen.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Die Arbeit stellt Normalized Flow Matching (NFM) vor, eine Methode, die die quasi-deterministischen Kopplungen von vortrainierten autoregressiven Normalizing-Flow-Modellen destilliert, um Student-Flow-Modelle zu trainieren, die sowohl ihre Lehrer als auch herkömmliche Flow-Matching-Ansätze mit unabhängigen oder optimalen Transport-Kopplungen übertreffen.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Diese Arbeit stellt einen exakten und architekturgetreuen Flachheitsmaßstab für CNNs vor, der durch eine geschlossene Formel für die Spur der Hesse-Matrix die Generalisierungsfähigkeit präziser schätzt als bisherige Methoden, die oft die spezifische Geometrie von Faltungsschichten vernachlässigen.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Die Arbeit stellt WS-Net vor, ein tiefes Entmischungsframework, das durch die Kombination von State-Space-Modellierung und einer Schwachsignal-Aufmerksamkeitsfusion die Genauigkeit bei der Rekonstruktion schwacher hyperspektraler Signale unter Rauschbedingungen signifikant verbessert.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Die Arbeit stellt SpectralDiff vor, ein auf Diffusionsmodellen basierendes Framework zur Entfernung von Regenflecken aus Einzelbildern, das strukturierte spektrale Störungen zur gezielten Unterdrückung von Regenkomponenten nutzt und durch eine effiziente Full-Product-U-Net-Architektur eine kompakte und rechenleistungsfreundliche Lösung bietet.

Yucheng Xing, Xin WangWed, 11 Ma💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Diese Studie stellt einen verbesserten YOLOv8-basierten Dual-Modell-Rahmen vor, der durch die Kombination von Instanzsegmentierung und Objekterkennung nicht nur Feuer und Rauch erkennt, sondern auch eine quantitative Risikobewertung auf Basis der realen Entfernung zu gefährdeten Objekten ermöglicht.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Das Paper stellt GST-VLA vor, ein 3D-tiefenbewusstes Vision-Language-Action-Modell, das durch einen Gaussian Spatial Tokenizer für geometrisch strukturierte 3D-Gauß-Primitiven und eine 3D-tiefenbewusste Chain-of-Thought-Argumentation die Robotersteuerung auf Benchmarks wie LIBERO und SimplerEnv signifikant verbessert.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Das Paper stellt OmniEdit vor, ein trainingsfreies Framework für Lippen-Synchronisation und Audio-Visuelle Bearbeitung, das durch die Ersetzung der Bearbeitungssequenz in FlowEdit und die Eliminierung stochastischer Elemente eine effiziente und stabile Generierung ermöglicht.

Lixiang Lin, Siyuan Jin, Jinshan ZhangWed, 11 Ma💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Der vorgestellte Ansatz adressiert die Herausforderung der physikalisch plausiblen Videogenerierung, indem er physikalische Phänomene durch eine Kombination aus physikgetriebener Ereignisketten-Logik und transitionsbewusstem cross-modalem Prompting in eine Folge kausal verknüpfter, dynamisch evolvierender Ereignisse zerlegt, um so die Kontinuität und physikalische Konsistenz generierter Videos zu gewährleisten.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Diese Studie diagnostiziert die Leistungslücke zwischen textbasierten und bildbasierten Eingaben in multimodalen Sprachmodellen, identifiziert Lesefehler als Hauptursache und schlägt eine Selbst-Distillation vor, um das Textverständnis in Bilddokumenten drastisch zu verbessern.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Das Papier stellt MedKCO vor, eine Methode zur medizinischen Vision-Language-Pretraining, die durch ein zweistufiges Curriculum-Learning und einen selbstgesteuerten asymmetrischen kontrastiven Verlust die kognitive Orchestrierung von Wissen optimiert, um suboptimale Merkmalsdarstellungen zu vermeiden und die Leistung bei downstream-Aufgaben signifikant zu steigern.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

Dieses Paper stellt einen trainingsfreien Rahmen zur Bewegungszerlegung vor, der komplexe Bewegungen in statische, starre und nicht-starre Kategorien aufteilt und durch eine sequenzielle Planung vor der Generierung sowie modale Entkopplung eine präzise, zusammengesetzte Videogenerierung mit verschiedenen Erscheinungsformen und Bewegungen ermöglicht.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs

← Zurück Weiter →