cs.CV Arbeiten | Gist.Science

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

Die Arbeit stellt S²-Guidance vor, eine trainingsfreie Methode, die durch stochastisches Block-Dropping Subnetzwerke nutzt, um die suboptimalen Vorhersagen von Classifier-free Guidance zu korrigieren und so die Qualität sowie semantische Kohärenz von generierten Bildern und Videos zu verbessern.

Chubin Chen, Jiashu Zhu, Xiaokun Feng + 7 more2026-03-05💻 cs

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Dieses Konzeptpapier stellt das Adaptive Quantized Planetary Crater Detection System (AQ-PCDSys) vor, eine Architektur, die durch Quantisierungsbewusstes Training und adaptive Multi-Sensor-Fusion die Echtzeit-Erkennung von Planetenkranzern auf ressourcenbeschränkter, strahlungsharter Weltraumhardware ermöglicht.

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

Das Paper stellt ROBUST-MIPS vor, einen kombinierten Datensatz aus Skelett-Pose- und Instanz-Segmentierungsannotationen für laparoskopische Instrumente, der die Effizienz der Datenerstellung verbessert und einen direkten Vergleich dieser beiden Annotationstechniken für die chirurgische Werkzeuglokalisierung ermöglicht.

Zhe Han, Charlie Budd, Gongyu Zhang + 3 more2026-03-05💻 cs

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Die Autoren stellen einen leichten Token-Pruning-Ansatz vor, der durch eine binäre Klassifikation und eine Max-Pooling-Verfeinerung nicht-informative Hintergrundbereiche aus Dokumentenbildern filtert, um die Rechenkosten von Vision-Language-Modellen bei der Dokumentenanalyse erheblich zu senken, ohne die Genauigkeit zu beeinträchtigen.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

QDFlow: A Python package for physics simulations of quantum dot devices

QDFlow ist ein Open-Source-Python-Paket, das realistische synthetische Daten für Quantenpunkt-Arrays mit Ground-Truth-Labels generiert, um die Entwicklung und Validierung von Machine-Learning-Methoden zur Kalibrierung und zum Betrieb dieser Geräte zu erleichtern.

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Enhancing Feature Fusion of U-like Networks with Dynamic Skip Connections

Dieses Paper stellt einen neuen, architekturunabhängigen Block für dynamische Skip-Connections vor, der durch Test-Time-Training und dynamische Multi-Scale-Kernel die starren und unzureichenden Fusionsmechanismen herkömmlicher U-Net-Architekturen überwindet und so die medizinische Bildsegmentierung in verschiedenen Netzwerktypen signifikant verbessert.

Yue Cao, Quansong He, Kaishen Wang + 3 more2026-03-05💻 cs

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

Diese Arbeit stellt mit ActiSeg-NL den ersten Benchmark für die label-noise-robuste, aktionsbasierte Videosegmentierung vor, analysiert systematisch die Auswirkungen von Text- und Maskenrauschen und führt einen Parallel Mask Head Mechanism (PMHM) zur Verbesserung der Robustheit ein.

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Die Autoren stellen einen extrem schnellen lokalen Löser vor, der auf Basis von RGB-D-Bildern und kategorisierten Objektpriors gleichzeitig Form und Pose schätzt und dabei durch eine Eigenwertzerlegung eine globale Optimalitätsgarantie in weniger als einer Millisekunde bietet.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG

Die Arbeit stellt den „Raw-JPEG Adapter" vor, einen leichten, lernbaren und invertierbaren Preprocessing-Prozess, der Rohbilder für die effiziente Kompression im JPEG-Format vorbereitet und dabei eine hohe Rekonstruktionsqualität bei kompaktem Speicherbedarf gewährleistet.

Mahmoud Afifi, Ran Zhang, Michael S. Brown2026-03-05💻 cs

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Das Paper stellt Vision-Zero vor, ein skalierbares, label-freies Multi-Agenten-Self-Play-Framework, das Vision-Language-Modelle durch strategische Spiele mit beliebigen Bildern und einen neuartigen iterativen Trainingsalgorithmus (Iterative-SPO) verbessert, um ohne menschliche Annotationen state-of-the-art Ergebnisse in visuellen Verstehens- und Reasoning-Aufgaben zu erzielen.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

Diese Arbeit stellt ein trainingsfreies Framework für die belohnungsgesteuerte Bildbearbeitung vor, das den Diffusionsprozess als steuerbare Trajektorie formuliert und durch adjungierte Zustände eine optimale Balance zwischen der Maximierung der Zielbelohnung und der Erhaltung des semantischen Inhalts der Quelldaten erreicht.

Jinho Chang, Jaemin Kim, Jong Chul Ye2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Die Arbeit stellt eine umfassende Untersuchung zur Generierung und Bearbeitung strukturierter Visualisierungen vor, die durch ein neuartiges 1,3-Millionen-Datensatz-Training, ein einheitliches Modell mit FLUX.1-Kontext und Reasoning-Fähigkeiten sowie den neuen Benchmark StructBench die Lücke in der faktischen Genauigkeit bestehender Bildgenerierungsmodelle schließt.

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Das Paper stellt TIGeR vor, ein Framework, das Vision-Language-Modelle durch die Generierung und Ausführung präziser geometrischer Berechnungen mit externen Tools von reinen Schätzern zu rechnerischen Systemen weiterentwickelt und so durch ein neues Datenset sowie ein zweistufiges Trainingsverfahren Zentimeter-Genauigkeit für robotische Manipulationsaufgaben erreicht.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Topological Alignment of Shared Vision-Language Embedding Space

Die Arbeit stellt ToMCLIP vor, ein neuartiges Framework, das durch die Integration topologieerhaltender Constraints mittels persistenter Homologie die globale Geometrie multilingualer Vision-Language-Embedding-Räume verbessert und so die Verzerrung zugunsten der englischen Sprache sowie die Null-Shot- und Abrufleistung signifikant steigert.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Die Arbeit stellt COGS vor, ein dateneffizientes Framework, das durch die Zerlegung von Seed-Fragen in primitive Faktoren und deren systematische Neukombination mit synthetischen Bildern große Mengen an Trainingsdaten für das visuelle Schlussfolgern von Multi-modalen Large Language Models generiert und so deren Leistungsfähigkeit insbesondere bei komplexen, zusammengesetzten Aufgaben erheblich steigert.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

Die Studie zeigt, dass die Zuverlässigkeit von Mahalanobis-basierten OOD-Detektoren stark von der geometrischen Struktur des Merkmalsraums abhängt, und führt eine neuartige radiale Skalierung der $\ell_2$ -Normalisierung ein, um die Detektionsleistung durch gezielte Anpassung der In-Distribution-Geometrie zu verbessern.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Das Paper stellt Kaleido vor, ein Open-Source-Framework zur Generierung von konsistenten Videos aus mehreren Referenzbildern, das durch eine spezialisierte Datenkonstruktionspipeline und eine neue Referenz-Rotary-Positional-Encoding-Methode (R-RoPE) die bestehenden Grenzen bei der Mehrsubjekt-Konsistenz und Hintergrundentflechtung überwindet.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Die Arbeit stellt das Prior-guided Concept Predictor (PCP) vor, ein schwach überwachtes Framework, das ohne explizite Konzept-Annotationen auskommt und durch die Nutzung von Klassen-prior-Wissen sowie Regularisierung die Vorhersage interpretierbarer medizinischer Konzepte signifikant verbessert.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Dieses Papier stellt einen neuartigen Rahmen vor, der die Geometrie und das Erscheinungsbild durch eine texturgesteuerte, gemeinsame Optimierung von Mesh und Gaußschen Verteilungen vereint, um hochwertige 3D-Rekonstruktionen für nachgelagerte Bearbeitungsaufgaben wie Relighting und Formverformung zu ermöglichen.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Die Arbeit stellt einen neuartigen Rahmen zur semantischen Segmentierung unter extremen Bedingungen vor, der durch eine edge-bewusste Re-Codierung und Unsicherheitsoptimierung die heterogenen Merkmale von Event- und RGB-Daten robust fusioniert, um Informationsverluste bei schlechten Lichtverhältnissen oder starker Kamerabewegung zu überwinden.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

← Zurück Weiter →