cs.CV Arbeiten | Gist.Science

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Diese Arbeit identifiziert und behebt die problematischen Trainingseffekte herkömmlicher Layer-Normalisierung in Bildrestaurierungs-Transformern durch die Einführung einer maßgeschneiderten, adaptiven i-LN-Methode, die die Feature-Magnituden stabilisiert und die Leistung verbessert.

MinKyu Lee, Sangeek Hyun, Woojin Jun + 3 more2026-02-23💻 cs

Visual Planning: Let's Think Only with Images

Die Arbeit stellt das neue Paradigma „Visual Planning" vor, das durch den Einsatz von Reinforcement Learning (VPRL) mit GRPO nachtrainierte multimodale Modelle befähigt, komplexe räumliche Aufgaben effizienter durch sequenzielle Bildrepräsentationen statt durch rein textbasiertes Denken zu lösen.

Yi Xu, Chengzu Li, Han Zhou + 4 more2026-02-23💬 cs.CL

eStonefish-Scenes: A Sim-to-Real Validated and Robot-Centric Event-based Optical Flow Dataset for Underwater Vehicles

Die Arbeit stellt eStonefish-Scenes, einen synthetischen, auf dem Stonefish-Simulator basierenden optischen Fluss-Datensatz für Unterwasser-Ereigniskameras, zusammen mit der Bibliothek eWiz vor und validiert deren erfolgreiche Sim-to-Real-Übertragbarkeit durch den Einsatz eines ausschließlich auf synthetischen Daten trainierten ConvGRU-Netzwerks auf realen Unterwassersequenzen.

Jad Mansour, Sebastian Realpe, Hayat Rajani + 3 more2026-02-23💻 cs

Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models

Diese Arbeit stellt einen Benchmark vor, der zeigt, dass Text-zu-Bild-Diffusionsmodelle historische Kontexte systematisch durch stereotype Stile, Anachronismen und unzutreffende demografische Darstellungen verfälschen, und bietet damit eine Grundlage für die Entwicklung historisch genauerer Modelle.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-02-23🤖 cs.AI

Soft-CAM: Making black box models self-explainable for medical image analysis

Die Arbeit stellt SoftCAM vor, eine Methode, die Standard-CNNs durch den Ersatz der Fully-Connected-Schicht durch eine faltungsbasierte Klassenevidenzschicht inhärent interpretierbar macht und dabei in medizinischen Anwendungen sowohl die Klassifikationsleistung als auch die Zuverlässigkeit der Erklärungen im Vergleich zu nachträglichen Methoden verbessert.

Kerol Djoumessi, Philipp Berens2026-02-23🤖 cs.LG

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

Die Arbeit stellt Mod-Adapter vor, eine feinstimmungsfreie Methode zur personalisierten Bildgenerierung, die mithilfe eines neuartigen Modulationsadapters, Vision-Language-Cross-Attention und einer VLM-gesteuerten Vortrainierungsstrategie sowohl Objekt- als auch abstrakte Konzepte (wie Pose oder Beleuchtung) effektiv in Diffusions-Transformer-Modellen kombiniert.

Weizhi Zhong, Huan Yang, Zheng Liu + 5 more2026-02-23💻 cs

Learning to Weight Parameters for Training Data Attribution

Die Autoren stellen eine Methode vor, die die Wichtigkeit von Netzwerkkparametern für die Datenattribution direkt aus den Daten lernt, um die funktionale Heterogenität besser zu modellieren und die Genauigkeit der Zuordnung von Trainingsdaten zu Ausgaben in verschiedenen Aufgabenbereichen zu verbessern.

Shuangqi Li, Hieu Le, Jingyi Xu + 1 more2026-02-23🤖 cs.LG

GraphGSOcc: Semantic-Geometric Graph Transformer with Dynamic-Static Decoupling for 3D Gaussian Splatting-based Occupancy Prediction

Das Paper stellt GraphGSOcc vor, einen neuartigen Framework für die 3D-semantische Okklusionsvorhersage, der durch die Kombination von semantisch-geometrischen Graph-Transformern und einer dynamisch-statischen Entkopplung die Grenzen bestehender 3D-Gaussian-Splatting-Methoden überwindet und dabei sowohl die Genauigkeit als auch die Speichereffizienz signifikant verbessert.

Ke Song, Yunhe Wu, Chunchit Siu + 1 more2026-02-23🤖 cs.AI

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt VIL vor, ein nachträgliches Trainingsframework für die visuell-sprachliche Navigation in kontinuierlichen Umgebungen, das durch kontrastives Lernen und Wissensdistillation robustere, viewpoint-invariante Merkmale erzeugt und damit den aktuellen Stand der Technik auf Benchmarks wie R2R-CE und RxR-CE signifikant verbessert.

Josh Qixuan Sun, Huaiyuan Weng, Xiaoying Xing + 2 more2026-02-23🤖 cs.LG

Landmark Detection for Medical Images using a General-purpose Segmentation Model

Die vorgestellte Studie kombiniert YOLO zur Generierung von Bounding-Box-Prompts mit dem Segmentierungsmodell SAM, um eine präzise Erkennung und Segmentierung von anatomischen Landmarken sowie komplexen Strukturen in orthopädischen Becken-Röntgenaufnahmen zu ermöglichen.

Ekaterina Stansfield, Jennifer A. Mitterer, Abdulrahman Altahhan2026-02-23⚡ eess

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

Die Arbeit stellt ViGText vor, ein neuartiges Deepfake-Erkennungssystem, das durch die Integration von Bild-Patches und detaillierten Texterklärungen eines Vision-Language-Modells in einem Graph Neural Network-basierten Rahmenwerk die Generalisierungsfähigkeit und Robustheit gegenüber fortgeschrittenen Manipulationen signifikant verbessert.

Ahmad ALBarqawi, Mahmoud Nazzal, Issa Khalil + 2 more2026-02-23🤖 cs.AI

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

Die Arbeit stellt GeoDrag vor, eine neuartige, geometriegesteuerte Bildbearbeitungsmethode, die durch die Integration von 3D-Geometrie und 2D-Raumwissen in ein einheitliches Verschiebungsfeld präzise, konsistente und konfliktfreie Interaktionen bei komplexen Transformationen wie Rotationen und Perspektivänderungen ermöglicht.

Xinyu Pu, Hongsong Wang, Jie Gui + 1 more2026-02-23💻 cs

Smartphone-based iris recognition through high-quality visible-spectrum iris image capture.V2

Diese Arbeit stellt eine kompakte End-to-End-Pipeline für die Smartphone-basierte Iriserkennung im sichtbaren Spektrum vor, die durch eine benutzergeführte, ISO-konforme Bildaufnahme und spezialisierte, ressourcenschonende Modelle eine hohe Erkennungsgenauigkeit auf handelsüblichen Geräten demonstriert.

Naveenkumar G Venkataswamy, Yu Liu, Soumyabrata Dey + 2 more2026-02-23⚡ eess

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

Die Arbeit stellt GradFix vor, eine Methode, die durch gradientenbasiertes Maskieren Task-Vektoren zwischen verschiedenen vortrainierten Modellen erfolgreich überträgt, ohne dass eine zusätzliche Feinabstimmung erforderlich ist.

Filippo Rinaldi, Aniello Panariello, Giacomo Salici + 4 more2026-02-23🤖 cs.AI

Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods

Diese Studie untersucht die demografische Verzerrung von Deep-Learning- und traditionellen Segmentierungsmethoden für den Nucleus accumbens in MRT-Bildern und zeigt, dass zwar die Trainingsdaten-Rasse die Genauigkeit beeinflusst, die meisten Modelle jedoch race-spezifische Volumeneffekte nicht korrekt abbilden, während geschlechtsspezifische Unterschiede erhalten bleiben.

Ghazal Danaee, Marc Niethammer, Jarrett Rushmore + 1 more2026-02-23💻 cs

Simple 3D Pose Features Support Human and Machine Social Scene Understanding

Die Studie zeigt, dass menschliche soziale Wahrnehmung auf einfachen, expliziten 3D-Pose-Informationen beruht, die nicht nur menschliche Urteile besser vorhersagen als die meisten Deep-Learning-Modelle, sondern auch deren Leistung bei der sozialen Szenenanalyse signifikant verbessern können.

Wenshuo Qin, Leyla Isik2026-02-23🧬 q-bio

Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

Die Arbeit stellt „Perception-to-Pursuit" (P2P) vor, ein track-zentriertes Framework, das durch temporale Schlussfolgerung über kompakte Bewegungs-Token nicht nur die Flugbahn von Drohnen präzise vorhersagt, sondern auch deren physisch machbare Verfolgung ermöglicht, was zu einer signifikanten Verbesserung der Verfolgbarkeit im Vergleich zu reinen Tracking-Methoden führt.

Venkatakrishna Reddy Oruganti2026-02-23💻 cs

UrbanGS: A Scalable and Efficient Architecture for Geometrically Accurate Large-Scene Reconstruction

UrbanGS ist ein skalierbares Rekonstruktionsframework für städtische Umgebungen, das durch eine depth-konsistente D-Normal-Regularisierung, eine räumlich adaptive Gauß-Pruning-Strategie und ein einheitliches Partitionierungsschema geometrische Genauigkeit, Speicher-effizienz und Rendering-Qualität in großflächigen Szenen verbessert.

Changbai Li, Haodong Zhu, Hanlin Chen + 6 more2026-02-23💻 cs

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Das Paper stellt UniReason 1.0 vor, ein einheitliches Framework, das Text-zu-Bild-Generierung und Bildbearbeitung durch die Kombination von weltwissensgestütztem textuellem Reasoning und visuellen Selbstkorrekturen in einem gemeinsamen Architekturansatz vereint, um komplexe Synthesetasks zu meistern.

Dianyi Wang, Chaofan Ma, Feng Han + 8 more2026-02-23🤖 cs.AI

Temporal Pair Consistency for Variance-Reduced Flow Matching

Die Arbeit stellt Temporal Pair Consistency (TPC) vor, eine leichte Methode zur Varianzreduktion bei Flow-Matching-Modellen, die durch die Kopplung von Geschwindigkeitsvorhersagen an zeitlichen Paaren die Schätzungseffizienz und Probenqualität verbessert, ohne die Modellarchitektur oder den Lösungsalgorithmus zu verändern.

Chika Maduabuchi, Jindong Wang2026-02-23🤖 cs.AI

← Zurück Weiter →