cs.CV Arbeiten | Gist.Science

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

Das Paper stellt BeautyGRPO vor, ein Reinforcement-Learning-Framework, das mithilfe eines feinabgestimmten Präferenzmodells und einer dynamischen Pfadführung (DPG) Gesichtsretusche so optimiert, dass es subtile Makel entfernt und gleichzeitig die Gesichtsidentität bewahrt, um menschliche ästhetische Vorlieben besser zu erfüllen als bestehende Methoden.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

Das Paper stellt FREE-Edit vor, ein zero-shot Framework für bildgesteuertes Video-Editing auf Basis von Rectified-Flow-Modellen, das eine neuartige editierungsaware Injektionsmethode (REE) nutzt, um die Injektionsintensität pro Token basierend auf optischem Fluss zu modulieren und so hochwertige Ergebnisse ohne Nachtraining zu erzielen.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

Die Arbeit stellt TripleSumm vor, ein adaptives Modell zur dreifachen Modalfusion für die Videozusammenfassung, das gemeinsam mit dem neuen umfassenden Multimodal-Datensatz MoSu den State-of-the-Art in diesem Bereich erreicht.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

Die Arbeit stellt VP-Hype vor, einen hybriden Mamba-Transformer-Ansatz mit visuell-textuellen Prompts, der durch die Kombination linearer Zustandsraummodelle und relationaler Modellierung eine hocheffiziente und datensparsame Klassifizierung von hyperspektralen Bildern ermöglicht.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

Die Arbeit stellt RnG vor, einen einheitlichen Feed-Forward-Transformer, der durch einen rekonstruktionsgesteuerten kausalen Aufmerksamkeitsmechanismus und einen impliziten 3D-KV-Cache sowohl sichtbare Geometrie präzise rekonstruiert als auch plausible, unsichtbare Strukturen generiert, um vollständige 3D-Modelle aus partiellen 2D-Beobachtungen in Echtzeit zu erstellen.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

Die Arbeit stellt VisNec vor, ein Rahmenwerk zur Messung der visuellen Notwendigkeit in multimodalen Instruktionsdaten, das durch die Auswahl von nur 15 % der LLaVA-665K-Datenmenge eine Leistung erzielt, die der des gesamten Datensatzes entspricht oder ihn sogar übertrifft.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

CoSMo3D überwindet die Fragilität bestehender 3D-Segmentierungsmethoden, indem es durch LLM-gestützte Datenausrichtung und eine duale Architektur einen latenten kanonischen Referenzrahmen erlernt, der es ermöglicht, Objektparteien unabhängig von der Eingabepose funktional und stabil zu interpretieren.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Diese Arbeit stellt eine Methode vor, bei der ein vortrainiertes Vision-Language-Modell durch Feinabstimmung und einen benutzerdefinierten Regressionskopf in der Lage ist, basierend auf monokularen Bildern und Sprachbefehlen präzise 3D-Positionen von Objekten für die Mensch-Roboter-Interaktion zu schätzen.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

Diese Arbeit stellt mit SafeEditBench ein neues Benchmark-Tool zur Bewertung der politikübergreifenden Generalisierung von Bild-Sicherheitsmodellen vor und schlägt die RLVR-basierte Methode SafeGuard-VL vor, um Vision-Language-Modelle robust an sich wandelnde Sicherheitsrichtlinien anzupassen.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Die Arbeit „AgilePruner" führt eine empirische Studie durch, die die Stärken und Schwächen von auf Aufmerksamkeit und Diversität basierenden Methoden zur visuellen Token-Pruning in großen visuell-sprachlichen Modellen analysiert und darauf aufbauend einen adaptiven Pruning-Mechanismus vorschlägt, der durch bildspezifische Anpassungen sowohl die Leistung als auch die Halluzinationsrate verbessert.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Die MAMA-MIA-Challenge adressiert die mangelnde Generalisierbarkeit und Fairness bestehender KI-Modelle für die Brust-MRT durch einen großen, multizentrischen Benchmark, der die Segmentierung von Tumoren und die Vorhersage des Therapieansprechens über Kontinente hinweg unter Einbeziehung von Untergruppen-Gerechtigkeitsmetriken evaluiert.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Diese Arbeit stellt eine Methode vor, die es ermöglicht, die Rekonstruktionsqualität bei spärlichen Neutronen-CT-Daten durch die Einbeziehung von X-ray-CT-Daten als zusätzliche Modalität zu verbessern, ohne dabei das zugrunde liegende Diffusionsmodell neu trainieren zu müssen.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

Diese Arbeit stellt einen einheitlichen Rahmen vor, der die Vorteile modularer Faktorgraphen mit zertifizierbaren, global optimalen Schätzverfahren verbindet, indem sie zeigt, dass die Struktur von Faktorgraphen unter Shor-Relaxation und Burer-Monteiro-Faktorisierung erhalten bleibt und so die Implementierung zertifizierbarer Schätzung mit etablierten Robotik-Bibliotheken ermöglicht.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Die Arbeit stellt FoSS vor, ein neuartiges Dual-Branch-Framework, das Frequenzbereichsanalyse mit linearen State-Space-Modellen kombiniert, um bei autonomen Fahrzeugen sowohl langfristige Abhängigkeiten als auch multimodale Unsicherheiten in der Trajektorienvorhersage mit höherer Genauigkeit und deutlich reduzierter Rechenkomplexität zu modellieren.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Die vorgestellte Arbeit schlägt einen unsicherheitsbewussten Multi-Task-Lernrahmen für die Brustultraschallanalyse vor, der durch bidirektionale Interaktion auf mehreren Decoderebenen und adaptive Gewichtung die Aufgabeninterferenz reduziert und gleichzeitig die Segmentierung sowie Klassifizierung verbessert.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Diese Studie zeigt, dass Reinforcement Learning medizinische Vision-Language-Modelle vor allem dann effektiv verbessert, wenn sie durch Supervised Fine-Tuning bereits über ein solides Grundverständnis verfügen, und stellt darauf aufbauend eine optimierte Trainingsstrategie vor, die zu starken Leistungen auf mehreren medizinischen VQA-Benchmarks führt.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Das Paper stellt AG-VAS vor, ein neuartiges Framework, das Large Multimodal Models durch die Einführung lernbarer semantischer Anker-Token und spezialisierter Module für die semantische Ausrichtung nutzt, um im Zero-Shot-Setting präzise visuelle Anomaliesegmentierung zu ermöglichen und dabei den aktuellen Stand der Technik auf mehreren Benchmarks zu übertreffen.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Diese Studie vergleicht überwachte Lernverfahren mit Open-Vocabulary-Modellen für das visuelle Verständnis von Katastrophenszenen und stellt fest, dass überwachte Ansätze bei verfügbaren Annotationen, insbesondere für kleine Objekte und präzise Abgrenzungen, nach wie vor die zuverlässigste Methode bleiben.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

Die Arbeit stellt NVB-Face vor, eine neuartige einstufige Methode, die direkt aus einem einzelnen unverbesserten Gesichts-Bild konsistente und hochwertige Ansichten aus neuen Perspektiven generiert und dabei die Nachteile herkömmlicher zweistufiger Restaurierungs- und Syntheseprozesse umgeht.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

Die vorgestellte Methode PEFD ermöglicht das ground-truth-freie Fine-tuning von Multispektral-Demosaicing durch Ausnutzung der perspektivischen Äquivarianz und adaptiver Basismodelle, wodurch sie in Bezug auf Detailtreue und spektrale Genauigkeit überlegene Ergebnisse liefert.

Andrew Wang, Mike Davies2026-03-03💻 cs

← Zurück Weiter →