cs.CV Arbeiten | Gist.Science

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

Diese Arbeit stellt ein auf U-Net basierendes Deep-Learning-Verfahren zur Segmentierung von Hirntumoren vor, das einen besonderen Schwerpunkt auf die automatische Abgrenzung des nicht kontrastmittelaufnehmenden Tumorbereichs legt, da dieser für die Überlebensprognose und das Wachstumspotenzial von entscheidender Bedeutung ist.

T. Schaffer, A. Brawanski, S. Wein + 2 more2026-02-26🤖 cs.LG

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Die vorgestellte Arbeit stellt eine trainingsfreie Methode namens Dynamic Multimodal Activation Steering vor, die durch die dynamische, kontextabhängige Steuerung spezifischer Aufmerksamkeitsköpfe auf Basis von Wahrnehmungs- und Wahrheitsvektoren Halluzinationen in Large Vision-Language Models effektiv reduziert und dabei den aktuellen Stand der Technik übertrifft.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Das Paper stellt SurGo-R1 vor, ein durch RLHF optimiertes Modell mit einer mehrstufigen Architektur, das im Vergleich zu herkömmlichen Vision-Language-Modellen die Erkennung sicherer Operationszonen in der minimalinvasiven Chirurgie durch kontextabhängiges reasoning und Phasenanalyse signifikant verbessert.

Guanyi Qin, Xiaozhen Wang, Zhu Zhuo + 7 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Die vorgestellte Methode erweitert einen modellbasierten Rekonstruktionsansatz für Bildgebung, indem sie ein neuronales Netzwerk nutzt, um räumlich adaptive Sparsity-Level-Karten für beliebige Faltungs-Dictionaries zu lernen, was zu verbesserter Interpretierbarkeit, Filter-Permutations-Invarianz und größerer Robustheit gegenüber Datenverteilungsverschiebungen im Vergleich zu reinen Black-Box-Methoden führt.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Die Studie zeigt, dass ein auf Deep Learning basierendes Framework zur Waldbestandsabgrenzung sowohl mit ALS- als auch mit photogrammetrisch abgeleiteten Daten vergleichbar hohe Genauigkeiten erreicht und somit die Nutzung zeitlich abgestimmter, kosteneffizienter DAP-Daten für die Erstellung großer Trainingsdatensätze ermöglicht.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Diese Arbeit stellt ein innovatives Verfahren zur Zahnssegmentierung vor, das durch einen dreistufigen Encoder mit hierarchischen Merkmalen und bidirektionale Sequenzmodellierung die Kontextwahrnehmung verbessert und gleichzeitig den rechenintensiven Overhead von Transformer-Architekturen vermeidet, was auf dem OralVision-Datensatz zu einer signifikanten Steigerung der Genauigkeit führt.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

Die Arbeit stellt TranX-Adapter vor, einen leichten Adapter für multimodale große Sprachmodelle, der durch eine innovative Task-aware Optimal-Transport-Fusion und X-Fusion die Aufmerksamkeit für Artefaktmerkmale in der KI-generierten Bilderkennung verbessert und so die Detektionsgenauigkeit signifikant steigert.

Wenbin Wang, Yuge Huang, Jianqing Xu + 5 more2026-02-26💻 cs

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

Die Arbeit stellt SigVLP vor, ein selbstüberwachtes Vor-Trainingsverfahren für CT-Volumen, das mittels Rotatorischer Positionseingebettungen und feingranularer Text-Volumen-Ausrichtung variable Eingabegrößen bewältigt und so die Informationsverluste durch herkömmliche Zuschneidung vermeidet.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Diese Arbeit stellt einen neuen „Structure-to-Image"-Ansatz vor, der durch die Einführung von Phasenkongruenz und einer cross-level-Strukturconstraint die Lücke zwischen Simulation und Realität in der koloskopischen Tiefenschätzung schließt und so im Zero-Shot-Setting eine signifikante Reduktion des RMSE um bis zu 44,18 % erreicht.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

Die Arbeit stellt LiREC-Net vor, ein zielloses, lernbasiertes Netzwerk, das im Gegensatz zu bestehenden bi-modalen Ansätzen LiDAR-, RGB- und Event-Daten in einem einheitlichen Framework gemeinsam kalibriert und dabei eine effiziente, geteilte LiDAR-Repräsentation nutzt, um eine präzise Multi-Sensor-Fusion für autonome Systeme zu ermöglichen.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Die Autoren stellen einen hybriden Parallelismus-Rahmen vor, der eine bedingungsbasierte Datenpartitionierung mit adaptivem Pipeline-Scheduling kombiniert, um die Inferenzzeit von Diffusionsmodellen bei gleichzeitiger Wahrung der Bildqualität signifikant zu verkürzen.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

Die Arbeit stellt SAPNet++ vor, ein Netzwerk zur instanzbasierten Segmentierung mit einzelnen Punkthinweisen, das durch semantische und räumliche Bewusstheit sowie neue Module wie S-MIL und Multi-level Affinity Refinement die Herausforderungen von Granularitätsambiguität und Grenzunsicherheit löst und die Segmentierungsleistung auf vier Datensätzen signifikant verbessert.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Die Arbeit stellt CUPID vor, ein neues Framework zum maschinellen Vergessen, das das Problem des „shortcut unlearning" in voreingenommenen Modellen durch die Trennung von kausalen und verzerrungsbasierten Pfaden im Lernprozess adressiert und so eine robuste Entfernung unerwünschter Daten ermöglicht.

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee + 3 more2026-02-26🤖 cs.LG

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Die Arbeit stellt Forensic Answer-Questioning (FAQ) vor, ein umfassendes Benchmark- und Instruction-Tuning-Set, das Vision-Language-Modelle befähigt, durch eine dreistufige Hierarchie von der Gesichtswahrnehmung bis zur forensischen Schlussfolgerung zeitliche Inkonsistenzen in Video-Deepfakes effektiv zu erkennen und zu begründen.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

XStreamVGGT ist ein tuning-freier Ansatz, der durch eine Kombination aus effizientem Pruning und dimensionsadaptiver Quantisierung den KV-Cache komprimiert, um die Speichereffizienz und Inferenzgeschwindigkeit von StreamVGGT für skalierbare Streaming-3D-Anwendungen drastisch zu verbessern, ohne dabei die Leistung signifikant zu beeinträchtigen.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

Der Artikel stellt GeoMotion vor, einen vollständig lernbasierten Ansatz, der durch die direkte Inferenz von Bewegungssegmenten aus latenten 4D-Geometrie-Features und den Verzicht auf explizite Korrespondenzschätzung eine effiziente und präzise End-to-End-Bewegungssegmentierung in dynamischen Szenen ermöglicht.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Die Arbeit stellt StoryMovie vor, einen Datensatz aus 1.757 visuellen Geschichten, die durch Synchronisation von Drehbüchern und Untertiteln semantisch ausgerichtet sind, und zeigt, dass das darauf trainierte Modell Storyteller3 die Dialogzuordnung und semantische Kohärenz im Vergleich zu rein visuell basierten Modellen signifikant verbessert.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

Der Artikel stellt Meta-FC vor, eine neuartige Meta-Learning-Strategie mit Feature-Konsistenz, die durch die gemeinsame Behandlung mehrerer Verzerrungen und die Förderung verzerrungsinvarianter Merkmale die Robustheit und Generalisierbarkeit von Deep-Learning-Wasserzeichen im Vergleich zur herkömmlichen SRD-Methode signifikant verbessert.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Die Studie stellt Learning-to-Re-Prompt (L2RP) vor, ein kostensensitives Framework, das durch die Analyse der Fehlerfortpflanzung bei verschiedenen Prompt-Typen eine adaptive Strategie zur gezielten Einbindung von Expertenwissen entwickelt, um die Genauigkeit und zeitliche Konsistenz der Segmentierung von Barrett-Ösophagus-Videos zu verbessern.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Die Arbeit stellt DynamicGTR vor, ein Framework, das die Fähigkeiten von Vision-Language-Modellen bei Graph-Fragestellungen durch eine dynamische, anfragebasierte Auswahl optimaler Graph-Topologie-Repräsentationen verbessert und so eine präzise, effiziente Zero-Shot-Antwortgebung über verschiedene Domänen hinweg ermöglicht.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

← Zurück Weiter →