cs.CV Arbeiten | Gist.Science

Differential privacy representation geometry for medical image analysis

Die Arbeit stellt DP-RGMI vor, ein Framework zur Analyse des Einflusses von Differential Privacy auf medizinische Bilddaten, das Leistungseinbußen durch die Zerlegung in geometrische Verschiebungen des Repräsentationsraums und eine Nutzungslücke zwischen linearer und end-to-end-Verarbeitung erklärt, anstatt nur die Endleistung zu bewerten.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

Die Arbeit stellt StrokeDiff vor, ein dateneffizientes Diffusionsmodell mit Smooth Regularization, das aus nur 470 handgezeichneten Proben kontrollierbare, menschenähnliche Ölgemälde-Striche generiert und so eine vollständige, strukturierte Malpipeline ermöglicht.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

Die Arbeit stellt „Egocentric Co-Pilot" vor, ein web-natives, neuro-symbolisches Framework für Smart-Glasses, das mittels eines LLM-gesteuerten Agenten mit multimodaler Eingabe und effizientem Kontextmanagement eine assistive, kontextbewusste KI für den Alltag bietet und dabei durch Cloud-Integration sowie lokale Baselines optimierte Latenz und Mobilität demonstriert.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

Das Paper stellt GroundedSurg vor, den ersten Benchmark für sprachbasierte Instanzsegmentierung chirurgischer Instrumente, der durch die Verknüpfung von Bildern mit natürlichen Sprachbeschreibungen und präzisen räumlichen Annotationen über verschiedene Eingriffstypen hinweg eine realistischere Evaluierung von KI-Systemen für die klinische intraoperative Assistenz ermöglicht.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

Die Arbeit stellt GuiDINO vor, ein Framework, das den vortrainierten DINOv3-Modell als Generator für visuelle Leitmasken nutzt, um durch eine leichte TokenBook-Mechanik und Gate-Steuerung die Segmentierungsleistung medizinischer Bildanalyse-Modelle zu verbessern, ohne diese vollständig neu trainieren zu müssen.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

Das Paper stellt ClinCoT vor, einen klinisch bewussten visuellen Chain-of-Thought-Ansatz, der durch eine automatisierte Datengenerierung und eine margin-basierte Optimierung von Präferenzpaaren medizinische Vision-Language-Modelle trainiert, um Halluzinationen zu reduzieren und die faktenbasierte Begründung auf visuelle pathologische Befunde zu stärken.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

Die Arbeit stellt PR-A $^2$ CL vor, ein neues Framework, das durch augmentiertes Anomalie-Kontrastives Lernen und einen vorhersagebasierten Verifizierungsansatz mit iterativen PARB-Modulen die komplexe Aufgabe der Zusammensetzung visueller Relationen (CVR) durch die Identifizierung von Ausreißern löst und dabei den aktuellen Stand der Technik auf mehreren Datensätzen deutlich übertrifft.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

Die vorgestellte Arbeit stellt TCD-Net vor, ein auf Vision-Transformern basierendes Bildentstörungsnetzwerk, das durch kausale Interventionen, eine Umgebungsverzerrungsanpassung und eine orthogonale Trennung von Inhalt und Rauschen – unterstützt durch das KI-Modell Nano Banana Pro – eine überlegene Leistung bei gleichzeitiger Echtzeitverarbeitung erreicht.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

Der Artikel stellt ArtLLM vor, ein neuartiges Framework, das mithilfe eines 3D-multimodalen Large Language Models direkt aus vollständigen 3D-Meshes hochqualitative, artikulierte Assets mit variabler Teil- und Gelenkstruktur generiert und dabei bestehende Methoden in Bezug auf Genauigkeit und Generalisierungsfähigkeit deutlich übertrifft.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

Die Arbeit stellt TC-SSA vor, einen lernbaren Token-Kompressionsansatz mittels semantischer Slot-Aggregation, der die rechenintensive Verarbeitung gigapixelgroßer Pathologiebilder effizient löst, indem diagnostisch relevante Informationen in einer stark reduzierten Token-Anzahl zusammengefasst werden, ohne dabei die diagnostische Genauigkeit zu beeinträchtigen.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

Die Studie stellt ConVibNet vor, ein Echtzeit-Framework zur robusten Erkennung von Nadeln in Ultraschallbildern während der kontinuierlichen Insertion, das durch die Nutzung zeitlicher Abhängigkeiten und eines neuartigen Verlusts die Genauigkeit der Nadelpositionierung im Vergleich zu bestehenden Methoden signifikant verbessert.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Die Arbeit stellt D-REX vor, eine differentiable Engine, die auf Gaussian Splatting basiert, um durch visuelle Beobachtungen und Robotersignale die Masse von Objekten zu identifizieren und gleichzeitig realistische digitale Zwillinge sowie lernfähige Greifpolitiken zu erstellen, wodurch die Lücke zwischen Simulation und Realität effektiv geschlossen wird.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

Die Arbeit stellt GRAD-Former vor, ein neuartiges, effizientes Framework für die Veränderungserkennung in Fernerkundungsbildern, das durch einen adaptiven Encoder mit gating-basierten Mechanismen und differenzieller Aufmerksamkeit eine überlegene Genauigkeit bei gleichzeitig geringerem Parameterbedarf als bestehende State-of-the-Art-Modelle erreicht.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

Das Paper stellt BeautyGRPO vor, ein Reinforcement-Learning-Framework, das mithilfe eines feinabgestimmten Präferenzmodells und einer dynamischen Pfadführung (DPG) Gesichtsretusche so optimiert, dass es subtile Makel entfernt und gleichzeitig die Gesichtsidentität bewahrt, um menschliche ästhetische Vorlieben besser zu erfüllen als bestehende Methoden.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

Das Paper stellt FREE-Edit vor, ein zero-shot Framework für bildgesteuertes Video-Editing auf Basis von Rectified-Flow-Modellen, das eine neuartige editierungsaware Injektionsmethode (REE) nutzt, um die Injektionsintensität pro Token basierend auf optischem Fluss zu modulieren und so hochwertige Ergebnisse ohne Nachtraining zu erzielen.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

Die Arbeit stellt TripleSumm vor, ein adaptives Modell zur dreifachen Modalfusion für die Videozusammenfassung, das gemeinsam mit dem neuen umfassenden Multimodal-Datensatz MoSu den State-of-the-Art in diesem Bereich erreicht.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

Die Arbeit stellt VP-Hype vor, einen hybriden Mamba-Transformer-Ansatz mit visuell-textuellen Prompts, der durch die Kombination linearer Zustandsraummodelle und relationaler Modellierung eine hocheffiziente und datensparsame Klassifizierung von hyperspektralen Bildern ermöglicht.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

Die Arbeit stellt RnG vor, einen einheitlichen Feed-Forward-Transformer, der durch einen rekonstruktionsgesteuerten kausalen Aufmerksamkeitsmechanismus und einen impliziten 3D-KV-Cache sowohl sichtbare Geometrie präzise rekonstruiert als auch plausible, unsichtbare Strukturen generiert, um vollständige 3D-Modelle aus partiellen 2D-Beobachtungen in Echtzeit zu erstellen.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

Die Arbeit stellt VisNec vor, ein Rahmenwerk zur Messung der visuellen Notwendigkeit in multimodalen Instruktionsdaten, das durch die Auswahl von nur 15 % der LLaVA-665K-Datenmenge eine Leistung erzielt, die der des gesamten Datensatzes entspricht oder ihn sogar übertrifft.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

CoSMo3D überwindet die Fragilität bestehender 3D-Segmentierungsmethoden, indem es durch LLM-gestützte Datenausrichtung und eine duale Architektur einen latenten kanonischen Referenzrahmen erlernt, der es ermöglicht, Objektparteien unabhängig von der Eingabepose funktional und stabil zu interpretieren.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

← Zurück Weiter →