cs.CV Arbeiten | Gist.Science

A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Die Studie stellt ein verbessertes, textgesteuertes YOLO-World-Modell vor, das durch den Austausch der C2f-Schicht gegen eine C3k2-Schicht und eine Parallelisierungs-Optimierung die Erkennung kleiner Objekte auf Drohnenbildern präziser macht und dabei gleichzeitig die Parameterzahl sowie die Rechenlast reduziert.

Hyun-Ki Jung2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

Die Arbeit stellt ControlMLLM++ vor, einen Testzeit-Anpassungsrahmen, der lernbare visuelle Prompts in eingefrorene multimodale Sprachmodelle injiziert, um durch die Optimierung latenter visueller Token während der Inferenz eine feinkörnige, regionsbasierte visuelle Schlussfolgerung ohne Nachtraining zu ermöglichen.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

Die Arbeit stellt Relational Feature Caching (RFC) vor, ein neuartiges Framework, das durch die Nutzung der Korrelation zwischen Eingabe- und Ausgabe-Features die Vorhersagegenauigkeit bei Diffusion-Transformern verbessert und so die Rechenzeit im Vergleich zu rein zeitbasierten Caching-Ansätzen signifikant reduziert.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Die vorgestellte Arbeit führt ein variationsbasiertes Framework für Diffusionsmodelle mit anisotropen Rauschplänen ein, das durch die gemeinsame Optimierung eines Score-Netzwerks und einer matrixwertigen Pfadparameterisierung sowie einen effizienten Heun-basierten ODE-Löser eine konsistente Verbesserung gegenüber dem Baseline-EDM-Modell auf verschiedenen Datensätzen erzielt.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG

OSInsert: Towards High-authenticity and High-fidelity Image Composition

Die Arbeit stellt OSInsert vor, eine zweistufige Strategie, die durch die Kombination einer hochauthentischen Methode zur Anpassung der Vordergrundpose mit einer hochfidelen Methode zur Detailerhaltung erstmals gleichzeitig realistische und detailgetreue Bildkompositionen ermöglicht.

Jingyuan Wang, Li Niu2026-02-24💻 cs

Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

Der Artikel stellt Fore-Mamba3D vor, einen neuartigen Mamba-basierten Backbone für die 3D-Objekterkennung, der durch eine Vordergrund-fokussierte Kodierung, ein regional-zu-global gleitendes Fenster und eine semantisch unterstützte Verschmelzung die Leistungsfähigkeit linearer Modelle verbessert, indem er Hintergrundrauschen reduziert und die Kontextdarstellung stärkt.

Zhiwei Ning, Xuanang Gao, Jiaxi Cao + 5 more2026-02-24🤖 cs.AI

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Die Studie zeigt, dass einfache, mit Haushaltskosmetik nachahmbare physische Manipulationen wie Bartwuchs oder Make-up KI-gestützte Altersschätzungssysteme zuverlässig täuschen können, indem sie Minderjährige fälschlicherweise als Erwachsene einstufen, was die Notwendigkeit robusterer Verifikationsverfahren unterstreicht.

Xingyu Shen, Tommy Duong, Xiaodong An + 6 more2026-02-24🤖 cs.LG

A Green Learning Approach to LDCT Image Restoration

Diese Arbeit stellt einen grünen Lernansatz (Green Learning) zur Restauration von Rauschen und Artefakten in Low-Dose-CT-Bildern vor, der im Vergleich zu Deep-Learning-Methoden mathematische Transparenz, höhere Effizienz und einen geringeren Speicherbedarf bei gleichzeitig state-of-the-art Leistung bietet.

Wei Wang, Yixing Wu, C. -C. Jay Kuo2026-02-24🤖 cs.AI

Vinedresser3D: Agentic Text-guided 3D Editing

Die Arbeit stellt Vinedresser3D vor, einen agentenbasierten Rahmen für hochwertige textgesteuerte 3D-Bearbeitung, der mithilfe eines multimodalen Sprachmodells und eines invertierten Rectified-Flow-Inpainting-Prozesses komplexe Anweisungen präzise umsetzt, ohne manuelle Masken zu benötigen und dabei die 3D-Kohärenz bewahrt.

Yankuan Chi, Xiang Li, Zixuan Huang + 1 more2026-02-24💻 cs

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Die Arbeit stellt einen neuartigen zweistufigen Prune-then-Merge-Rahmen vor, der durch adaptive Filterung und hierarchische Zusammenführung von Embeddings die Effizienz und Genauigkeit beim visuellen Dokumenten-Retrieval verbessert und dabei den Zielkonflikt zwischen Kompressionsrate und Merkmalstreue überwindet.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Diese Arbeit stellt ein multimodales Framework vor, das linguistische Beschreibungen mit visuellen Perzepten durch die Kombination von SIFT-Alignment und dem Universal Quality Index verknüpft, um menschliche Referenzinterpretation zu modellieren und dabei in einem Referenzspiel-Paradigma eine überlegene Treffsicherheit und Effizienz im Vergleich zu menschlichen Teilnehmern zu erzielen.

Joseph Bingham2026-02-24🤖 cs.AI

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

Die Studie stellt HOCA-Bench vor, einen Benchmark, der Video-LLMs anhand von hegelianisch definierten ontologischen und kausalen Anomalien testet und zeigt, dass diese Modelle zwar statische Verletzungen erkennen, aber bei der Vorhersage physikalischer Kausalzusammenhänge signifikante Defizite aufweisen.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Die vorgestellte Arbeit entwickelt den adaptiven Angriff „MVIG", der durch die Nutzung eines mutual view information graph und zeitlicher Graphenlernen die Schwachstellen bestehender Verteidigungssysteme für kollaborative Wahrnehmung ausnutzt und deren Erfolgsrate signifikant senkt.

Yihang Tao, Senkang Hu, Haonan An + 3 more2026-02-24💻 cs

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Der Artikel stellt CLCR vor, eine Methode zur multimodalen Lernverarbeitung, die durch eine dreistufige semantische Hierarchie und spezifische Domänen für den intra- und interleveligen Austausch private und geteilte Informationen trennt, um semantische Fehlausrichtungen zu vermeiden und die Repräsentationsqualität zu verbessern.

Chunlei Meng, Guanhong Huang, Rong Fu + 3 more2026-02-24🤖 cs.AI

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Die Studie stellt einen skalierbaren, satellitengestützten Ansatz vor, der mithilfe von Machine Learning und PlanetScope-Bilddaten lothende Aktivitäten an archäologischen Stätten in Afghanistan mit einer F1-Score von 0,926 effektiv erkennt und dabei vortrainierte CNNs gegenüber traditionellen ML-Methoden übertrifft.

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali + 7 more2026-02-24🤖 cs.AI

RAID: Retrieval-Augmented Anomaly Detection

Das Paper stellt RAID vor, ein neuartiges, retrieval-basiertes Framework für die unüberwachte Anomalieerkennung, das durch den Einsatz einer hierarchischen Vektordatenbank und eines geleiteten Mixture-of-Experts-Netzwerks Rauschen bei der Bildzuordnung effektiv unterdrückt und damit state-of-the-art Ergebnisse auf mehreren Benchmark-Datensätzen erzielt.

Mingxiu Cai, Zhe Zhang, Gaochang Wu + 2 more2026-02-24💻 cs

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Diese Arbeit stellt ein effizientes Plug-and-Play-Modul vor, das die Fähigkeit von Vision-Language-Modellen zur reasoning über seltene Objekte durch die Verfeinerung visueller Tokens und die Anreicherung von Textprompts mit multimodalen Klasseneinbettungen verbessert, ohne dass ein Nachtraining des Modells erforderlich ist.

Xin Hu, Haomiao Ni, Yunbei Zhang + 3 more2026-02-24💻 cs

Accurate Planar Tracking With Robust Re-Detection

Die Autoren stellen mit SAM-H und WOFTSAM zwei neue Planar-Tracker vor, die die robuste Langzeit-Segmentierung von SAM 2 mit Homographie-Schätzung und Wiedererkennung kombinieren, um auf den Benchmarks POT-210 und PlanarTrack einen neuen State-of-the-Art zu erreichen.

Jonas Serych, Jiri Matas2026-02-24💻 cs

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

Die Arbeit stellt HiRM (High-Level Representation Misdirection) vor, eine Methode zur präzisen und lokal begrenzten Entfernung unerwünschter Konzepte aus Text-zu-Bild-Diffusionsmodellen, indem sie hochlevelige semantische Darstellungen im Text-Encoder umlenkt und dabei nur frühe Schichten aktualisiert, um die generative Qualität zu erhalten und die Trainingskosten zu minimieren.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

Die Arbeit stellt FedTAR vor, ein federiertes Lernframework, das durch demografiegesteuerte Personalisierung und eine meta-gelernte zeitliche Aggregation präzise und datenschutzkonforme longitudinale medizinische Berichte generiert, indem es die dynamische Krankheitsentwicklung und patientenspezifische Heterogenität effektiv modelliert.

He Zhu, Ren Togo, Takahiro Ogawa + 8 more2026-02-24🤖 cs.LG

← Zurück Weiter →