cs.CV Arbeiten | Gist.Science

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Der OneVision-Encoder stellt einen neuartigen multimodalen Ansatz vor, der durch die Ausrichtung auf codec-basierte Sparsity und die Fokussierung auf signifikante Bildbereiche nicht nur die Recheneffizienz steigert, sondern auch die Genauigkeit bei Bild- und Videoverständnis übertrifft.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

Die Arbeit stellt HLGFA vor, ein unüberwachtes Framework zur industriellen Anomalieerkennung, das durch die Ausrichtung von Merkmalen zwischen hoch- und niedrigauflösenden Darstellungen sowie eine rauschbewusste Daten-Augmentierung eine hohe Genauigkeit ohne rekonstruktionsbasierte Pixelanalyse erreicht.

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Das Papier stellt GigaBrain-0.5M* vor, ein Vision-Language-Action-Modell, das durch die Integration von Reinforcement Learning basierend auf einem Weltmodell (RAMP) überlegene Fähigkeiten in der räumlich-zeitlichen Vorhersage und langfristigen Ausführung komplexer Manipulationsaufgaben im Vergleich zu bestehenden Baselines erreicht.

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

PCReg-Net: Progressive Contrast-Guided Registration for Cross-Domain Image Alignment

Die Arbeit stellt PCReg-Net vor, ein progressives, kontrastgestütztes Deep-Learning-Framework zur präzisen und Echtzeit-fähigen deformierten Bildregistrierung über verschiedene Domänen hinweg, das die Herausforderungen heterogener Bildquellen durch einen vierstufigen Koarse-zu-Fein-Ansatz effektiv löst.

Jiahao Qin2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Diese Studie präsentiert eine groß angelegte systemische Analyse, die sieben Video-Foundation-Modelle zur Fernscreening von Parkinson-Erkrankungen auf einem Datensatz von 1.888 Teilnehmern bewertet und zeigt, dass die Leistung stark von der gewählten Architektur und der klinischen Aufgabe abhängt, wobei zwar eine hohe Spezifität, aber eine noch zu verbessernde Sensitivität erreicht wird.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Die Arbeit stellt das Deferred Visual Ingestion (DVI)-Framework vor, das durch den Verzicht auf eine Vorverarbeitung mit Vision-Language-Modellen und den Einsatz einer strukturbasierten Indexierung die Genauigkeit beim Beantworten von Fragen zu visuell dichten technischen Dokumenten im Vergleich zu herkömmlichen Ansätzen drastisch verbessert.

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

Diese Arbeit zeigt, dass eine globale Optimierungsmethode mit alternierender Minimierung und paralleler Gittersuche die Tiefenbestimmung aus unscharfen Bildern bei höheren Auflösungen als Deep-Learning-Verfahren effizient und effektiv löst.

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

Die Autoren stellen Hadamard-spektrale Codes vor, eine kompakte latente Darstellung, die durch einen lernbasierten Kodierer und Dekodierer eine effiziente spektrale Wiedergabe ermöglicht, indem sie die spektrale Linearität exakt erhält und die Multiplikation approximiert, wodurch hochwertige spektrale Ergebnisse mit nur wenigen RGB-Rendering-Pässen erzielt und auch RGB-Assets in den spektralen Workflow integriert werden können.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

Die vorgestellte Arbeit entwickelt ein Framework zur automatisierten Entwirrung von Hautfarben in Dermatologiebildern, das durch gezielte Dekolorisierung und geometrische Nachbearbeitung realistische Farbmanipulationen ermöglicht, um so durch datenbasierte Augmentierung und Normalisierung die Diagnoseleistung über verschiedene Hauttöne hinweg zu verbessern und gerechtere medizinische Diagnosen zu fördern.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Das Paper stellt FUSAR-GPT vor, ein speziell für SAR-Bilder entwickeltes visuelles Sprachmodell, das durch die Integration eines geospatiale Basismodells, die Einbettung von räumlich-zeitlichen Merkmalen und eine zweistufige Entkopplungsstrategie die Interpretationsfähigkeiten von SAR-Daten signifikant verbessert und damit bestehende Modelle um mehr als 12 % übertrifft.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Die Arbeit stellt DICArt vor, ein neuartiges Framework zur Schätzung der Pose von artikulierten Objekten, das durch die Formulierung als bedingter diskreter Diffusionsprozess, einen flexiblen Flussentscheider und eine hierarchische kinematische Kopplung die Herausforderungen bestehender kontinuierlicher Methoden überwindet und eine robuste, kategorienübergreifende 6D-Pose-Schätzung ermöglicht.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Die Arbeit stellt TextPecker vor, eine RL-basierte Strategie, die durch die Quantifizierung struktureller Anomalien in Texten die visuelle Textdarstellung in Bildgenerierungsmodellen verbessert, indem sie das Versagen bestehender Modelle bei der Erkennung solcher Fehler überwindet und so neue State-of-the-Art-Ergebnisse für die strukturelle Treue und semantische Ausrichtung erzielt.

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Die Arbeit stellt NORD vor, ein dateneffizientes Vision-Language-Action-Modell für autonomes Fahren, das durch die Anwendung von Dr. GRPO zur Überwindung von Schwierigkeitsverzerrungen eine wettbewerbsfähige Leistung mit weniger als 60 % der üblichen Trainingsdaten und ohne aufwändige Reasoning-Annotationen erzielt.

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

Die Arbeit stellt Durian vor, eine Schwierigkeitsbewusste Gruppen-Normalisierung, die die Instabilität herkömmlicher Normalisierungsmethoden bei multimodalen Large Language Models durch eine Neu-Gruppierung von Proben nach visueller Komplexität und Unsicherheit behebt und so die Reasoning-Leistung erheblich verbessert.

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

Das Papier stellt EndoDDC vor, eine Methode zur Verbesserung der endoskopischen Roboternavigation, die mithilfe eines Diffusionsmodells aus spärlichen Tiefendaten dichte und genaue Rekonstruktionen erzeugt, um die Herausforderungen schwacher Texturen und variabler Beleuchtung in chirurgischen Umgebungen zu bewältigen.

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

CoLoGen ist ein einheitlicher Diffusionsrahmen, der durch progressive Lernphasen und das neuartige Modul „Progressive Representation Weaving" (PRW) den Zielkonflikt zwischen konzeptuellem Verständnis und lokalisierender Präzision überwindet, um eine leistungsstarke, einheitliche Bildgenerierung zu ermöglichen.

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

Die Arbeit stellt Solaris vor, ein Multiplayer-Video-Weltmodell für Minecraft, das durch ein neuartiges Datensammelsystem, eine gestaffelte Trainingspipeline und die Checkpointed Self Forcing-Methode konsistente Mehrspieler-Interaktionen simuliert und damit bestehende Einzelagenten-Modelle übertrifft.

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

Die vorgestellte Arbeit stellt einen adaptiven Vorfilterungsrahmen vor, der durch die dynamische Zuweisung von Rechenbudgets basierend auf Frequenzmustern und Cluster-Kohärenz die Ähnlichkeitssuche in hochdimensionalen Räumen effizienter gestaltet und dabei bei gleicher Trefferquote den Rechenaufwand im Vergleich zu statischen Methoden um 20,4 % reduziert.

Teodor-Ioan Calin2026-02-27💻 cs

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

Die Arbeit stellt CrossLLM-Mamba vor, ein neuartiges Framework, das bidirektionale Mamba-Encoder nutzt, um die Vorhersage von RNA-Interaktionen durch dynamische Zustandsraum-Alignment-Strategien zu reformulieren und dabei state-of-the-art-Ergebnisse bei verschiedenen biologischen Bindungsaufgaben zu erzielen.

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

Die Studie zeigt, dass die Einführung robuster Verlustfunktionen beim Training nachgelagerter Modelle die Empfindlichkeit von Histopathologie-Foundation-Modellen gegenüber technischen Schwankungen verringert und gleichzeitig die Vorhersagegenauigkeit erhöht, ohne die Basismodelle selbst neu trainieren zu müssen.

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

← Zurück Weiter →