cs.CV Arbeiten | Gist.Science

gQIR: Generative Quanta Image Reconstruction

Die Arbeit stellt gQIR vor, eine Methode, die große text-zu-Bild-Diffusionsmodelle anpasst, um aus extrem lichtschwachen, verrauschten und binären SPAD-Quanta-Frames hochwertige Farbbilder zu rekonstruieren und dabei sowohl klassische als auch moderne Lernverfahren in Bezug auf die wahrgenommene Bildqualität deutlich übertrifft.

Aryan Garg, Sizhuo Ma, Mohit Gupta2026-02-25💻 cs

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

MedCLIPSeg ist ein neuartiges Framework, das CLIP durch probabilistische visuell-sprachliche Anpassung und Unsicherheitsmodellierung für eine dateneffiziente, robuste und generalisierbare medizinische Bildsegmentierung mit interpretierbaren Ergebnissen nutzt.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

Das Paper stellt SceMoS vor, ein effizientes Framework zur textgesteuerten Synthese von 3D-Mensch-Bewegungen in realistischen Umgebungen, das globale Planung und lokale Ausführung durch die Nutzung von 2D-Bildern (Vogelperspektive und Höhenkarten) statt rechenintensiver 3D-Daten entkoppelt und dabei einen neuen State-of-the-Art in Realismus und Kollisionsvermeidung erreicht.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

Die Arbeit stellt Path-Decoupled Hyperbolic Flow Matching (HFM) vor, eine Methode zur few-shot Anpassung, die durch die Nutzung hyperbolischer Geometrie und zentripetaler Ausrichtung sowie pfadentschlüsselter Ziele die Entanglement-Probleme euklidischer Flow-Matching-Ansätze löst und damit neue State-of-the-Art-Ergebnisse auf 11 Benchmarks erzielt.

Lin Li, Ziqi Jiang, Gefan Ye + 5 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

Die Arbeit stellt Pip-Stereo vor, ein Echtzeit-Stereo-Matching-System für Edge-Geräte, das durch progressive Iterationspruning, einen kollaborativen monokularen Prior-Transfer und den hardwareoptimierten FlashGRU-Operator die Rechenlast iterativer RNN-basierter Modelle drastisch reduziert und dabei hohe Genauigkeit mit extrem niedriger Latenz vereint.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Die Studie stellt ein interpretierbares, ereignisgesteuertes Framework für die autonome laparoskopische Kamerasteuerung vor, das durch Graph-Mining abgeleitete chirurgische Strategien mit einem Vision-Language-Modell und einem sicheren Closed-Loop-Controller kombiniert, um in Experimenten eine signifikant stabilere und präzisere Bildführung als bei Chirurgen in Ausbildung zu erreichen.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

How Do Inpainting Artifacts Propagate to Language?

Diese Studie untersucht, wie durch Diffusions-Inpainting eingeführte visuelle Artefakte die Sprachgenerierung in multimodalen Modellen systematisch beeinflussen, und stellt einen diagnostischen Rahmen bereit, der die Beziehung zwischen Rekonstruktionsqualität und der semantischen sowie lexikalischen Leistung von Bildunterschriften aufzeigt.

Pratham Yashwante, Davit Abrahamyan, Shresth Grover + 1 more2026-02-25🤖 cs.AI

A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

Diese Studie stellt ein leichtgewichtiges Vision-Language-Framework vor, das visuelle UI-Features von MobileNetV3 und semantische Textdaten von DistilBERT mittels eines gated Fusion-Moduls kombiniert, um App-Bewertungen mit hoher Genauigkeit vorherzusagen und eine effiziente Bereitstellung auf Edge-Geräten zu ermöglichen.

Azrin Sultana, Firoz Ahmed2026-02-25💻 cs

Progressive Per-Branch Depth Optimization for DEFOM-Stereo and SAM3 Joint Analysis in UAV Forestry Applications

Diese Arbeit stellt eine fortschrittliche Pipeline vor, die DEFOM-Stereo, SAM3 und eine mehrstufige Tiefenoptimierung kombiniert, um aus UAV-Aufnahmen in neuseeländischen Wäldern robuste, per-Branch-3D-Punktwolken für autonome Baumschnittanwendungen zu erzeugen und dabei die Tiefenabweichung um 82 % zu reduzieren.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-25⚡ eess

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Die Studie stellt ein vision-sprachbasiertes Multi-Agenten-System vor, das Deep-Learning-Modelle mit einem VLM-Agenten kombiniert, um die Genauigkeit der Koloniezählung in der pharmazeutischen Qualitätskontrolle zu verbessern und die manuelle Überprüfung um 85 % zu reduzieren.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

Robust Spiking Neural Networks Against Adversarial Attacks

Diese Studie stellt die Methode der Threshold Guarding Optimization (TGO) vor, die durch die Erhöhung der Gradientensparsität und die Einführung probabilistischer Spiking-Neuronen die Anfälligkeit von direkt trainierten Spiking Neural Networks gegenüber adversarialen Angriffen signifikant reduziert.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

Die Arbeit stellt \method vor, einen effizienten Schätzer für die Modell-Evidenz von Diffusionsmodellen, der während der Posterior-Sampling-Prozesse anfallende Zwischenstufen nutzt, um bei wenigen Stichproben eine genaue Modellauswahl und Diagnose von Prior-Fehlanpassungen in inversen Bildgebungsproblemen zu ermöglichen.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Diese Arbeit beweist den Satz der endlichen primitiven Basis, der zeigt, dass sich jedes Vorwärtsmodell im Bereich der rechnerischen Bildgebung als gerichteter azyklischer Graph aus genau 11 kanonischen Primitiven approximativ darstellen lässt, und legt damit die mathematischen Grundlagen für das Framework des physikalischen Weltmodells (PWM) fest.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

WildGHand ist ein optimierungsbasiertes Framework, das mithilfe einer dynamischen Entwirrungsmodul und einer störungsbewussten Optimierungsstrategie hochpräzise 3D-Hand-Avatare aus monokularen Videos unter realen, gestörten Bedingungen rekonstruiert und dabei den State-of-the-Art übertrifft.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Die Arbeit stellt BFA++ vor, einen hierarchischen Token-Pruning-Ansatz für Multi-View-Vision-Language-Action-Modelle, der durch eine zweistufige, aufgabenbewusste Selektion von Bild- und Kamerainformationen die Inferenzgeschwindigkeit und die Erfolgsrate bei robotischen Manipulationsaufgaben signifikant verbessert.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

Die Arbeit stellt AIForge-Doc vor, das erste Benchmark-Dataset für die Detektion von Diffusionsmodell-basierten Fälschungen in Finanzdokumenten, das zeigt, dass bestehende Forensik-Methoden und KI-Modelle bei der Erkennung solcher Manipulationen versagen.

Jiaqi Wu, Yuchen Zhou, Muduo Xu + 6 more2026-02-25💻 cs

An interactive enhanced driving dataset for autonomous driving

Diese Arbeit stellt den „Interactive Enhanced Driving Dataset" (IEDD) vor, einen neuartigen Datensatz, der durch die Skalierung interaktiver Fahrsegmente und die Generierung synthetischer Vogelperspektiven-Videos mit strikter semantischer Ausrichtung die Entwicklung und Bewertung von Vision-Language-Action-Modellen für das autonome Fahren verbessert.

Haojie Feng, Peizhi Zhang, Mengjie Tian + 8 more2026-02-25💻 cs

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

Die Arbeit stellt MVLAD-AD vor, ein effizientes und erklärbares End-to-End-Fahrzeugsystem, das durch diskrete Aktionstokenisierung, geometrieaware Embeddings und eine priorisierte Dekodierungsstrategie die Latenz und Präzision bestehender Diffusions- und Sprachmodelle für das autonome Fahren übertrifft.

Jiaru Zhang, Manav Gagvani, Can Cui + 3 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Die Arbeit stellt PropFly vor, einen Trainingsansatz für videobasierte Bearbeitungen, der mithilfe von Pre-trained Video Diffusion Models und Guidance-Modulated Flow Matching auf die Notwendigkeit großer, gepaarter Datensätze verzichtet, indem er Trainingspaare direkt während des Trainings aus latenten Darstellungen mit unterschiedlichen CFG-Skalen synthetisiert.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Diese Arbeit stellt eine Methode zur gemeinsamen 3D-Rekonstruktion vor, die durch die direkte Einbeziehung von korrespondierenden Merkmalen über mehrere Sitzungen hinweg und die Nutzung von visuellem Platzwiedererkennung zur effizienten Paarung von Bildern auch bei erheblichen jahrelangen Erscheinungsänderungen, wie sie bei Korallenriffen vorkommen, kohärente Modelle ermöglicht, wo bestehende Ansätze versagen.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

← Zurück Weiter →