cs.CV Arbeiten | Gist.Science

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

Diese Arbeit stellt den Graded Fast Hard Thresholding Pursuit (GFHTP $_1$ )-Algorithmus vor, der ein sparsity-constrained Least Absolute Deviations-Problem löst, um dichte Signale auch bei Vorhandensein von Ausreißern und ohne Kenntnis des Sparsitätsniveaus effizient und mit theoretischen Konvergenzgarantien wiederherzustellen.

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem ist ein speicherzentriertes System, das aus alltäglichen egozentrischen RGB-Videos eine metrisch ausgerichtete 3D-Struktur erstellt, um durch hierarchische Objektknoten effiziente, räumlich verankerte Abfragen und Navigation in langen Videoszenen ohne spezielle Sensoren zu ermöglichen.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

Das Paper stellt OnlineSI vor, ein Framework, das Multimodale Large Language Models durch eine begrenzte räumliche Erinnerung und die Integration von 3D-Punktwolken befähigt, ihre Umgebung kontinuierlich aus einem Videostream zu verstehen und zu verorten, was den Weg für den Einsatz in realen embodied systems ebnet.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Die Arbeit stellt SRA 2 vor, ein leichtgewichtiges intrinsisches Framework, das durch die Ausrichtung der latenten Merkmale von Diffusionstransformern auf vortrainierte VAE-Features die Trainingskonvergenz und Generierungsqualität effizient verbessert, ohne dabei externe Encoder oder zusätzliche Modelle zu benötigen.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

FARTrack ist ein schnelles, autoregressives Visual-Tracking-Framework, das durch Task-Spezifische Selbst-Distillation und Inter-frame-Autoregressive Sparsifizierung sowohl hohe Echtzeit-Geschwindigkeit als auch exzellente Tracking-Leistung auf ressourcenbeschränkten Geräten ermöglicht.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Die Arbeit stellt SpatialReward vor, ein Belohnungsmodell, das durch explizite räumliche Schlussfolgerungen und pixelgenaue Verifikation die Lücke in der Wahrnehmung bestehender Online-RL-Systeme für Bildbearbeitung schließt und so die Leistung führender Modelle wie OmniGen2 signifikant verbessert.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Die Arbeit stellt (MGS) $^2$ -Net vor, ein geometriebasiertes Framework, das durch die Kombination von Mikro-geometrischer Skalenanpassung und Makro-geometrischer Strukturfiltierung die Robustheit der cross-view Geo-Lokalisierung unter GNSS-verweigernden Bedingungen signifikant verbessert und damit neue State-of-the-Art-Ergebnisse auf gängigen Datensätzen erzielt.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Die Studie stellt MiDAS vor, ein quelloffenes, plattformunabhängiges System zur nicht-invasiven, zeitlich synchronisierten Erfassung multimodaler Daten für roboterassistierte minimalinvasive Chirurgie, das proprietäre Schnittstellen umgeht und durch die Bereitstellung annotierter Datensätze, einschließlich der ersten multimodalen Aufnahmen von Herniennaht-Übungen, die Reproduzierbarkeit der Forschung fördert.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

Die Arbeit stellt DAV-GSWT vor, ein dateneffizientes Framework, das Diffusionsmodelle und aktive View-Sampling nutzt, um hochwertige Gaussian-Splatting-Wang-Fliesen aus minimalen Eingabedaten zu synthetisieren und so den Bedarf an dichten Abtastungen für großflächige virtuelle Umgebungen zu reduzieren.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

Die Arbeit stellt RobSelf vor, ein selbstüberwachtes Modell, das durch die gemeinsame Optimierung eines fehlalignmentbewussten Feature-Übersetzers und eines inhaltsbewussten Referenzfilters eine robuste cross-modale Super-Resolution für realweltliche, nicht perfekt ausgerichtete Bilddaten ermöglicht und dabei sowohl die Leistung als auch die Effizienz bestehender Methoden übertrifft.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Die Arbeit stellt UrbanAlign vor, ein post-hoc-Kalibrierungsverfahren, das eingefrorene Vision-Language-Modelle durch einen dreistufigen Prozess aus Konzeptextraktion und lokaler Regression ohne Gewichtsänderungen an menschliche Präferenzen für urbane Szenen anpasst und dabei die Genauigkeit signifikant verbessert.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Die Studie zeigt, dass durch die training-freie Fusion der geometrischen Strukturen von DINO und der interaktionsbasierten Aufmerksamkeitskarten von Flux in Vision-Foundation-Modellen eine zero-shot-Affordanz-Schätzung erreicht wird, die mit schwach überwachten Methoden konkurrieren kann und damit belegt, dass geometrische und Interaktionswahrnehmung fundamentale Bausteine des Affordanzverständnisses sind.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

Das Paper stellt StoryTailor vor, eine Zero-Shot-Pipeline, die auf einer einzelnen RTX 4090 läuft und durch drei synergistische Module (GCA, AB-SVR und SFC) kohärente, identitätserhaltende Bildsequenzen aus langen narrativen Prompts erzeugt, ohne dabei Feinabstimmung zu benötigen.

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

Das Paper stellt UniVBench vor, einen umfassenden Benchmark und ein einheitliches Evaluierungssystem (UniV-Eval), das entwickelt wurde, um die integrierten Fähigkeiten von Video-Foundation-Modellen in den Bereichen Verständnis, Generierung, Bearbeitung und Rekonstruktion anhand komplexer, menschlich erstellter Videodaten einheitlich zu bewerten.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

Die Autoren stellen eine geometrieaware Methode vor, die Graph Neural Networks nutzt, um aus latenten Variablen pro Bild atomare Rückgratkonformationen für die heterogene Cryo-EM-Rekonstruktion vorherzusagen und dabei durch geometrische Regularisierung und einen differenzierbaren Vorwärtsmodell-Ansatz höhere Genauigkeit als herkömmliche MLPs erreicht.

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Der Artikel stellt DPCache vor, ein trainingsfreies Beschleunigungsframework für Diffusionsmodelle, das das Sampling als globales Pfadplanungsproblem formuliert und durch dynamische Programmierung eine optimale Auswahl von Schlüsselschritten trifft, um die Rechenzeit erheblich zu verkürzen, ohne dabei die Bildqualität zu beeinträchtigen.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Die Arbeit stellt Synthetic Visual Genome 2 (SVG2), einen umfassenden, automatisiert generierten Datensatz für räumlich-zeitliche Szenengraphen in Videos, sowie das darauf aufbauende Modell TRaSER vor, das durch neuartige Resampling-Mechanismen die Erkennung von Objekten, Attributen und Relationen signifikant verbessert und als intermediäre Repräsentation die Leistung von Video-Frage-Antwort-Systemen steigert.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Die vorgestellte Arbeit schlägt ein adaptives, dynamisches Entnebelungs-Framework vor, das durch einen geschlossenen Regelkreis aus Aufgaben-Feedback und Textanweisungen eine retraining-freie Anpassung an diverse nachgelagerte Vision-Aufgaben ermöglicht.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Die Arbeit stellt PanScale, den ersten groß angelegten Datensatz und Benchmark für panscharfe Bildfusion über verschiedene Skalen hinweg, sowie ScaleFormer vor, ein neuartiges Transformer-basiertes Modell, das durch Tokenisierung und rotatorische Positionscodierung eine robuste Generalisierung auf nicht gesehene Auflösungen ermöglicht und damit den aktuellen Stand der Technik übertrifft.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

Die Arbeit stellt Mobile-VTON vor, ein privatsphäreschonendes Framework für hochwertige virtuelle Anproben auf handelsüblichen Mobilgeräten, das durch eine effiziente TGT-Architektur und spezielle Lernstrategien eine Offline-Durchführung ohne Cloud-Abhängigkeit ermöglicht und dabei mit serverbasierten Baselines mithalten kann.

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs

← Zurück Weiter →

cs.CV