cs.CV Arbeiten | Gist.Science

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Die Arbeit stellt SGDFuse vor, ein bedingtes Diffusionsmodell, das mithilfe von semantischen Masken des Segment-Anything-Modells (SAM) als explizite Priors eine hochqualitative und semantisch bewusste Fusion von Infrarot- und sichtbaren Bildern ermöglicht, um Artefakte zu reduzieren und die Leistung in nachgelagerten visuellen Aufgaben zu verbessern.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

Die Arbeit stellt ein neues Framework namens „multivariate Fields of Experts" vor, das durch die Verwendung von Multivariaten-Potenzialfunktionen auf Basis von Moreau-Umhüllungen der $\ell_\infty$ -Norm bei inversen Bildproblemen wie Entrauschen und Rekonstruktion eine höhere Effizienz und Interpretierbarkeit als univariate Modelle bietet und dabei die Leistung tiefer neuronaler Netze bei deutlich geringerem Ressourcenbedarf erreicht.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Der DianJin-OCR-R1-Ansatz verbessert die OCR-Leistung durch ein vision-sprachliches Modell, das einen reasoning- und tool-interleaved Paradigmen nutzt, um eigene Erkennungsergebnisse mit Expert-Modellen zu vergleichen, Fehler zu korrigieren und so präzisere Ausgaben zu generieren.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Der vorgestellte SSL-SLR-Ansatz verbessert die Gebärdenzeichenerkennung durch ein neuartiges selbstüberwachtes Lernframework mit freien Negativpaaren und einer speziellen Daten-Augmentierungstechnik, das die Herausforderungen der ungleichen Relevanz von Videobereichen und der Ähnlichkeit zwischen verschiedenen Gebärden adressiert.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Die Arbeit stellt RED vor, ein robustes, ereignisgesteuertes Netzwerk zur Bewegungsunschärfereduktion, das durch eine modalspezifische Entwirrung und selektive Fusion sowie eine robuste Störstrategie die Leistung bei unvollständigen Ereignisdaten verbessert.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Dieses Paper stellt Kernel VICReg vor, ein neuartiges selbstüberwachtes Lernframework, das das VICReg-Ziel in einen reproduzierenden Kernel-Hilbert-Raum überführt, um durch die Kernelisierung von Varianz-, Invarianz- und Kovarianztermen nichtlineare Abhängigkeiten besser zu erfassen und so die Leistung bei Datensätzen mit nichtlinearer Struktur oder begrenzten Stichproben im Vergleich zu euklidischen Methoden zu verbessern.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Die Arbeit stellt C²Prompt vor, eine neue Methode für das federierte kontinuierliche Lernen, die durch lokale Klassenverteilungs-Kompensation und eine klassenbewusste Prompt-Aggregation die Klassenwissen-Kohärenz zwischen Clients verbessert, um sowohl zeitliches als auch räumliches Vergessen zu reduzieren und damit den aktuellen Stand der Technik zu übertreffen.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Diese Arbeit stellt einen visuellen Ansatz für die semantische Objekterkundung mit Laufrobotern vor, der durch vertrauenskalibrierte Wahrnehmung, ein wachsendes topologisches Gedächtnis und eine nutzungsorientierte Subziel-Auswahl robuste Entscheidungen in offenen Umgebungen ermöglicht, ohne auf dichte geometrische Rekonstruktionen angewiesen zu sein.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Der Artikel stellt DeCLIP vor, ein replay-freies und parameter-effizientes Framework, das durch entkoppeltes, klassenspezifisches Prompting und adaptive Ähnlichkeitstemperierung das Katastrophenvergessen und die hohe False-Positive-Rate bei CLIP-basiertem Multi-Label-Klassen-incrementellen Lernen effektiv adressiert.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

Die Arbeit stellt BOUND vor, einen Open-World-Objektdetektor, der über die bloße Erkennung unbekannter Objekte hinausgeht, indem er diese in grobgranulare, hierarchische Kategorien einordnet, um semantisch fundiertere Entscheidungen in Anwendungen wie dem autonomen Fahren zu ermöglichen.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Die Arbeit stellt LikePhys vor, eine trainingsfreie Methode zur Bewertung des intuitiven Physikverständnisses in Video-Diffusionsmodellen durch Likelihood-Vergleiche, die zeigt, dass diese Modelle trotz aktueller Schwierigkeiten mit komplexen Dynamiken mit zunehmender Kapazität und optimierten Inferenzeinstellungen ein verbessertes Verständnis physikalischer Gesetze aufweisen.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Das Paper stellt CanvasMAR vor, ein neuartiges autoregressives Videovorhersagemodell, das durch die Einführung eines globalen „Canvas"-Vorschlags und einer bewegungsbewussten Lernkurve hochqualitative Videos mit weniger Sampling-Schritten erzeugt und dabei diffusionbasierte Methoden auf Benchmarks wie Kinetics-600 konkurrenzfähig ist.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Das Papier stellt 3DThinker vor, ein Framework, das es Vision-Language-Modellen ermöglicht, durch zweistufiges Training ohne explizite 3D-Vorwissen oder -Daten räumliches 3D-Imaginieren zu erlernen und so die räumliche Schlussfolgerung aus begrenzten Ansichten zu verbessern.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

Die Arbeit stellt AURASeg vor, ein auf ResNet basierendes Segmentierungsframework für fahrbare Bereiche, das durch einen aufmerksamen Upsampling-Decoder und eine residualgestützte Randverfeinerung präzise Grenzen und eine effiziente Onboard-Verarbeitung auf Edge-Geräten ermöglicht.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

Die Studie stellt CULTIVate vor, einen Benchmark zur Bewertung von Text-zu-Bild-Modellen anhand kulturell spezifischer sozialer Aktivitäten, der systematische Verzerrungen zugunsten des globalen Nordens aufdeckt und neue Metriken für eine kulturtreue Bildgenerierung bietet.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Der vorgestellte Ansatz verbessert die Fairness von Deepfake-Erkennungsmodellen für verschiedene demografische Gruppen, ohne die Gesamterkennungsgenauigkeit zu beeinträchtigen, indem er strukturelles Entkoppeln und globale Verteilungsausrichtung kombiniert.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

LaxMotion ist ein neuartiges Framework für die Erzeugung von 3D-Menschbewegungen, das durch den Verzicht auf präzise 3D-Pose-Überwachung zugunsten einer strukturierten Faktorisierung und globaler Konsistenz mit monokularen 2D-Kinematikdaten eine bessere Generalisierung und semantische Ausrichtung erreicht.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Diese Arbeit stellt mit dem Cultural Reference Transformation (CRT)-Metrik einen Evaluierungsrahmen vor, der die Unterscheidung zwischen der Erkennung kultureller Referenzen und ihrer visuellen Realisierung in Diffusionsmodellen ermöglicht, um so die Komplexität von Multimodalität und kulturellem Gedächtnis jenseits einfacher Reproduktion zu erfassen.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

Die Arbeit stellt Co-Layout vor, ein neuartiges Framework, das Large Language Models mit gitterbasiertem ganzzahligem Programmieren kombiniert, um die Innenraumgestaltung und Möbelplatzierung durch eine effiziente grob-zu-fein-Optimierungsstrategie gemeinsam zu verbessern.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

← Zurück Weiter →