cs.CV Arbeiten | Gist.Science

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

Die Arbeit stellt PPCL vor, einen flexiblen strukturierten Beschneidungsrahmen für Diffusion-Transformer, der durch eine Kombination aus linearer Abtastung und einem alternierenden Lehrer-Schüler-Distillationsverfahren die Parameteranzahl um 50 % reduziert, ohne dabei die Bildgenerierungsqualität signifikant zu beeinträchtigen.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Die Arbeit stellt eine dateneffiziente Feinabstimmungsmethode für textbasierte Videogenerierung vor, die zeigt, dass das Training mit spärlichen synthetischen Daten nicht nur neue Kamerakontrollen ermöglicht, sondern sogar zu besseren Ergebnissen führt als das Training mit fotorealistischen Daten.

Shihan Cheng, Nilesh Kulkarni, David Hyde + 1 more2026-02-25🤖 cs.AI

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Die Arbeit stellt ViPO vor, eine Erweiterung des Group Relative Policy Optimization (GRPO)-Verfahrens, die durch die Umwandlung von skalaren Belohnungen in räumlich und zeitlich strukturierte Vorteilskarten eine feinere, pixelgenaue Optimierung von Bild- und Videogenerierungsmodellen ermöglicht und so die Ausrichtung an menschlichen Präferenzen verbessert.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Die Arbeit stellt KeyTailor, ein neuartiges Framework mit einer schlüsselbasierten Detailinjektionsstrategie, sowie den hochauflösenden Datensatz ViT-HD vor, um die Genauigkeit von Kleidungsstücken und die Integrität des Hintergrunds bei Video-Virtual-Try-On-Anwendungen zu verbessern, ohne die Architektur der Diffusion-Transformer zu erweitern.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Der Artikel stellt Fast-ThinkAct vor, ein effizientes Framework für Vision-Language-Action-Aufgaben, das durch verbalisierbares latentes Planen und eine präferenzgesteuerte Optimierung die Inferenzlatenz um bis zu 89,3 % reduziert, ohne dabei die Leistungsfähigkeit bei komplexen Manipulations- und Planungsaufgaben einzubüßen.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Die Arbeit stellt MetamerGen vor, ein latentes Diffusionsmodell, das foveale Fixationsdaten mit peripherem „Gist"-Informationen kombiniert, um Bildmetamere zu erzeugen, die der menschlichen visuellen Szenenwahrnehmung entsprechen und somit als Werkzeug zur Erforschung der menschlichen Szenenverständnis dienen.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Die Autoren stellen ein principal-component-analysis-basiertes, selbstüberwachtes tiefes neuronales Netzwerk (THz-SSDD) vor, das Terahertz-Bilder durch eine Recorrupted-to-Recorrupted-Strategie und PCA-Rekonstruktion gleichzeitig von frequenzabhängigem Rauschen und Unschärfe befreit, ohne auf manuelle Eingriffe oder gelabelte Daten angewiesen zu sein.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Dieses Papier adressiert die Fragmentierung von Geospatial-Foundation-Model-Embeddings durch die Einführung einer dreistufigen Taxonomie und die Erweiterung von TorchGeo um eine standardisierte API, die den Zugang zu diesen Daten als eigenständige Geodatenprodukte vereinheitlicht und so Vergleichbarkeit sowie Reproduzierbarkeit fördert.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Die Studie stellt ACLNet vor, ein affinitätsbasiertes kontrastives Lernnetzwerk, das durch die Bildung von Aktivitäts-Superklassen, eine dynamische Temperaturregelung und eine margin-basierte Strategie die Merkmalsdiskriminierung für die skelettbasierte menschliche Aktivitätserkennung verbessert.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Die Autoren stellen CER-HV vor, ein Framework zur Erkennung und Bereinigung von Fehlerquellen in Handschrifterkennungsdatensätzen arabischer Schriften durch eine Kombination aus CRNN-basierter Rauscherkennung und menschlicher Verifikation, das nachweislich die Datenqualität und die Modellleistung verbessert.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Die vorgestellte Arbeit schlägt eine Pareto-geführte Optimierungsstrategie für die medizinische Bildsegmentierung vor, die durch einen kurrikularen Lernansatz, einen Pareto-konsistenten Verlust und einen Fuzzy-Labeling-Mechanismus die inhärente Unsicherheit an Gewebe-Grenzen adressiert und so eine stabilere Konvergenz sowie präzisere Ergebnisse im Vergleich zu herkömmlichen Methoden erzielt.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

Der Artikel stellt DVLA-RL vor, einen Few-Shot-Learning-Ansatz, der durch eine zweistufige visuell-sprachliche Ausrichtung und ein verstärkendes Lern-Gating die semantische Integration von Low-Level-Attributen und High-Level-Beschreibungen optimiert und damit auf neun Benchmarks neue State-of-the-Art-Ergebnisse erzielt.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Diese Arbeit stellt einen neuartigen rein optischen Rechenrahmen vor, der diffraktive neuronale Netzwerke (DONNs) nutzt, um energieeffiziente semantische Segmentierung und Spurerkennung für autonomes Fahren zu ermöglichen und dabei die Rechenkosten sowie den Analog-Digital-Wandlungs-Overhead konventioneller Deep-Learning-Ansätze zu reduzieren.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Die Arbeit stellt GOT-Edit vor, eine Online-Methode zur Bearbeitung von Modellen, die geometrische Hinweise aus einem vortrainierten Visual Geometry Grounded Transformer nutzt, um die Robustheit und Genauigkeit von generischen Objektverfolgern in 2D-Videos, insbesondere bei Verdeckungen und Ablenkungen, durch die Integration von 3D-Geometrie in semantische Merkmale zu verbessern.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

Der Bericht stellt UI-Venus-1.5 vor, eine einheitliche GUI-Agent-Familie mit drei Modellvarianten, die durch Mid-Training, Online-Reinforcement-Learning und Model-Merging neue State-of-the-Art-Ergebnisse auf Benchmarks wie ScreenSpot-Pro und AndroidWorld erzielt und dabei robuste Navigation in realen Szenarien, einschließlich chinesischer Mobile-Apps, ermöglicht.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Diese Studie zeigt, dass feinabgestimmte geospatiale Grundmodelle wie Prithvi-EO-2.0 und TerraMind bei ökologischen Anwendungen wie der Erfassung von Waldeigenschaften, Landnutzungskartierung und Torfmoosdetektion konsequent besser abschneiden als ein herkömmlicher ResNet-101-Baseline-Ansatz, wobei ihre Leistung jedoch von der genauen Ausrichtung der Trainingsdaten und der Eingabeauflösung abhängt.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

Die Arbeit stellt DriveMamba vor, ein effizientes, aufgabenorientiertes End-to-End-System für autonomes Fahren, das mithilfe eines einheitlichen Mamba-Decoders mit linearer Komplexität dynamische Aufgabenbeziehungen modelliert und dabei die Skalierbarkeit und Genauigkeit bestehender Transformer-basierter Ansätze verbessert.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Das Paper stellt Sim2Radar vor, ein Framework, das mithilfe von Vision-Language-Modellen und physikbasierten Raytracing-Methoden aus einzelnen RGB-Bildern realistische mmWave-Radardaten synthetisiert, um das Sim2Real-Problem zu überwinden und die Leistung von 3D-Radar-Objektdetektoren durch Transfer-Learning signifikant zu verbessern.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Das Paper stellt HERO vor, ein neues Paradigma für die humanoide Loko-Manipulation, das durch die Kombination von Open-Vocabulary-Vision-Modellen für die visuelle Generalisierung und einer präzisen, residualbewussten Endeffektor-Steuerung mit simuliertem Training eine zuverlässige Interaktion mit alltäglichen Objekten in verschiedenen realen Umgebungen ermöglicht.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs

← Zurück Weiter →