cs.CV Arbeiten | Gist.Science

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Die Autoren stellen SpecAware vor, ein spektral-inhaltsbewusstes Fundamentmodell, das mithilfe eines Hypernetworks und des neu erstellten Hyper-400K-Datensatzes eine einheitliche Multi-Sensor-Lernumgebung für hyperspektrale Fernerkundung ermöglicht, indem es Sensormetadaten und Bildinhalte dynamisch integriert, um die Generalisierungsfähigkeit über verschiedene Sensoren hinweg zu verbessern.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Die Arbeit stellt VCFlow vor, ein neuartiges, kognitiv inspiriertes Architekturkonzept, das durch die explizite Modellierung der ventralen und dorsalen visuellen Ströme sowie kontrastives Lernen eine effiziente, subjektunabhängige Rekonstruktion visueller Erfahrungen aus fMRI-Daten ermöglicht und dabei eine hohe Skalierbarkeit für klinische Anwendungen bietet.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Die vorgestellte Arbeit stellt die erste pose-agnostische, label-freie und multi-view-konsistente Online-Methodik zur Szenenänderungserkennung vor, die durch einen neuartigen selbstüberwachten Fusionsverlust, schnelle PnP-Pose-Schätzung und eine effiziente 3D-Gaussian-Splatting-Aktualisierung nicht nur Echtzeitfähigkeit über 10 FPS erreicht, sondern auch den besten Offline-Ansätzen überlegen ist.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

CuriGS ist ein Curriculum-gesteuertes Framework, das durch die schrittweise Einführung und Bewertung von Pseudo-Ansichten (Student Views) mit zunehmender Perturbation die Herausforderungen der 3D-Gaussian-Splatting-Rekonstruktion aus wenigen Ansichten überwindet und dabei sowohl die Rendering-Qualität als auch die geometrische Konsistenz verbessert.

Zijian Wu, Mingfeng Jiang, Zidian Lin + 5 more2026-02-25💻 cs

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

Die Arbeit stellt PPCL vor, einen flexiblen strukturierten Beschneidungsrahmen für Diffusion-Transformer, der durch eine Kombination aus linearer Abtastung und einem alternierenden Lehrer-Schüler-Distillationsverfahren die Parameteranzahl um 50 % reduziert, ohne dabei die Bildgenerierungsqualität signifikant zu beeinträchtigen.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Die Arbeit stellt eine dateneffiziente Feinabstimmungsmethode für textbasierte Videogenerierung vor, die zeigt, dass das Training mit spärlichen synthetischen Daten nicht nur neue Kamerakontrollen ermöglicht, sondern sogar zu besseren Ergebnissen führt als das Training mit fotorealistischen Daten.

Shihan Cheng, Nilesh Kulkarni, David Hyde + 1 more2026-02-25🤖 cs.AI

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Die Arbeit stellt ViPO vor, eine Erweiterung des Group Relative Policy Optimization (GRPO)-Verfahrens, die durch die Umwandlung von skalaren Belohnungen in räumlich und zeitlich strukturierte Vorteilskarten eine feinere, pixelgenaue Optimierung von Bild- und Videogenerierungsmodellen ermöglicht und so die Ausrichtung an menschlichen Präferenzen verbessert.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Die Arbeit stellt KeyTailor, ein neuartiges Framework mit einer schlüsselbasierten Detailinjektionsstrategie, sowie den hochauflösenden Datensatz ViT-HD vor, um die Genauigkeit von Kleidungsstücken und die Integrität des Hintergrunds bei Video-Virtual-Try-On-Anwendungen zu verbessern, ohne die Architektur der Diffusion-Transformer zu erweitern.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Der Artikel stellt Fast-ThinkAct vor, ein effizientes Framework für Vision-Language-Action-Aufgaben, das durch verbalisierbares latentes Planen und eine präferenzgesteuerte Optimierung die Inferenzlatenz um bis zu 89,3 % reduziert, ohne dabei die Leistungsfähigkeit bei komplexen Manipulations- und Planungsaufgaben einzubüßen.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Die Arbeit stellt MetamerGen vor, ein latentes Diffusionsmodell, das foveale Fixationsdaten mit peripherem „Gist"-Informationen kombiniert, um Bildmetamere zu erzeugen, die der menschlichen visuellen Szenenwahrnehmung entsprechen und somit als Werkzeug zur Erforschung der menschlichen Szenenverständnis dienen.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Die Autoren stellen ein principal-component-analysis-basiertes, selbstüberwachtes tiefes neuronales Netzwerk (THz-SSDD) vor, das Terahertz-Bilder durch eine Recorrupted-to-Recorrupted-Strategie und PCA-Rekonstruktion gleichzeitig von frequenzabhängigem Rauschen und Unschärfe befreit, ohne auf manuelle Eingriffe oder gelabelte Daten angewiesen zu sein.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Dieses Papier adressiert die Fragmentierung von Geospatial-Foundation-Model-Embeddings durch die Einführung einer dreistufigen Taxonomie und die Erweiterung von TorchGeo um eine standardisierte API, die den Zugang zu diesen Daten als eigenständige Geodatenprodukte vereinheitlicht und so Vergleichbarkeit sowie Reproduzierbarkeit fördert.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Die Studie stellt ACLNet vor, ein affinitätsbasiertes kontrastives Lernnetzwerk, das durch die Bildung von Aktivitäts-Superklassen, eine dynamische Temperaturregelung und eine margin-basierte Strategie die Merkmalsdiskriminierung für die skelettbasierte menschliche Aktivitätserkennung verbessert.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Die Autoren stellen CER-HV vor, ein Framework zur Erkennung und Bereinigung von Fehlerquellen in Handschrifterkennungsdatensätzen arabischer Schriften durch eine Kombination aus CRNN-basierter Rauscherkennung und menschlicher Verifikation, das nachweislich die Datenqualität und die Modellleistung verbessert.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Die vorgestellte Arbeit schlägt eine Pareto-geführte Optimierungsstrategie für die medizinische Bildsegmentierung vor, die durch einen kurrikularen Lernansatz, einen Pareto-konsistenten Verlust und einen Fuzzy-Labeling-Mechanismus die inhärente Unsicherheit an Gewebe-Grenzen adressiert und so eine stabilere Konvergenz sowie präzisere Ergebnisse im Vergleich zu herkömmlichen Methoden erzielt.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

Der Artikel stellt DVLA-RL vor, einen Few-Shot-Learning-Ansatz, der durch eine zweistufige visuell-sprachliche Ausrichtung und ein verstärkendes Lern-Gating die semantische Integration von Low-Level-Attributen und High-Level-Beschreibungen optimiert und damit auf neun Benchmarks neue State-of-the-Art-Ergebnisse erzielt.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Diese Arbeit stellt einen neuartigen rein optischen Rechenrahmen vor, der diffraktive neuronale Netzwerke (DONNs) nutzt, um energieeffiziente semantische Segmentierung und Spurerkennung für autonomes Fahren zu ermöglichen und dabei die Rechenkosten sowie den Analog-Digital-Wandlungs-Overhead konventioneller Deep-Learning-Ansätze zu reduzieren.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Die Arbeit stellt GOT-Edit vor, eine Online-Methode zur Bearbeitung von Modellen, die geometrische Hinweise aus einem vortrainierten Visual Geometry Grounded Transformer nutzt, um die Robustheit und Genauigkeit von generischen Objektverfolgern in 2D-Videos, insbesondere bei Verdeckungen und Ablenkungen, durch die Integration von 3D-Geometrie in semantische Merkmale zu verbessern.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

Der Bericht stellt UI-Venus-1.5 vor, eine einheitliche GUI-Agent-Familie mit drei Modellvarianten, die durch Mid-Training, Online-Reinforcement-Learning und Model-Merging neue State-of-the-Art-Ergebnisse auf Benchmarks wie ScreenSpot-Pro und AndroidWorld erzielt und dabei robuste Navigation in realen Szenarien, einschließlich chinesischer Mobile-Apps, ermöglicht.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

← Zurück Weiter →