cs.CV Arbeiten | Gist.Science

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Die Arbeit stellt RobustVLA vor, ein Framework, das Vision-Language-Action-Modelle durch eine Kombination aus adversärem Training für die Ausgabe und konsistenter Aktionsgenerierung für die Eingabe sowie einem Multi-Armed-Bandit-Ansatz zur automatischen Identifizierung kritischer Störungen gegen eine Vielzahl multimodaler Perturbationen robust macht und dabei auf Benchmarks sowie realen Robotern signifikante Verbesserungen gegenüber bestehenden Modellen erzielt.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

Die Arbeit stellt DeLTa vor, ein neuartiges Framework, das Tiefenschätzung, 6D-Pose-Schätzung und sprachgesteuerte Planung kombiniert, um transparente Objekte auf Basis einer einzigen Demonstration präzise und generalisierbar über lange Aufgabenfolgen hinweg zu manipulieren.

Taeyeop Lee, Gyuree Kang, Bowen Wen + 5 more2026-02-25💻 cs

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Die Arbeit stellt Spatial-DISE vor, ein einheitliches Benchmark und einen skalierbaren Datensatz, die auf einer kognitiven Taxonomie basieren, um die Lücke zwischen dem räumlichen Reasoning aktueller Vision-Language-Modelle und menschlicher Kompetenz, insbesondere bei intrinsisch-dynamischen Aufgaben, umfassend zu evaluieren.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Das Papier stellt UniGenBench++ vor, ein umfassendes, mehrsprachiges und fein abgestuftes Benchmark-System zur semantischen Evaluierung von Text-zu-Bild-Modellen, das bestehende Lücken in der Prompt-Vielfalt und der detaillierten Kriterienbewertung schließt.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

Das Paper stellt egoEMOTION vor, den ersten Datensatz, der egozentrische visuelle und physiologische Signale mit detaillierten Selbstauskünften über Emotionen und Persönlichkeit verbindet, um neue Benchmarks für die affektbasierte Verhaltensmodellierung in realen Szenarien zu ermöglichen.

Matthias Jammot, Björn Braun, Paul Streli + 2 more2026-02-25💻 cs

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Diese Arbeit stellt einen neuartigen Rahmen vor, der durch die Integration von 3D-Akustikdaten aus einem Phasen-Mikrofonarray mit dynamischen RGB-D-Punktwolken eine räumlich-zeitliche multimodale Darstellung chirurgischer Szenen ermöglicht, um chirurgische Handlungen präzise zu lokalisieren und das Verständnis für intelligente Operationssysteme zu vertiefen.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

Die Autoren stellen SpecAware vor, ein spektral-inhaltsbewusstes Fundamentmodell, das mithilfe eines Hypernetworks und des neu erstellten Hyper-400K-Datensatzes eine einheitliche Multi-Sensor-Lernumgebung für hyperspektrale Fernerkundung ermöglicht, indem es Sensormetadaten und Bildinhalte dynamisch integriert, um die Generalisierungsfähigkeit über verschiedene Sensoren hinweg zu verbessern.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Die Arbeit stellt VCFlow vor, ein neuartiges, kognitiv inspiriertes Architekturkonzept, das durch die explizite Modellierung der ventralen und dorsalen visuellen Ströme sowie kontrastives Lernen eine effiziente, subjektunabhängige Rekonstruktion visueller Erfahrungen aus fMRI-Daten ermöglicht und dabei eine hohe Skalierbarkeit für klinische Anwendungen bietet.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Die vorgestellte Arbeit stellt die erste pose-agnostische, label-freie und multi-view-konsistente Online-Methodik zur Szenenänderungserkennung vor, die durch einen neuartigen selbstüberwachten Fusionsverlust, schnelle PnP-Pose-Schätzung und eine effiziente 3D-Gaussian-Splatting-Aktualisierung nicht nur Echtzeitfähigkeit über 10 FPS erreicht, sondern auch den besten Offline-Ansätzen überlegen ist.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

CuriGS ist ein Curriculum-gesteuertes Framework, das durch die schrittweise Einführung und Bewertung von Pseudo-Ansichten (Student Views) mit zunehmender Perturbation die Herausforderungen der 3D-Gaussian-Splatting-Rekonstruktion aus wenigen Ansichten überwindet und dabei sowohl die Rendering-Qualität als auch die geometrische Konsistenz verbessert.

Zijian Wu, Mingfeng Jiang, Zidian Lin + 5 more2026-02-25💻 cs

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

Die Arbeit stellt PPCL vor, einen flexiblen strukturierten Beschneidungsrahmen für Diffusion-Transformer, der durch eine Kombination aus linearer Abtastung und einem alternierenden Lehrer-Schüler-Distillationsverfahren die Parameteranzahl um 50 % reduziert, ohne dabei die Bildgenerierungsqualität signifikant zu beeinträchtigen.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Die Arbeit stellt eine dateneffiziente Feinabstimmungsmethode für textbasierte Videogenerierung vor, die zeigt, dass das Training mit spärlichen synthetischen Daten nicht nur neue Kamerakontrollen ermöglicht, sondern sogar zu besseren Ergebnissen führt als das Training mit fotorealistischen Daten.

Shihan Cheng, Nilesh Kulkarni, David Hyde + 1 more2026-02-25🤖 cs.AI

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Die Arbeit stellt ViPO vor, eine Erweiterung des Group Relative Policy Optimization (GRPO)-Verfahrens, die durch die Umwandlung von skalaren Belohnungen in räumlich und zeitlich strukturierte Vorteilskarten eine feinere, pixelgenaue Optimierung von Bild- und Videogenerierungsmodellen ermöglicht und so die Ausrichtung an menschlichen Präferenzen verbessert.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Die Arbeit stellt KeyTailor, ein neuartiges Framework mit einer schlüsselbasierten Detailinjektionsstrategie, sowie den hochauflösenden Datensatz ViT-HD vor, um die Genauigkeit von Kleidungsstücken und die Integrität des Hintergrunds bei Video-Virtual-Try-On-Anwendungen zu verbessern, ohne die Architektur der Diffusion-Transformer zu erweitern.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Der Artikel stellt Fast-ThinkAct vor, ein effizientes Framework für Vision-Language-Action-Aufgaben, das durch verbalisierbares latentes Planen und eine präferenzgesteuerte Optimierung die Inferenzlatenz um bis zu 89,3 % reduziert, ohne dabei die Leistungsfähigkeit bei komplexen Manipulations- und Planungsaufgaben einzubüßen.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Die Arbeit stellt MetamerGen vor, ein latentes Diffusionsmodell, das foveale Fixationsdaten mit peripherem „Gist"-Informationen kombiniert, um Bildmetamere zu erzeugen, die der menschlichen visuellen Szenenwahrnehmung entsprechen und somit als Werkzeug zur Erforschung der menschlichen Szenenverständnis dienen.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Die Autoren stellen ein principal-component-analysis-basiertes, selbstüberwachtes tiefes neuronales Netzwerk (THz-SSDD) vor, das Terahertz-Bilder durch eine Recorrupted-to-Recorrupted-Strategie und PCA-Rekonstruktion gleichzeitig von frequenzabhängigem Rauschen und Unschärfe befreit, ohne auf manuelle Eingriffe oder gelabelte Daten angewiesen zu sein.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Dieses Papier adressiert die Fragmentierung von Geospatial-Foundation-Model-Embeddings durch die Einführung einer dreistufigen Taxonomie und die Erweiterung von TorchGeo um eine standardisierte API, die den Zugang zu diesen Daten als eigenständige Geodatenprodukte vereinheitlicht und so Vergleichbarkeit sowie Reproduzierbarkeit fördert.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Die Studie stellt ACLNet vor, ein affinitätsbasiertes kontrastives Lernnetzwerk, das durch die Bildung von Aktivitäts-Superklassen, eine dynamische Temperaturregelung und eine margin-basierte Strategie die Merkmalsdiskriminierung für die skelettbasierte menschliche Aktivitätserkennung verbessert.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

← Zurück Weiter →