cs.CV Arbeiten | Gist.Science

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

Das Paper Splat2Real adressiert die Herausforderung der viewpoint shift bei Physical AI, indem es ein Curriculum-Lernverfahren namens CN-Coverage einführt, das durch die intelligente Auswahl neuartiger Ansichten mittels 3D-Gaussian-Splatting die Robustheit monokularer Tiefenschätzung verbessert.

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

Die Arbeit stellt SLiM vor, ein neuartiges, dekodiererfreies Framework für das Lernen von Skelettdarstellungen, das Masked Modeling und Contrastive Learning vereint, um durch semantische Rohrmaskierung und skelettspezifische Augmentierungen sowohl state-of-the-art Genauigkeit als auch eine um den Faktor 7,89 reduzierte Inferenzkosten im Vergleich zu herkömmlichen MAE-Methoden zu erreichen.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

Die Arbeit stellt ROVA, ein Trainingsframework, und PVRBench, einen neuen Benchmark, vor, um die Robustheit von Video-Reasoning-Modellen gegenüber realen Störungen wie Wetter und Verdeckungen zu verbessern und dabei signifikante Genauigkeits- sowie Schlussfolgerungsgewinne zu erzielen.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

Diese Studie analysiert systematisch die Auswirkungen verschiedener Designentscheidungen auf die Leistung von Erdbeobachtungs-Embeddings in GeoFM-basierten Workflows und zeigt, dass Transformer-Architekturen mit Mean Pooling sowie die Kombination mehrerer Selbstüberwachungs-Ziele robuste und extrem kompakte Repräsentationen für skalierbare Anwendungen liefern.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Diese Arbeit stellt eine effiziente, pipelinierte FPGA-Architektur für die Verschiebungsvektorsuche im Intra-Pattern-Copy-Modul von JPEG XS vor, die durch optimierte Speicherorganisation eine hohe Durchsatzrate von 38,3 Megapixeln pro Sekunde bei geringem Energieverbrauch erreicht und somit die praktische Hardware-Implementierung ermöglicht.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Das Paper stellt A $^2$ -Edit vor, ein einheitliches Inpainting-Framework, das mithilfe des neuartigen UniEdit-500K-Datensatzes, eines Mixture-of-Transformer-Moduls und einer Mask-Annealing-Trainingsstrategie präzises, referenzgesteuertes Bearbeiten beliebiger Objekte mit nur groben Masken ermöglicht und dabei den aktuellen Stand der Technik übertrifft.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

Die Arbeit stellt MapGCLR vor, eine Methode zur halbüberwachten, vektorisierten Online-HD-Kartenkonstruktion für autonome Fahrzeuge, die durch geospatiale kontrastives Lernen und die Nutzung von Mehrfachüberquerungen die Leistung gegenüber rein überwachten Baselines verbessert.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

Die Arbeit stellt BorderNet vor, ein auf mathematischen Modellen der visuellen Kortexverarbeitung basierendes CNN, das durch speziell entworfene Filter die Robustheit gegenüber Bildokklusionen verbessert.

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

Die Arbeit stellt RandMark vor, eine Methode zur Verifizierung des Eigentums an visuellen Fundamentmodellen, die durch zufälliges Einbetten digitaler Wasserzeichen in interne Repräsentationen eine zuverlässige Erkennung von Funktionskopien bei gleichzeitig geringer Fehlerrate ermöglicht.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Das Paper stellt UniCom vor, ein einheitliches Multimodal-Modell, das durch komprimierte kontinuierliche semantische Repräsentationen und eine Transfusionsarchitektur die Lücke zwischen visuellem Verständnis und Generierung schließt und dabei state-of-the-art Ergebnisse in Bildgenerierung und -bearbeitung erzielt.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Das Paper stellt WalkGPT vor, ein pixelbasiertes Vision-Language-Modell mit Tiefenwahrnehmung und Segmentierungsfähigkeiten, das zusammen mit dem neuen Benchmark PAVE zuverlässige, zugängliche Navigationshinweise für Fußgänger in komplexen städtischen Umgebungen generiert.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Die Arbeit stellt CTCNet vor, ein neuartiges, cross-spektrales Netzwerk mit Wissens-Einbettung und spektraler Kompensation für eine robuste UAV-Verkehrsszenenanalyse unter schwierigen Lichtverhältnissen, und stellt gleichzeitig Traffic-VQA, den ersten großskaligen optisch-thermischen Benchmark für kognitive Verkehrsverständnis-Aufgaben, vor.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Die Studie stellt den eLasmobranc-Datensatz vor, eine öffentlich zugängliche, kuratierte Bildsammlung von sieben Elasmobranchier-Arten aus dem östlichen Mittelmeer, die unter standardisierten Bedingungen außerhalb des Wassers aufgenommen wurde, um die artgenaue Klassifizierung und das Biodiversitätsmonitoring durch künstliche Intelligenz zu unterstützen.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Die Arbeit stellt Just-in-Time (JiT) vor, ein trainingsfreies Framework, das durch die dynamische Auswahl eines spärlichen Token-Subsets und die Formulierung einer räumlich approximierten ODE die Inferenzgeschwindigkeit von Diffusion-Transformern wie FLUX.1-dev um bis zu 7-fach steigert, ohne dabei die Bildqualität signifikant zu beeinträchtigen.

Wenhao Sun, Ji Li, Zhaoqiang Liu2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Die Autoren stellen ein neuartiges, kalibrierungsfreies photometrisches Stereo-System vor, das eine rotierende Lichtquelle mit einem Ereigniskamera-basierten, pixelweisen neuronalen Netzwerk kombiniert, um präzise Oberflächennormalen auch unter schwierigen Bedingungen wie starkem Umgebungslicht und spiegelnden Reflexionen zu schätzen.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Die Arbeit „CodePercept" identifiziert die Wahrnehmungsfähigkeit als den entscheidenden Engpass für MLLMs im visuellen STEM-Reasoning und schlägt einen Paradigmenwechsel vor, bei dem ausführbarer Code als präzises Wahrnehmungsmedium dient, was durch die Einführung des 1-Millionen-Einträge-Datensatzes ICC-1M und des Evaluierungsbenchmarks STEM2Code-Eval untermauert wird.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

Die vorgestellte Arbeit führt die Condition-Degradation Guidance (CDG) ein, eine rechenleichte Methode, die das herkömmliche Null-Prompt durch strategisch degradierte Bedingungen ersetzt, um Diffusionsmodelle bei komplexen Zusammensetzungen zu präziseren semantischen Unterscheidungen zu führen und so die Bildtext-Übereinstimmung signifikant zu verbessern.

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Taking Shortcuts for Categorical VQA Using Super Neurons

Die Arbeit stellt „Super Neuronen" vor, eine trainingsfreie Methode, die durch die direkte Nutzung skalarer Aktivierungen in den flachen Schichten von Vision-Language-Modellen eine robuste Klassifizierung ermöglicht und dabei eine bis zu 5,10-fache Geschwindigkeitssteigerung durch ein frühes Verlassen des Modells erreicht.

Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park2026-03-12🤖 cs.AI

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Die vorgestellte Arbeit stellt mit LGA-RCM-YOLO ein auf YOLO11m-basiertes Modell vor, das zusammen mit dem neuen CTG 2.0-Datensatz die instanzbasierte Segmentierung von Phasengrenzen in transparentem Labor-Glaswerk ermöglicht und so eine zuverlässige visuelle Überwachung chemischer Prozesse für die Laborautomatisierung realisiert.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

Diese Arbeit führt die Methode der semantischen Granularitätsausrichtung (SGA) ein, die auf einer geometrischen Analyse der Flow-Matching-Optimierung basiert, um Gradientenkonflikte zu mildern und so die Konvergenzgeschwindigkeit sowie die strukturelle Integrität bei der Text-zu-Bild-Synthese zu verbessern.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs

← Zurück Weiter →

cs.CV