cs.CV Arbeiten | Gist.Science

Sapling-NeRF: Geo-Localised Sapling Reconstruction in Forests for Ecological Monitoring

Die vorgestellte Arbeit stellt eine Pipeline vor, die Neural Radiance Fields (NeRF), LiDAR-SLAM und GNSS kombiniert, um präzise, geo-referenzierte 3D-Rekonstruktionen von Jungbäumen für ein wiederholbares und quantitatives ökologisches Monitoring zu ermöglichen.

Miguel Ángel Muñoz-Bañón, Nived Chebrolu, Sruthi M. Krishna Moorthy + 4 more2026-02-27💻 cs

Asymmetric Idiosyncrasies in Multimodal Models

Die Studie zeigt, dass Bildunterschriften-Modelle zwar eindeutige stilistische Signaturen aufweisen, diese jedoch in den daraus generierten Bildern weitgehend verloren gehen, da wesentliche Details wie Farbverteilung und Objektdichte nicht konsistent übernommen werden.

Muzi Tao, Chufan Shi, Huijuan Wang + 2 more2026-02-27💻 cs

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

Das Paper stellt ProjFlow vor, einen trainingsfreien Sampler, der durch eine neuartige, skeletttopologiebewusste Metrik und eine zeitvariable Formulierung präzise lineare räumliche Bewegungsbeschränkungen ohne Einbußen an Natürlichkeit erfüllt.

Akihisa Watanabe, Qing Yu, Edgar Simo-Serra + 1 more2026-02-27💻 cs

Beyond Detection: Multi-Scale Hidden-Code for Natural Image Deepfake Recovery and Factual Retrieval

Die Autoren stellen einen einheitlichen Rahmen zur Wiederherstellung versteckter Codes vor, der durch mehrskalige Vektorquantisierung und bedingte Transformer-Module sowohl die faktische Suche als auch die Rekonstruktion von Deepfake-bearbeiteten Naturbildern ermöglicht und dies durch den neu eingeführten ImageNet-S-Benchmark evaluiert.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

TrajTok: Learning Trajectory Tokens enables better Video Understanding

Die Arbeit stellt TrajTok vor, einen effizienten, end-to-end integrierten Video-Tokenizer, der durch dynamische, semantikbasierte Objekt-Trajektorien die Skalierbarkeit von Videomodellen verbessert und in verschiedenen Anwendungen wie Klassifizierung, Retrieval und Langvideo-Reasoning zu State-of-the-Art-Ergebnissen führt.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang + 6 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

Das Paper stellt SceneTransporter vor, ein Framework, das mittels optimaler Transportführung in einem zusammengesetzten latenten Diffusionsmodell aus einem einzelnen Bild strukturierte 3D-Szenen erzeugt, indem es durch exklusive Zuordnungen und konkurrierende Gruppierung die Instanzkohärenz und geometrische Treue in offenen Welten verbessert.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Robust Human Trajectory Prediction via Self-Supervised Skeleton Representation Learning

Die Autoren stellen eine robuste Methode zur Vorhersage menschlicher Trajektorien vor, die ein selbstüberwachtes, auf Masked Autoencoding basiertes Skelett-Repräsentationsmodell nutzt, um die Genauigkeit auch bei durch Okklusionen verursachten fehlenden Gelenkdaten zu erhalten.

Taishu Arashima, Hiroshi Kera, Kazuhiko Kawamoto2026-02-27💻 cs

GSTurb: Gaussian Splatting for Atmospheric Turbulence Mitigation

Die Arbeit stellt GSTurb vor, ein neuartiges Framework zur Minderung atmosphärischer Turbulenzen, das optischen Fluss für die Neigungskorrektur mit Gaussian Splatting zur Modellierung von Unschärfe kombiniert und damit sowohl auf synthetischen als auch auf realen Datensätzen den aktuellen Stand der Technik übertrifft.

Hanliang Du, Zhangji Lu, Zewei Cai + 3 more2026-02-27💻 cs

Face Time Traveller : Travel Through Ages Without Losing Identity

Das Paper stellt Face Time Traveller (FaceTT) vor, ein diffusion-basiertes Framework, das durch eine prompt-verfeinernde Strategie, eine tuning-freie Inversionsmethode und eine adaptive Aufmerksamkeitssteuerung realistische Alterungsprozesse bei gleichzeitiger Bewahrung der Identität und des Hintergrunds ermöglicht.

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama + 2 more2026-02-27💻 cs

CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation

Die vorgestellte CMSA-Net-Framework adressiert die Herausforderungen der Video-Polyp-Segmentierung durch einen kausalen Multi-Scale-Aggregationsmechanismus und eine adaptive Multi-Source-Referenzstrategie, die zusammen eine präzise Echtzeit-Segmentierung auf dem SUN-SEG-Datensatz ermöglichen.

Tong Wang, Yaolei Qi, Siwen Wang + 3 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

Diese Studie stellt ein kostengünstiges, feldtaugliches multispektrales Bildgebungssystem in Kombination mit maschinellem Lernen vor, das eine präzise, zerstörungsfreie Vorhersage der Bodenkomposition und eine hochgenaue Klassifizierung nach USDA-Bodentexturkategorien ermöglicht.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess

Moral Preferences of LLMs Under Directed Contextual Influence

Die Studie zeigt, dass gerichtete kontextuelle Einflüsse die moralischen Entscheidungen von Sprachmodellen in Trolley-Problem-Szenarien signifikant verändern können, wobei diese Verschiebungen oft nicht durch die Basispräferenzen vorhergesagt werden und durch Reasoning zwar die durchschnittliche Empfindlichkeit verringert, aber die Wirkung verzerrter Few-Shot-Beispiele verstärkt wird.

Phil Blandfort, Tushar Karayil, Urja Pawar + 3 more2026-02-27💬 cs.CL

A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

Die Studie stellt CheXficient vor, einen effizienten Brust-Röntgen-Foundation-Modell, das durch gezielte Datenselektion statt massiver Skalierung mit nur einem Bruchteil der Daten und Rechenleistung vergleichbare oder bessere Leistungen erzielt und dabei insbesondere unterrepräsentierte Krankheitsbilder verbessert.

Chong Wang, Yabin Zhang, Yunhe Gao + 9 more2026-02-27💻 cs

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Die Arbeit stellt DPE (Diagnostic-driven Progressive Evolution) vor, einen iterativen Trainingsansatz für große multimodale Modelle, der durch eine spiralförmige Schleife aus Diagnose, gezieltem Daten-Generierung und Verstärkung statische Trainingsgrenzen überwindet und stabile Leistungssteigerungen über diverse Benchmarks hinweg erzielt.

Hongrui Jia, Chaoya Jiang, Shikun Zhang + 1 more2026-02-27💻 cs

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

Die Arbeit stellt GraspLDP vor, einen Ansatz, der durch die Integration von Greifpriorwissen in ein latentes Diffusionsmodell und eine selbstüberwachte Rekonstruktion die Präzision und Generalisierungsfähigkeit von Greifstrategien im Rahmen des Imitationslernens signifikant verbessert.

Enda Xiang, Haoxiang Ma, Xinzhu Ma + 2 more2026-02-27💻 cs

SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

Das Paper stellt SO3UFormer vor, einen rotation-robusten Architekturansatz für die semantische Segmentierung von Panoramen, der durch intrinsische sphärische Merkmale und geometrisch konsistente Mechanismen die Abhängigkeit von der Ausrichtung überwindet und damit unter beliebigen 3D-Rotationen eine deutlich höhere Stabilität als bestehende State-of-the-Art-Modelle erreicht.

Qinfeng Zhu, Yunxi Jiang, Lei Fan2026-02-27💻 cs

Towards Multimodal Domain Generalization with Few Labels

Die Autoren stellen einen neuen Ansatz für die semi-überwachte multimodale Domänengeneralisierung (SSMDG) vor, der durch konsensgesteuerte Konsistenzregularisierung, diskrepanzbewusste Regularisierung und cross-modale Prototypen-Alignment robuste Modelle mit wenigen Labels trainiert und gleichzeitig mit fehlenden Modalitäten umgehen kann.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

Chain of Flow: A Foundational Generative Framework for ECG-to-4D Cardiac Digital Twins

Die Arbeit stellt Chain of Flow (COF) vor, ein grundlegendes generatives Framework, das aus einzelnen EKG-Signalen individualisierte 4D-Herz-Zwillinge rekonstruiert und diese damit von reinen Vorhersagemodellen zu vollständig manipulierbaren, patientenspezifischen virtuellen Herzen für eine breite Palette klinischer Simulationen weiterentwickelt.

Haofan Wu, Nay Aung, Theodoros N. Arvanitis + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

Diese Arbeit stellt den OSDaR-AR-Datensatz vor, der durch ein neuartiges Multi-Modal-Augmented-Reality-Framework mit Unreal Engine 5 photorealistische virtuelle Objekte präzise in reale Eisenbahnsequenzen integriert, um die Lücke zwischen Simulation und Realität zu schließen und die Entwicklung sicherheitskritischer Wahrnehmungssysteme zu fördern.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

Die Autoren stellen WaterVideoQA, ein umfassendes Video-Frage-Antwort-Benchmark für Wasserstraßen, und NaviMind, ein neuro-symbolisches Multi-Agenten-System, vor, die autonomen Wasserfahrzeugen durch regelkonformes, interpretierbares Schlussfolgern eine sichere Navigation in dynamischen maritimen Umgebungen ermöglichen.

Runwei Guan, Shaofeng Liang, Ningwei Ouyang + 9 more2026-02-27💻 cs

← Zurück Weiter →