cs.CV Arbeiten | Gist.Science

Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Diese Studie adressiert die Herausforderungen bei der Zuverlässigkeit von visuellen Navigationssystemen im Weltraum durch die systematische Charakterisierung von Kamerafehlern und die Entwicklung eines Simulationsrahmens zur Generierung eines synthetischen Datensatzes für das Training von KI-basierten Fehlererkennungsalgorithmen.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

Die Arbeit stellt NRSeg vor, ein rauschresistentes Lernframework für die semantische Segmentierung aus der Vogelperspektive (BEV), das durch die Nutzung synthetischer Daten aus Fahrweltmodellen sowie neuartige Komponenten wie eine Perspektiv-Geometrie-Konsistenzmetrik, eine parallele Vorhersage mit Bin-Verteilungen und ein hierarchisches lokales semantisches Ausschlussmodul die Leistung in unüberwachten und halbüberwachten Szenarien signifikant verbessert.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Diese Arbeit stellt SFATTI vor, einen auf dem Open-Source-Framework Spiker+ basierenden FPGA-Beschleuniger für Spiking Neural Networks, der durch die automatische Generierung von HDL-Code energieeffiziente und latenzarme Inferenz für die MNIST-Bilderkennung ermöglicht.

Alessio Caviglia, Filippo Marostica, Alessio Carpegna + 2 more2026-02-25💻 cs

Low-Latency Event-Based Velocimetry for Quadrotor Control in a Narrow Pipe

Diese Arbeit stellt das erste geschlossene Regelungs-System für den Schwebeflug von Quadrotoren in engen Rohren vor, das durch eine latenzarme, ereignisbasierte Rauchvelocimetrie und ein lernbasiertes Regler-Design in Echtzeit aerodynamische Störungen erfasst und kompensiert, um Kollisionen zu verhindern.

Leonard Bauersfeld, Davide Scaramuzza2026-02-25💻 cs

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

Der Artikel stellt FedGIN vor, ein Framework für das Federated Learning, das durch eine dynamische globale nichtlineare Intensitätsaugmentierung eine robuste und datenschutzkonforme Organsegmentierung über verschiedene Bildgebungsmodalitäten hinweg ermöglicht und dabei signifikante Verbesserungen der Genauigkeit gegenüber herkömmlichen Ansätzen erzielt.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Diese Arbeit stellt ein leichtgewichtiges Rauschunterdrückungs-Feature-Pyramid-Netzwerk (NS-FPN) vor, das durch die Integration von Modulen zur frequenzbasierten Feature-Reinigung und spiralförmigen Feature-Sampling die Leistung bei der Infrarot-Zielklein-Detektion und -Segmentierung verbessert und gleichzeitig die Fehlalarmrate senkt.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

Learned Regularization for Microwave Tomography

Die vorgestellte Arbeit führt mit SSD-Reg ein neuartiges, physikinformiertes Hybridframework ein, das Diffusionsmodelle als gelernte Regularisierung in ein variationsbasiertes Rekonstruktionsverfahren integriert, um die nichtlineare und schlecht gestellte inverse Aufgabe der Mikrowellentomographie ohne gepaarte Trainingsdaten präzise und robust zu lösen.

Bowen Tong, Hao Chen, Shaorui Guo + 1 more2026-02-25⚡ eess

PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training

Das Paper stellt PaCo-FR vor, ein unüberwachtes Vor-Trainingsframework für Gesichtsrepräsentationen, das durch eine strukturierte Maskierungsstrategie, einen patchbasierten Codebook-Ansatz und räumliche Konsistenzbeschränkungen feine semantische Details und anatomische Strukturen erfasst, um bei begrenzten annotierten Daten state-of-the-art Ergebnisse zu erzielen.

Yin Xie, Zhichao Chen, Zeyu Xiao + 7 more2026-02-25💻 cs

Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Diese Arbeit stellt TS-Mamba vor, ein effizientes Online-Video-Super-Resolution-Verfahren, das Trajektorien-bewusste verschobene State-Space-Modelle nutzt, um durch langfristige zeitliche Modellierung und eine reduzierte Rechenkomplexität einen neuen State-of-the-Art zu erreichen.

Qiang Zhu, Xiandong Meng, Yuxian Jiang + 5 more2026-02-25💻 cs

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

Das Paper stellt MoSA vor, ein Modell zur Erzeugung menschlicher Videos, das durch die Entkopplung von Struktur- und Erscheinungsgenerierung sowie die Einführung spezifischer Kontrollmechanismen realistischere und strukturell kohärente Bewegungen im Vergleich zu bestehenden Ansätzen ermöglicht.

Haoyu Wang, Hao Tang, Donglin Di + 5 more2026-02-25💻 cs

Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

Die Studie stellt DeReF vor, ein multimodales Framework zur Vorhersage des Überlebens bei Krebs, das durch eine zufällige Merkmalsreorganisation und dynamische MoE-Fusion die Limitierungen bestehender Fusionsmethoden überwindet und auf mehreren Leberkrebs-Datensätzen überlegene Ergebnisse erzielt.

Huayi Wang, Haochao Ying, Yuyang Xu + 5 more2026-02-25💻 cs

Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Dieses Paper stellt einen neuen Framework vor, der durch zufälliges Feature-Dropping und kontrastives Lernen robuste, heterogenitätsunabhängige Repräsentationen für die Herzfrequenzvorhersage erlernt und dabei auf dem neu eingeführten PARROTAO-Datensatz sowie dem FitRec-Datensatz signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

EHWGesture -- A dataset for multimodal understanding of clinical gestures

Dieses Paper stellt EHWGesture vor, ein multimodales Videodataset mit über 1.100 synchronisierten Aufnahmen von fünf klinischen Handgesten, das durch präzise Motion-Capture-Daten und Geschwindigkeitsklassen als umfassender Benchmark für die multimodale klinische Gestenanalyse dient.

Gianluca Amprimo, Alberto Ancilotto, Alessandro Savino + 5 more2026-02-25🤖 cs.AI

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

Die Arbeit stellt PCPO (Proportionate Credit Policy Optimization) vor, ein Framework, das durch eine proportionale Kreditvergabe über die Zeitstufen hinweg die Trainingsinstabilität und den Modellkollaps bei der Ausrichtung von Text-zu-Bild-Modellen verhindert und damit eine schnellere Konvergenz sowie eine überlegene Bildqualität im Vergleich zu bestehenden Methoden wie DanceGRPO erreicht.

Jeongjae Lee, Jong Chul Ye2026-02-25🤖 cs.AI

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Die Arbeit stellt RobustVLA vor, ein Framework, das Vision-Language-Action-Modelle durch eine Kombination aus adversärem Training für die Ausgabe und konsistenter Aktionsgenerierung für die Eingabe sowie einem Multi-Armed-Bandit-Ansatz zur automatischen Identifizierung kritischer Störungen gegen eine Vielzahl multimodaler Perturbationen robust macht und dabei auf Benchmarks sowie realen Robotern signifikante Verbesserungen gegenüber bestehenden Modellen erzielt.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

Die Arbeit stellt DeLTa vor, ein neuartiges Framework, das Tiefenschätzung, 6D-Pose-Schätzung und sprachgesteuerte Planung kombiniert, um transparente Objekte auf Basis einer einzigen Demonstration präzise und generalisierbar über lange Aufgabenfolgen hinweg zu manipulieren.

Taeyeop Lee, Gyuree Kang, Bowen Wen + 5 more2026-02-25💻 cs

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Die Arbeit stellt Spatial-DISE vor, ein einheitliches Benchmark und einen skalierbaren Datensatz, die auf einer kognitiven Taxonomie basieren, um die Lücke zwischen dem räumlichen Reasoning aktueller Vision-Language-Modelle und menschlicher Kompetenz, insbesondere bei intrinsisch-dynamischen Aufgaben, umfassend zu evaluieren.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Das Papier stellt UniGenBench++ vor, ein umfassendes, mehrsprachiges und fein abgestuftes Benchmark-System zur semantischen Evaluierung von Text-zu-Bild-Modellen, das bestehende Lücken in der Prompt-Vielfalt und der detaillierten Kriterienbewertung schließt.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

Das Paper stellt egoEMOTION vor, den ersten Datensatz, der egozentrische visuelle und physiologische Signale mit detaillierten Selbstauskünften über Emotionen und Persönlichkeit verbindet, um neue Benchmarks für die affektbasierte Verhaltensmodellierung in realen Szenarien zu ermöglichen.

Matthias Jammot, Björn Braun, Paul Streli + 2 more2026-02-25💻 cs

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Diese Arbeit stellt einen neuartigen Rahmen vor, der durch die Integration von 3D-Akustikdaten aus einem Phasen-Mikrofonarray mit dynamischen RGB-D-Punktwolken eine räumlich-zeitliche multimodale Darstellung chirurgischer Szenen ermöglicht, um chirurgische Handlungen präzise zu lokalisieren und das Verständnis für intelligente Operationssysteme zu vertiefen.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

← Zurück Weiter →