cs.CV Arbeiten | Gist.Science

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

Die Arbeit stellt MMTA (Multi-Membership Temporal Attention) vor, einen hochauflösenden Temporal-Transformer, der durch die gleichzeitige Berücksichtigung mehrerer lokaler Zeitfenster pro Frame die präzise Erkennung feingranularer Bewegungsphasen in der Schlaganfall-Rehabilitation verbessert und dabei sowohl Video- als auch IMU-Daten in einer effizienten, einstufigen Architektur verarbeitet.

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

Die vorgestellte SMART-Methode nutzt ein SAM3-basiertes Lehrer-Schüler-Framework mit bewegungs- und konfidenzgesteuerten Regularisierungstechniken, um die semi-überwachte Segmentierung von Koronararterien in Röntgenangiographie-Videos auch bei unzureichenden annotierten Daten und komplexen Bewegungsmustern präzise durchzuführen.

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

Die Arbeit stellt einen neuartigen, blinden und nichtlinearen inversen Rahmen vor, der durch die Synergie von MR-Physik und generativen Priors erstmals die gleichzeitige Wiederherstellung anatomischer Bilder, die Synthese hochauflösender Cine-Bilder und die Schätzung von Bewegungen bei Tagged-MRI vereint, um die bisher getrennt behandelten Herausforderungen wie Tag-Verfälschung und Unschärfe zu überwinden.

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

Der Artikel stellt VEMamba vor, ein effizientes Framework zur isotropen Rekonstruktion von Volumen-Elektronenmikroskopie-Daten, das durch ein neuartiges 3D-Abhängigkeits-Umordnungsparadigma mit axial-lateraler Konsistenz und eine realistische Degradationssimulation eine hohe Bildqualität bei geringer Rechenkomplexität erreicht.

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

Das Paper stellt pySpatial vor, ein visuelles Programmier-Framework, das Multi-Modal Large Language Models durch die Generierung von Python-Code für den Zugriff auf räumliche Werkzeuge befähigt, um ohne Feinabstimmung eine präzise Null-Shot-Raumverständnis in 3D zu erreichen und dabei sowohl Benchmarks als auch reale Roboternavigation zu verbessern.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

Dieser Artikel stellt UD-SfPNet vor, ein neuronales Netzwerk, das durch die Kombination von Entstreuung und polarisationsbasierter Formwiedergabe in einem einheitlichen Rahmen die Genauigkeit der 3D-Oberflächenrekonstruktion unter Wasser signifikant verbessert.

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

Diese Arbeit stellt einen hierarchischen Algorithmus vor, der durch komposite Entdeckung, Normalisierung auf minimale repräsentative Formen und Primextraktion exakte, achsenausgerichtete rechteckige Tesselationen in endlichen diskreten Gittern deterministisch identifiziert, um eine Lücke in der symbolischen Gitteranalyse für Aufgaben wie das Lösen von Rätseln zu schließen.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

Die Arbeit stellt VGGT-Det vor, das als erstes Framework für die sensorgeometriefreie 3D-Objekterkennung in Innenräumen den VGGT-Encoder integriert und durch zwei neue Komponenten, die auf Aufmerksamkeitskarten und dynamischer Feature-Aggregation basieren, interne semantische und geometrische Priors nutzt, um die Leistung signifikant zu steigern.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

Die Arbeit stellt DriveCode vor, eine neuartige numerische Kodierungsmethode, die Zahlen als dedizierte Embeddings statt diskreter Text-Token darstellt, um die Präzision und Effizienz von LLM-basierten autonomen Fahrsystemen bei der Trajektorienvorhersage und der Erzeugung von Steuersignalen zu verbessern.

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

Die Studie zeigt, dass Vision-Language-Modelle auf dem DrawEduMath-Datensatz bei der Analyse von Schülerfehlern und der Unterstützung lernschwacher Schüler signifikant versagen, was auf die Notwendigkeit alternativer Entwicklungsansätze für den pädagogischen Einsatz hinweist.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

Die Autoren stellen den großen subjektiven Datensatz Beyond8Bits mit 44.000 HDR-UGC-Videos vor und entwickeln HDR-Q, das erste multimodale Large Language Model mit einem HDR-sensitiven Vision-Encoder und einem neuartigen RL-Finetuning-Verfahren (HAPO), um den State-of-the-Art bei der objektiven und subjektiven Qualitätsbewertung von HDR-Inhalten zu erreichen.

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

Die Arbeit stellt StegoNGP vor, eine neue Methode zur parametrischen 3D-Steganografie, die Instant-NGP nutzt, um mithilfe von Schlüssel-gesteuerten Hash-Funktionen eine vollständige geheime 3D-Szene in einem einzigen, ununterscheidbaren Modell zu verbergen und dabei hohe Kapazität sowie Robustheit zu gewährleisten.

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

Die Studie zeigt, dass das Klemmen des positiven Randes im Contrastive Forward-Forward-Lernen die Trainingsvarianz auf CIFAR-10 durch Sättigungseffekte in frühen Schichten signifikant erhöht, während dieser Effekt bei anderen Datensätzen von der positiven Paardichte und der Aufgabenschwierigkeit abhängt und durch eine gradientenneutrale Subtraktionsformel behoben werden kann.

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

Die Arbeit stellt VeGaS vor, ein neuartiges 4D-Gaussian-Splatting-Framework, das durch die Entkopplung von Bewegung und Geometrie mittels einer galileischen Scherungsmatrix und eines geometrischen Deformationsnetzwerks hochpräzise Rekonstruktionen dynamischer Szenen mit State-of-the-Art-Leistung ermöglicht.

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

EraseAnything++ ist ein einheitliches Framework, das durch die Formulierung als eingeschränktes Mehrziel-Optimierungsproblem, implizite Gradienten-Chirurgie sowie eine Anker- und Propagierungs-Mechanik eine effektive Konzept-Eliminierung in modernen Flow-Matching-basierten Diffusionsmodellen für Bilder und Videos ermöglicht, ohne dabei die generative Qualität oder zeitliche Konsistenz zu beeinträchtigen.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Die Arbeit stellt einen anatomieinformierten synthetischen Überwachungs-Vorabtrainingsrahmen vor, der durch den Einsatz einer deidentifizierten Formbank und einer strukturorientierten Platzierungsstrategie die semantische Lücke zwischen generischen mathematischen Primitive und realer Anatomie schließt, um die Leistung von medizinischen Segmentierungsmodellen ohne Datenschutzbarrieren signifikant zu steigern.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

Die Arbeit stellt EFS (Event-Anchored Frame Selection) vor, eine trainingsfreie, hierarchische Methode zur Auswahl von Schlüsseldaten aus langen Videos, die durch die Identifizierung semantischer Ereignisse und eine adaptive Relevanzoptimierung die Leistung bestehender Large Vision-Language Models auf Benchmarks wie VideoMME signifikant verbessert.

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Diese Arbeit stellt einen physikinspirierten, räumlich entkoppelten Syntheseansatz vor, der das Problem der Grenz-Aliasing bei der texturbasierten Erzeugung medizinischer Bilddaten löst und so Vision Transformer-Modelle durch eine verbesserte Trennung von Form- und Texturlernen signifikant präziser und dateneffizienter macht.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

Diese umfassende technische Übersicht untersucht die Entwicklung von Fundamentmodellen in der Fernerkundung von unimodalen zu multimodalen Ansätzen, bietet eine systematische Kategorisierung bestehender Modelle und liefert ein praxisorientiertes Tutorial, um Forschern den Einstieg und die Anwendung in diesem schnell wachsenden Bereich zu erleichtern.

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

MLRecon ist ein robuster, markerloser Rahmen für die 3D-Ultraschallrekonstruktion, der mithilfe eines handelsüblichen RGB-D-Kamerasystems, visueller Fundamentmodelle und einer zweistufigen Pose-Verfeinerung driftresistentes 6D-Tracking mit submillimetergenauer Genauigkeit ermöglicht.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

← Zurück Weiter →