cs.CV Arbeiten | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

Diese Arbeit identifiziert ein erweitertes topologisches Modell für hochkontrastierende optische Fluss-Patches, das auf der Theorie von Kreisbündeln basiert und zeigt, dass die meisten hochkontrastierenden Patches nahe an Kreisen für binäre Stufenkanten liegen, was die Grenzen vorheriger Torus-Modelle erklärt und neue Einblicke in die Beziehung zwischen Topologie und Geometrie bei der visuellen Inferenz liefert.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Das Paper stellt ColonSplat vor, ein dynamisches Gaussian-Splatting-Framework, das zusammen mit dem neuen synthetischen Datensatz DynamicColon eine präzise 3D-Rekonstruktion der peristaltischen Bewegung während der Koloskopie unter Wahrung der globalen geometrischen Konsistenz ermöglicht.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Die Arbeit stellt IGLU vor, eine parametrische Aktivierungsfunktion, die als Skalenmischung von GELU-Toren unter einer Halbnormalverteilung abgeleitet wird und durch ihren schweren Cauchy-Schwanz verbesserte Gradientenstabilität sowie eine effiziente rational approximierbare Variante bietet, die auf verschiedenen Datensätzen konkurrenzfähige oder überlegene Ergebnisse gegenüber ReLU und GELU erzielt.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Diese Arbeit stellt ein hardware-effizientes Framework zur Vorhersage von Flugbahnen vor, das Umgebungs-prioritäten mit einer Dual-Transformer-Cascaded-Architektur kombiniert, um beispielsweise den Landepunkt von Tennisbällen präzise zu bestimmen und dabei bestehende Methoden in Genauigkeit und Effizienz übertrifft.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

Das Paper stellt PICS vor, ein selbstüberwachtes Verfahren zur parallelen Bildkomposition, das mithilfe eines Interaktions-Transformers und maskengesteuerter Mixture-of-Experts-Modelle kohärente räumliche Beziehungen und physikalische Konsistenz bei der Einfügung mehrerer Objekte sicherstellt.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Die Studie stellt OPTED vor, einen offenen, vorverarbeiteten Datensatz für Trachom-Erkennung aus Äthiopien, der mithilfe des Zero-Shot-SAM-3-Modells automatisiert relevante Augenregionen aus klinischen Bildern extrahiert und so eine reproduzierbare Grundlage für maschinelles Lernen schafft.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Die vorgestellte Arbeit schlägt ein neuartiges Daten-Augmentationsverfahren vor, bei dem ein Large Language Model (LLM) durch Kombination von Referenzoberflächen und Modellierungsprozessen zu komplexeren, industrietauglichen CAD-Programmen angeregt wird, um die geometrische Vielfalt und Qualität der Trainingsdaten für die KI-gestützte CAD-Generierung zu verbessern.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

Der vorgestellte Ansatz PaQ-DETR verbessert die Objekterkennung durch eine dynamische, inhaltsabhängige Generierung von Abfragen und eine qualitätsbewusste Zuweisungsstrategie, die das Ungleichgewicht bei der Abfragenutzung überwindet und konsistente Genauigkeitssteigerungen auf verschiedenen Benchmarks erzielt.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

Die Arbeit stellt DLRMamba vor, eine effiziente Methode zur Multispektral-Fusion für die Objekterkennung am Edge, die durch eine Low-Rank-SS2D-Architektur und strukturaware Distillation die Rechenkosten von Mamba-Modellen senkt, ohne die Detektionsgenauigkeit auf ressourcenbeschränkter Hardware zu beeinträchtigen.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Dieses Paper stellt ESM-YOLO+ vor, ein leichtgewichtiges Netzwerk zur Fusion von sichtbaren und infraroten Fernerkundungsbildern, das durch einen maskenbasierten Aufmerksamkeits-Fusionsmechanismus und eine strukturelle Trainingsverbesserung die Erkennung kleiner Ziele in komplexen Hintergründen mit hoher Präzision und geringer Rechenkomplexität ermöglicht.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Die Arbeit stellt HIERAMP vor, eine Methode zur Generativen Datensatz-Distillation, die das hierarchische Semantik-Verständnis des Vision Autoregressive (VAR)-Modells nutzt, um durch eine grob-zu-feine Verstärkung diskriminierender Merkmale und Strukturen die Leistung auf gängigen Benchmarks zu verbessern, ohne explizit globale semantische Nähe zu optimieren.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Diese Studie stellt eine Pipeline zur Extraktion und Analyse dreidimensionaler histomorphometrischer Merkmale für die perineurale und lymphovaskuläre Invasion beim Prostatakarzinom vor, die nachweislich eine bessere Prognose für das biochemische Rezidiv liefert als herkömmliche zweidimensionale Ansätze.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Die Studie stellt Virtual Intraoperative CT (viCT) vor, eine Methode, die mithilfe von monokularem endoskopischem Video und NeRF-Technologien intraoperative 3D-Rekonstruktionen erstellt, um statische präoperative CT-Daten während der endoskopischen Sinus-Chirurgie schrittweise an die sich verändernde Anatomie anzupassen und so präzise, hardwareunabhängige Visualisierung von Resektionsgrenzen zu ermöglichen.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

Das Paper stellt SurgCUT3R vor, ein Framework zur kontinuierlichen 3D-Rekonstruktion chirurgischer Szenen aus monokularen Endoskopvideos, das durch eine Daten-Pipeline mit synthetischen Tiefenkarten, eine hybride Überwachungsstrategie und ein hierarchisches Inferenzsystem die Herausforderungen fehlender Trainingsdaten und Pose-Drift bei langen Videos überwindet.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Die Arbeit stellt Conditional Unbalanced Optimal Transport Maps (CUOTM) vor, ein ausreißerrobustes Framework für die bedingte generative Modellierung, das durch Lockerung der Verteilungsanpassungsbeschränkungen mittels Csiszár-Divergenz die Empfindlichkeit klassischer Optimal-Transport-Methoden gegenüber Ausreißern überwindet.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Der vorgestellte Ansatz T2SGrid verbessert die Video-Temporal-Localization, indem er zeitliche Abfolgen durch ein überlappendes Gleitfenster-Verfahren in strukturierte 2D-Gitterbilder umwandelt, um so komplexe zeitliche Dynamiken effizienter zu erfassen als herkömmliche Methoden.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Diese Arbeit zeigt, dass durch den Einsatz voralineierter multimodaler Encoder und eines neuartigen harten kontrastiven Verlusts (HCL) eine state-of-the-art Bild-zu-Form-Wiedergewinnung (IBSR) ohne explizite Ansichtsüberwachung oder Neutrainieren auf Ziel-Datenbanken ermöglicht wird.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Die vorgestellte Arbeit stellt ein einfaches, aber effektives multimodales Rahmenwerk vor, das Vision-Language-Modelle durch die Verwendung von visuellen Referenz-Token und einem abgestimmten Chain-of-Thought-Datensatz mit expliziter objektszentrierter Verankerungsfähigkeit ausstattet, wodurch sie die räumliche reasoning-Fähigkeit bei monokularen Fahrzeugszenen erheblich verbessert.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Die Studie stellt ADAS-TO vor, den ersten groß angelegten natürlichen Datensatz für ADAS-zu-Manuell-Übergänge, der durch multimodale Analysen zeigt, dass in über der Hälfte der sicherheitskritischen Fälle visuelle Warnsignale mindestens drei Sekunden vor einer Übernahme erkennbar sind.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Die Arbeit stellt MipSLAM vor, ein frequenzbewusstes 3D-Gaussian-Splatting-SLAM-Framework, das durch einen elliptischen adaptiven Anti-Aliasing-Algorithmus und eine spektralbewusste Pose-Graph-Optimierung sowohl hochqualitative, aliasfreie neue Ansichten als auch eine robuste Pose-Schätzung unter variierenden Kamerakonfigurationen ermöglicht.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← Zurück Weiter →