cs.CV Arbeiten | Gist.Science

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Das Paper stellt Crab⁺ vor, ein skalierbares und einheitliches Audio-Visuelles Large Language Model, das durch den neuen AV-UIE v2-Datensatz mit expliziten Schlussfolgerungsprozessen und die Interaktionsbewusste LoRA (I-LoRA) mit dynamischem Routing die Problematik negativen Transfers bei der gemeinsamen Ausbildung heterogener Aufgaben löst und so in fast 88 % der Fälle positive Transferwirkungen erzielt.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Die vorgestellte Arbeit führt einen Inferenzzeit-Attention-Regulierungsrahmen ein, der mithilfe von Organmasken und pathologiegeleiteten Korrekturen anatomisch konsistente und präzise kontrollierte kontrafaktische Synthesen von Brust-Röntgenaufnahmen ermöglicht, indem sie strukturelle Drifts verhindert und die Lokalisierung von Pathologien verbessert.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Die Arbeit stellt HBRB-BoW vor, einen neuartigen Trainingsalgorithmus für eine hierarchische Bag-of-Words-Vokabular, der durch die Integration eines globalen reellwertigen Flusses die Präzisionsverluste der binären K-Means-Clustering-Methode in ORB-SLAM überwindet und so die Leistung bei Loop-Closing und Relokalisierung erheblich verbessert.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Die vorgestellte Arbeit entwickelt ein LISTA-Transformer-Modell, das sparse Coding und einen Aufmerksamkeitsmechanismus kombiniert, um die Einschränkungen bestehender CNN- und Transformer-Architekturen bei der lokalen und globalen Merkmalsmodellierung zu überwinden und erreicht auf dem CWRU-Datensatz für die industrielle Fehlerdiagnose eine Genauigkeit von 98,5 %.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Diese Studie stellt ein augmentiertes Trainingsframework vor, das durch das gezielte Hinzufügen künstlicher Bilddegradationen die Robustheit und Genauigkeit der Wiedererkennung einzelner Wildtiere unter realen, verschlechterten Bedingungen signifikant verbessert.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Die Arbeit stellt PlaneCycle vor, einen training- und adapterfreien Operator, der vortrainierte 2D-Foundation-Modelle durch zyklische räumliche Aggregation über orthogonale Ebenen hinweg nahtlos in leistungsfähige 3D-Modelle umwandelt, ohne zusätzliche Parameter oder Architekturänderungen zu erfordern.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Diese Arbeit stellt eine likelihood-basierte Analyse der verallgemeinerten Mittelwerte zur Aggregation von Dichteschätzungen vor, die zeigt, dass nur der Bereich $r \in [0,1]$ systematische Verbesserungen gegenüber einzelnen Verteilungen garantiert und damit die theoretische Grundlage für die etablierten linearen und geometrischen Pooling-Methoden liefert.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Die Arbeit stellt Real5-OmniDocBench vor, das erste Benchmark, das eine vollständige physische Rekonstruktion von OmniDocBench v1.5 über fünf reale Szenarien hinweg ermöglicht, um die Lücke zwischen digitaler Leistung und robuster Dokumentenanalyse in der realen Welt zu untersuchen und Fehlerursachen präzise zu identifizieren.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Dieses Paper stellt einen neuartigen Encoder-Ansatz vor, der mithilfe eines spezialisierten Variational Autoencoders und nicht-parametrischer Nachbarschaftsdichteschätzung Abhängigkeiten von sensiblen Variablen explizit schätzt und modifiziert, um eine unabhängige Darstellung zu erzeugen, die sowohl über unüberwachte als auch mit überwachenden Methoden vergleichbare Ergebnisse erzielt.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Die Arbeit stellt DiverseDiT vor, ein Framework, das durch lange Restverbindungen und einen Diversitätsverlust die Repräsentationsvielfalt in Diffusion Transformern systematisch fördert, um deren Leistung und Konvergenz zu verbessern.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

Die Arbeit stellt DeNuC vor, eine Methode, die die Entkopplung von Nukleus-Detektion und -Klassifizierung nutzt, um die Leistung von Pathologie-Foundation-Modellen bei dieser Aufgabe durch eine effiziente, ressourcenschonende Architektur signifikant zu verbessern.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

Die Arbeit stellt EmbodiedSplat vor, ein Online-Feed-Forward-Verfahren auf Basis von 3D-Gaussian-Splatting, das durch die Kombination von CLIP-Embeddings und einem geometriebewussten 3D-U-Net eine Echtzeit-Rekonstruktion und offene Vokabular-Semantikverständnis für 3D-Szenen während der Exploration ermöglicht.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Die vorgestellte Arbeit führt eine Farb-äquivariante Architektur ein, die durch das Anheben von Sättigungs- und Helligkeitswerten von Intervallen auf Kreise (eine Hypertoroidal-Überlagerung) Approximationsartefakte früherer Methoden beseitigt und damit die Leistung sowie Interpretierbarkeit in Aufgaben wie der medizinischen Bildverarbeitung verbessert.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Die Arbeit stellt ViterbiPlanNet vor, ein effizientes Framework, das durch eine differentiable Viterbi-Schicht prozedurales Wissen in die Planung für Instruktionsvideos integriert und damit den aktuellen Stand der Technik bei deutlich geringerer Parameteranzahl und verbesserter Stichprobeneffizienz erreicht.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Die Autoren stellen SSR vor, ein generisches Framework zur textgestützten Komprimierung von Karten für die Robotik-Lokalisierung, das durch die Kombination von verlustfrei komprimierbaren Textbeschreibungen und adaptiven Bild-Embeddings den Speicher- und Bandbreitenbedarf bei gleichzeitiger Beibehaltung hoher Lokalisierungsgenauigkeit signifikant reduziert.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Diese Studie analysiert die Anwendung von Deep-Learning-Methoden auf einem umfassenden, multizentrischen Datensatz, um durch die Integration von Sequenz- und Zeitreihendaten die Echtzeit-Erkennung und Segmentierung von Darmpolypen während der Koloskopie zu verbessern und somit die diagnostische Präzision zu steigern.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Die Arbeit stellt CubeComposer vor, ein neuartiges räumlich-zeitliches autoregressives Diffusionsmodell, das 4K-Auflösung 360°-Videos direkt aus perspektivischen Eingabevideos generiert und dabei durch eine effiziente Kachelstrategie und Kontextverwaltung die Grenzen bestehender Methoden überwindet.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

Die Arbeit stellt MMFA vor, eine neue Methode zur unüberwachten Gesichtsanimation, die durch selbstüberwachtes Lernen und einen Variational Autoencoder Identität und Bewegungssemantik entkoppelt, um erstmals eine kontrollierbare und interpolierbare Gesichtsbewegung in einem unüberwachten Rahmen zu ermöglichen.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

Die Arbeit stellt PromptAvatar vor, ein Framework mit dualen Diffusionsmodellen, das mithilfe eines neuartigen, multimodalen Datensatzes hochqualitative 3D-Avatare aus Text- oder Bildprompts in unter 10 Sekunden erzeugt und dabei die Limitierungen bestehender iterativer Optimierungsverfahren überwindet.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Die Studie stellt ein neues additives Klassifikationsmodell namens CRESTomics vor, das mithilfe von Radiomics-Features aus Ultraschallbildern und einer kernelbasierten Methode mit Gruppen-Sparsity-Regulierung zur präzisen und interpretierbaren Identifizierung von Hochrisiko-Karotisplaques im CREST-2- klinischen Versuch beiträgt.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

← Zurück Weiter →

cs.CV

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation