Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Das Paper stellt Crab⁺ vor, ein skalierbares und einheitliches Audio-Visuelles Large Language Model, das durch den neuen AV-UIE v2-Datensatz mit expliziten Schlussfolgerungsprozessen und die Interaktionsbewusste LoRA (I-LoRA) mit dynamischem Routing die Problematik negativen Transfers bei der gemeinsamen Ausbildung heterogener Aufgaben löst und so in fast 88 % der Fälle positive Transferwirkungen erzielt.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Die vorgestellte Arbeit führt einen Inferenzzeit-Attention-Regulierungsrahmen ein, der mithilfe von Organmasken und pathologiegeleiteten Korrekturen anatomisch konsistente und präzise kontrollierte kontrafaktische Synthesen von Brust-Röntgenaufnahmen ermöglicht, indem sie strukturelle Drifts verhindert und die Lokalisierung von Pathologien verbessert.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Die vorgestellte Arbeit entwickelt ein LISTA-Transformer-Modell, das sparse Coding und einen Aufmerksamkeitsmechanismus kombiniert, um die Einschränkungen bestehender CNN- und Transformer-Architekturen bei der lokalen und globalen Merkmalsmodellierung zu überwinden und erreicht auf dem CWRU-Datensatz für die industrielle Fehlerdiagnose eine Genauigkeit von 98,5 %.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Diese Arbeit stellt eine likelihood-basierte Analyse der verallgemeinerten Mittelwerte zur Aggregation von Dichteschätzungen vor, die zeigt, dass nur der Bereich r[0,1]r \in [0,1] systematische Verbesserungen gegenüber einzelnen Verteilungen garantiert und damit die theoretische Grundlage für die etablierten linearen und geometrischen Pooling-Methoden liefert.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Die Arbeit stellt Real5-OmniDocBench vor, das erste Benchmark, das eine vollständige physische Rekonstruktion von OmniDocBench v1.5 über fünf reale Szenarien hinweg ermöglicht, um die Lücke zwischen digitaler Leistung und robuster Dokumentenanalyse in der realen Welt zu untersuchen und Fehlerursachen präzise zu identifizieren.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Dieses Paper stellt einen neuartigen Encoder-Ansatz vor, der mithilfe eines spezialisierten Variational Autoencoders und nicht-parametrischer Nachbarschaftsdichteschätzung Abhängigkeiten von sensiblen Variablen explizit schätzt und modifiziert, um eine unabhängige Darstellung zu erzeugen, die sowohl über unüberwachte als auch mit überwachenden Methoden vergleichbare Ergebnisse erzielt.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Die Studie stellt ein neues additives Klassifikationsmodell namens CRESTomics vor, das mithilfe von Radiomics-Features aus Ultraschallbildern und einer kernelbasierten Methode mit Gruppen-Sparsity-Regulierung zur präzisen und interpretierbaren Identifizierung von Hochrisiko-Karotisplaques im CREST-2- klinischen Versuch beiträgt.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI