Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Diese Studie zeigt, dass ein Graph Attention Network-Ensemble, das auf funktionell abgeleiteten Hirnparzellierungen (MSDL) statt auf anatomischen Atlanten basiert, die Klassifizierung von Autismus-Spektrum-Störungen mittels Ruhe-fMRT-Daten mit einer Genauigkeit von 95 % deutlich verbessert und dabei neuropathologisch relevante Hirnregionen identifiziert.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Das Paper stellt NeighborMAE vor, einen Masked Autoencoder, der durch die gemeinsame Rekonstruktion benachbarter Erdbeobachtungsbilder und eine dynamische Anpassung der Maskierungsparameter räumliche Abhängigkeiten nutzt, um die Selbstüberwachungsvorverarbeitung für Erdbeobachtungsdaten signifikant zu verbessern.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Die Arbeit stellt vor, dass diskriminative Klassifikatoren für das Verständnis geschlossener Aktionen effizienter und genauer sind als generative Ansätze, und schlägt mit dem GAD-Klassifikator eine hybride Methode vor, die während des Fine-Tunings generative Modellierung nutzt, um die Genauigkeit zu steigern und gleichzeitig die Inferenzgeschwindigkeit zu erhöhen.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

SemGS ist ein feed-forward Framework, das aus wenigen Ansichten generalisierbare semantische 3D-Szenen rekonstruiert, indem es eine Dual-Branch-Architektur mit einer kamera-bewussten Aufmerksamkeitsmechanik kombiniert, um sowohl geometrische Konsistenz als auch semantische Kohärenz für eine schnelle und skalierbare Szenenverständnis zu gewährleisten.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Die vorgestellte Arbeit führt Generalizable Knowledge Distillation (GKD) ein, ein mehrstufiges Framework, das durch die Entkopplung von Repräsentations- und Aufgabenlernen sowie einen query-basierten weichen Distillationsmechanismus die Generalisierungsfähigkeit von Vision Foundation Models bei der semantischen Segmentierung über Domänengrenzen hinweg signifikant verbessert.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Die Arbeit stellt CAWM-Mamba vor, ein einheitliches End-to-End-Modell, das erstmals die Bildfusion und die Wiederherstellung von Bildern unter komplexen, kombinierten Wetterbedingungen (wie Nebel, Regen und Schnee gleichzeitig) erfolgreich vereint und dabei durch innovative Module wie WAPM, CFIM und WSSB den aktuellen Stand der Technik in verschiedenen Szenarien und nachgelagerten Aufgaben übertrifft.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Das Paper stellt SOLAR vor, ein Empfehlungssystem-Framework, das durch die Einführung von SVD-Attention die quadratische Komplexität der Transformer-Aufmerksamkeit auf lineare Komplexität reduziert, während die Softmax-Funktion erhalten bleibt, und ermöglicht so die effiziente Verarbeitung extrem langer Verhaltenssequenzen, was in der Online-Empfehlung von Kuaishou zu messbaren Verbesserungen der Videoaufrufe führt.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

Die Autoren stellen ATD vor, eine neuartige Transformer-Architektur für die Bildwiederherstellung, die durch einen adaptiven Token-Wörterbuch und einen Cross-Attention-Mechanismus globale Abhängigkeiten mit linearer Komplexität modelliert und dabei sowohl den Rechenaufwand reduziert als auch den State-of-the-Art in verschiedenen Aufgaben wie Super-Resolution und Entrauschung erreicht.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Diese Studie zeigt, dass die Kombination aus zufälliger Affintransformation und Farbverzerrung die Generalisierungsfähigkeit eines leichten Vision-Transformers für die Klassifizierung bengalischer Handschrift auf den Datensätzen Ekush und AIBangla mit Genauigkeiten von bis zu 97,57 % signifikant verbessert und so das Problem begrenzter Trainingsdaten für ressourcenarme Sprachen adressiert.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

Die Arbeit stellt DrPose vor, einen Algorithmus zur direkten Belohnungsbasierten Feinabstimmung von Multi-View-Diffusionsmodellen, der mithilfe des neuen DrPose15K-Datensatzes und einer differenzierbaren PoseScore-Belohnung realistische 3D-Menschenrekonstruktionen aus einzelnen Bildern auch bei dynamischen und herausfordernden Posen ermöglicht, ohne teure 3D-Assets zu benötigen.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs