NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Die Arbeit stellt NeXt2Former-CD vor, ein effizientes Framework für die Fernerkundungs-Veränderungserkennung, das ConvNeXt-Encoder mit DINOv3-Vorabtrainierung, eine deformierbare Aufmerksamkeitsfusion und einen Mask2Former-Decoder kombiniert, um bei überlegener Genauigkeit gegenüber Mamba-basierten Methoden eine vergleichbare Inferenzgeschwindigkeit zu erreichen.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Dieser Beitrag stellt eine Methode für das Multi-View-Clustering vor, die durch die explizite Modellierung von Phasenübereinstimmungen in komplexwertigen magnetischen Affinitäten und die Extraktion stabiler spektraler Signale über einen hermiteschen Laplace-Operator robuste, phasenkonsistente Repräsentationen auch bei widersprüchlichen Sichtweisen und Rauschen ermöglicht.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Die Arbeit stellt MiSCHiEF vor, ein Benchmark aus zwei Datensätzen für Sicherheits- und Kulturszenarien, der mittels kontrastiver Minimalpaare zeigt, dass aktuelle Vision-Language-Modelle bei der feingranularen Bild-Text-Ausrichtung, insbesondere bei der Unterscheidung subtiler sicherheitsrelevanter oder kultureller Nuancen, weiterhin erhebliche Schwierigkeiten aufweisen.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Das Paper stellt RoboCurate vor, ein Framework zur Generierung synthetischer Roboterdaten, das die Qualität annotierter Aktionen durch Simulation und Vergleich mit generierten Videos validiert und durch Bildbearbeitung erweitert, wodurch sich die Erfolgsraten im Vergleich zu reinen Real-Daten in verschiedenen Szenarien erheblich steigern lassen.

Seungku Kim, Suhyeok Jang, Byungjun Yoon + 3 more2026-02-24🤖 cs.AI

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Diese Studie stellt einen Benchmark für zehn computergestützte Pathologie-Foundation-Modelle zur semantischen Segmentierung vor, bei dem sich zeigt, dass das multimodale Modell CONCH die besten Ergebnisse erzielt und die Kombination der Merkmalsvektoren mehrerer Modelle die Segmentierungsleistung über alle Datensätze hinweg signifikant verbessert.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Das Paper stellt TAG vor, ein Vision-Language-Framework für die Gesichtsausdrucksanalyse, das durch die Verankerung des multimodalen Schlussfolgerns in visuell überprüfbare Gesichtsbewegungseinheiten (Action Units) die Halluzinationen herkömmlicher Modelle reduziert und gleichzeitig die Robustheit sowie die visuelle Glaubwürdigkeit der Vorhersagen verbessert.

Haobo Lin, Tianyi Bai, Jiajun Zhang + 5 more2026-02-24🤖 cs.AI