TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

Die Arbeit stellt TC-SSA vor, einen lernbaren Token-Kompressionsansatz mittels semantischer Slot-Aggregation, der die rechenintensive Verarbeitung gigapixelgroßer Pathologiebilder effizient löst, indem diagnostisch relevante Informationen in einer stark reduzierten Token-Anzahl zusammengefasst werden, ohne dabei die diagnostische Genauigkeit zu beeinträchtigen.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Die Arbeit stellt D-REX vor, eine differentiable Engine, die auf Gaussian Splatting basiert, um durch visuelle Beobachtungen und Robotersignale die Masse von Objekten zu identifizieren und gleichzeitig realistische digitale Zwillinge sowie lernfähige Greifpolitiken zu erstellen, wodurch die Lücke zwischen Simulation und Realität effektiv geschlossen wird.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

Die Arbeit stellt GRAD-Former vor, ein neuartiges, effizientes Framework für die Veränderungserkennung in Fernerkundungsbildern, das durch einen adaptiven Encoder mit gating-basierten Mechanismen und differenzieller Aufmerksamkeit eine überlegene Genauigkeit bei gleichzeitig geringerem Parameterbedarf als bestehende State-of-the-Art-Modelle erreicht.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

Das Paper stellt BeautyGRPO vor, ein Reinforcement-Learning-Framework, das mithilfe eines feinabgestimmten Präferenzmodells und einer dynamischen Pfadführung (DPG) Gesichtsretusche so optimiert, dass es subtile Makel entfernt und gleichzeitig die Gesichtsidentität bewahrt, um menschliche ästhetische Vorlieben besser zu erfüllen als bestehende Methoden.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

Die Arbeit stellt RnG vor, einen einheitlichen Feed-Forward-Transformer, der durch einen rekonstruktionsgesteuerten kausalen Aufmerksamkeitsmechanismus und einen impliziten 3D-KV-Cache sowohl sichtbare Geometrie präzise rekonstruiert als auch plausible, unsichtbare Strukturen generiert, um vollständige 3D-Modelle aus partiellen 2D-Beobachtungen in Echtzeit zu erstellen.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Die Arbeit „AgilePruner" führt eine empirische Studie durch, die die Stärken und Schwächen von auf Aufmerksamkeit und Diversität basierenden Methoden zur visuellen Token-Pruning in großen visuell-sprachlichen Modellen analysiert und darauf aufbauend einen adaptiven Pruning-Mechanismus vorschlägt, der durch bildspezifische Anpassungen sowohl die Leistung als auch die Halluzinationsrate verbessert.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Die MAMA-MIA-Challenge adressiert die mangelnde Generalisierbarkeit und Fairness bestehender KI-Modelle für die Brust-MRT durch einen großen, multizentrischen Benchmark, der die Segmentierung von Tumoren und die Vorhersage des Therapieansprechens über Kontinente hinweg unter Einbeziehung von Untergruppen-Gerechtigkeitsmetriken evaluiert.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Certifiable Estimation with Factor Graphs

Diese Arbeit stellt einen einheitlichen Rahmen vor, der die Vorteile modularer Faktorgraphen mit zertifizierbaren, global optimalen Schätzverfahren verbindet, indem sie zeigt, dass die Struktur von Faktorgraphen unter Shor-Relaxation und Burer-Monteiro-Faktorisierung erhalten bleibt und so die Implementierung zertifizierbarer Schätzung mit etablierten Robotik-Bibliotheken ermöglicht.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Die Arbeit stellt FoSS vor, ein neuartiges Dual-Branch-Framework, das Frequenzbereichsanalyse mit linearen State-Space-Modellen kombiniert, um bei autonomen Fahrzeugen sowohl langfristige Abhängigkeiten als auch multimodale Unsicherheiten in der Trajektorienvorhersage mit höherer Genauigkeit und deutlich reduzierter Rechenkomplexität zu modellieren.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs