RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Der Artikel stellt RecThinker vor, ein agentisches Framework für die Empfehlungssysteme, das durch einen „Analyze-Plan-Act"-Ansatz und den autonomen Einsatz von Werkzeugen passive Informationsbeschaffung durch proaktive, selbstgesteuerte Ermittlungen ersetzt, um die Empfehlungsgenauigkeit bei unvollständigen Benutzerprofilen zu verbessern.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Diese Arbeit verbessert den Laufzeitkomplexitätsfaktor für (1+ε)(1+\varepsilon)-Approximationsalgorithmen des kk-Median- und kk-Means-Clustering in niedrigdimensionalen euklidischen Räumen auf $2^{\tilde{O}(1/\varepsilon)^{d-1}} \cdot n \cdot \text{polylog}(n)$ und beweist unter der Gap-Exponential-Time-Hypothese, dass diese Laufzeit bis auf polylogarithmische Faktoren optimal ist.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Die Arbeit stellt MissBench vor, einen Benchmark und ein Framework zur Evaluierung multimodaler affektiver Analysen unter realistischen, unausgewogenen Bedingungen fehlender Modalitäten, das durch neue Metriken wie den Modality Equity Index (MEI) und den Modality Learning Index (MLI) verborgene Ungleichheiten und Optimierungsprobleme in bestehenden Modellen aufdeckt.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Die Arbeit stellt DISPLAY vor, ein Framework zur Erzeugung von kontrollierbaren und physikalisch konsistenten Videos menschlicher Objektinteraktionen, das durch eine spärliche Bewegungssteuerung mittels Handgelenkskoordinaten und einem objektabstrakten Bounding-Box-Rahmen sowie durch einen objektfokussierten Aufmerksamkeitsmechanismus und ein Multi-Task-Auxiliary-Training für verbesserte Robustheit und Generalisierung sorgt.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Das Paper stellt WikiCLIP vor, einen effizienten kontrastiven Rahmen für die offene visuelle Entitätserkennung, der durch den Einsatz von LLM-Embeddings, einem Vision-Guided Knowledge Adaptor und einer Hard-Negative-Synthese eine signifikante Leistungssteigerung bei gleichzeitig drastisch reduzierter Inferenzlatenz im Vergleich zu generativen Modellen erzielt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Die Arbeit stellt einen neuartigen Ansatz für das unüberwachte Domänen-Adaptionslernen vor, der auf einer reformulierten Margin-Disparity-Discrepancy-Methode basiert, um die Segmentierung der Leber in interventionalen CBCT-Bildern durch die Nutzung annotierter CT-Daten zu verbessern und dabei den Mangel an annotierten CBCT-Daten zu überwinden.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Diese Arbeit führt das Konzept der „Whole Slide Difficulty" (WSD) ein, das auf der Meinungsverschiedenheit zwischen Experten und Nicht-Experten basiert, und zeigt, dass die Integration dieser Schwierigkeitsmetrik in Multi-Instance-Learning-Modelle die Genauigkeit der Prostatakrebs-Grading insbesondere bei höheren Gleason-Graden verbessert.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs