Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Die Studie stellt ein menschenzentriertes Framework vor, das Out-of-Distribution-Herausforderungen als Spektrum menschlicher Wahrnehmungsschwierigkeiten neu definiert, um die Ausrichtung von KI-Modellen auf menschliche Fehlermuster unter verschiedenen Bedingungen präziser zu bewerten und dabei architekturspezifische Unterschiede in der Nähe und Ferne von Trainingsdaten aufzudecken.

Binxia Xu, Xiaoliang Luo, Luke Dickens, Robert M. Mok2026-03-10💻 cs

Give Them an Inch and They Will Take a Mile:Understanding and Measuring Caller Identity Confusion in MCP-Based AI Systems

Die Studie zeigt, dass MCP-basierte KI-Systeme durch das Fehlen einer expliziten Anrufer-Authentifizierung und eine zu weit gefasste Server-Vertrauensstellung fundamental unsicher sind, da einmalige Autorisierung und fehlende granulare Zugriffskontrollen den Angriffsvektor für Identitätsverwechslungen erheblich vergrößern.

Yuhang Huang, Boyang Ma, Biwei Yan, Xuelong Dai, Yechao Zhang, Minghui Xu, Kaidi Xu, Yue Zhang2026-03-10💻 cs

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Das Paper stellt SeDa vor, ein einheitliches Framework, das über 7,6 Millionen Datensätze von mehr als 200 Plattformen integriert, um durch semantische Annotation, eine erweiterbare Tag-Grafik und eine mehrstufige Navigationsstrategie eine vertrauenswürdige und kontextbewusste Entdeckung von Datenquellen zu ermöglichen.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng Fan2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Diese Arbeit stellt eine einheitliche Theorie vor, die Drifting-Modelle als score-basierte Methode auf kernel-gesättigten Verteilungen interpretiert und zeigt, dass der Drift-Feld für Gauß-Kerne exakt der Score-Differenz entspricht, während für Laplace-Kerne präzise Fehlerabschätzungen für niedrige Temperaturen und hohe Dimensionen hergeleitet werden.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

Das Paper stellt InterReal vor, ein einheitliches physikbasiertes Imitationslern-Framework, das Humanoidenrobotern durch datenaugmentierte Hand-Objekt-Kontaktbeschränkungen und einen automatischen Belohnungslerner ermöglicht, komplexe Mensch-Objekt-Interaktionen sowohl in Simulation als auch auf dem realen Unitree G1-Roboter präzise und robust zu erlernen.

Dayang Liang, Yuhang Lin, Xinzhe Liu, Jiyuan Shi, Yunlong Liu, Chenjia Bai2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Die Arbeit stellt SketchGraphNet vor, einen speicher-effizienten hybriden Graph-Transformer für die Erkennung von Großskizzen, der auf einem neuartigen Benchmark namens SketchGraph mit 3,44 Millionen graphenbasierten Skizzen trainiert wurde und dabei sowohl die Genauigkeit als auch die Ressourceneffizienz im Vergleich zu bestehenden Methoden signifikant verbessert.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Die Arbeit stellt UniLongGen vor, eine trainingsfreie Inferenzstrategie, die durch dynamische Kuratierung und gezieltes Vergessen störender visueller Informationen die Zuverlässigkeit von Unified Multimodal Models bei der Generierung langer, interleaved Bilder-Text-Narrative sicherstellt.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Diese Arbeit stellt ein neues Problem und Evaluierungsframework namens Speech Generation Speaker Poisoning (SGSP) vor, das darauf abzielt, die Privatsphäre in Zero-Shot-Text-to-Speech-Modellen zu schützen, indem die Generierung spezifischer Sprecheridentitäten verhindert wird, während die Nutzbarkeit für andere Sprecher erhalten bleibt.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Diese Arbeit stellt das neu kuratierte Devanagari-Sprachkorpus „Nwāchā Munā" für Nepal Bhasha vor und zeigt, dass ein feinabgestimmtes nepalesisches Conformer-Modell durch proximale Transferlernen die Leistung großer multilingualer Modelle bei der Spracherkennung erreicht und dabei eine rechen-effiziente Alternative für diese unterrepräsentierte Sprache bietet.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Die vorgestellte GRD-Net-Architektur kombiniert einen generativen Residual-Autoencoder mit einem diskriminativen Segmentierungsnetzwerk, das mittels eines Region-of-Interest-Moduls Anomalien gezielt in relevanten Bildbereichen erkennt und so herkömmliche, datensatzabhängige Nachverarbeitungsschritte überflüssig macht.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG