BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Die Arbeit „BiasBusters" identifiziert systematische Verzerrungen bei der Werkzeugauswahl durch Large Language Models, die durch semantische Übereinstimmung, Positionseffekte und Vorverarbeitungsexposure verursacht werden, und schlägt eine leichte Minderungsstrategie vor, die durch Filterung und gleichmäßige Stichprobennahme die Fairness bei der Nutzung von Tool-Marketplaces verbessert.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Die Arbeit stellt MonitorVLM vor, ein neuartiges Vision-Language-Framework, das mithilfe einer domänenspezifischen Datensammlung und innovativer Module zur Klauselfilterung sowie Verhaltensverstärkung Sicherheitsverstöße in Bergbaubetrieben effizient und präzise aus Videoüberwachungsströmen erkennt.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Diese Arbeit stellt die erste systematische Evaluierung selbstüberwachter Lernverfahren für die label-effiziente Schlafstadienklassifizierung mit tragbaren EEG-Geräten vor und zeigt, dass ein domainspezifischer Ansatz die Leistung gegenüber rein überwachten Baselines und allgemeinen EEG-Grundmodellen signifikant verbessert, insbesondere bei knappen annotierten Daten.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

What We Don't C: Manifold Disentanglement for Structured Discovery

Die Arbeit stellt „What We Don't C" vor, eine Methode auf Basis von latentem Flow Matching, die durch das explizite Entfernen konditionaler Informationen aus latenten Darstellungen disentanglierte Restrepräsentationen erzeugt, um bisher nicht erfasste Variationsfaktoren für die Entdeckung und Analyse zugänglich zu machen.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Die Arbeit stellt REMSA vor, einen constraint-bewussten Agenten, der auf einer strukturierten Datenbank mit über 160 Remote-Sensing-Foundation-Modellen basiert, um durch natürliche Sprachabfragen die passendsten Modelle für spezifische Aufgaben automatisch auszuwählen und dabei durch einen von Experten verifizierten Benchmark seine Überlegenheit gegenüber bestehenden Systemen nachweist.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Die vorgestellte Arbeit präsentiert einen hierarchischen Dual-Strategie-Ansatz zum selektiven Vergessen spezifischen Wissens in medizinischen Large Language Models, der durch geometrisch eingeschränkte Gradientenupdates und token-level Interventionen eine hohe Privatsphäre bei gleichzeitiger Erhaltung grundlegender medizinischer Kompetenzen gewährleistet.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Das Paper stellt CostNav vor, einen physikalisch fundierten Benchmark, der autonome Navigationsagenten anhand realer wirtschaftlicher Kosten und Einnahmen bewertet und dabei zeigt, dass aktuelle Methoden trotz hoher Erfolgswahrscheinlichkeit bei vereinfachten Aufgaben kommerziell nicht tragfähig sind.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Das Paper stellt IndiMathBench vor, ein von Menschen verifizierter Benchmark mit 312 formalisierten Lean-4-Theoremen aus indischen Mathematik-Olympiaden, der mittels einer KI-gestützten Pipeline erstellt wurde und die anhaltenden Herausforderungen sowie die Lücken zwischen syntaktischer Gültigkeit und semantischer Korrektheit beim automatischen Formalisieren mathematischer Probleme aufzeigt.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Das Paper stellt Trio vor, ein geschlossenes Framework für die molekulare Entdeckung, das fragmentbasierte Sprachmodelle, Reinforcement Learning und Monte-Carlo-Baumsuche integriert, um interpretierbare, synthetisch machbare und hochwirksame Liganden mit verbesserter Bindungsaffinität, Arzneimitteleigenschaften und Diversität zu generieren.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI