cs.AI Arbeiten | Gist.Science

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Die Arbeit „BiasBusters" identifiziert systematische Verzerrungen bei der Werkzeugauswahl durch Large Language Models, die durch semantische Übereinstimmung, Positionseffekte und Vorverarbeitungsexposure verursacht werden, und schlägt eine leichte Minderungsstrategie vor, die durch Filterung und gleichmäßige Stichprobennahme die Fairness bei der Nutzung von Tool-Marketplaces verbessert.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Die Arbeit stellt MonitorVLM vor, ein neuartiges Vision-Language-Framework, das mithilfe einer domänenspezifischen Datensammlung und innovativer Module zur Klauselfilterung sowie Verhaltensverstärkung Sicherheitsverstöße in Bergbaubetrieben effizient und präzise aus Videoüberwachungsströmen erkennt.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Diese Arbeit stellt die erste systematische Evaluierung selbstüberwachter Lernverfahren für die label-effiziente Schlafstadienklassifizierung mit tragbaren EEG-Geräten vor und zeigt, dass ein domainspezifischer Ansatz die Leistung gegenüber rein überwachten Baselines und allgemeinen EEG-Grundmodellen signifikant verbessert, insbesondere bei knappen annotierten Daten.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Die Arbeit stellt ein erklärbares, voreingenommenheitsbewusstes generatives Framework vor, das durch die Kombination von cross-modaler Aufmerksamkeitsfusion, Grad-CAM++-Attribution und einem „Reveal-to-Revise"-Feedback-Schleifenmechanismus sowohl die Leistung als auch die Fairness und Robustheit multimodaler KI-Systeme signifikant verbessert.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Der Artikel stellt MVCustom vor, ein neuartiges Diffusions-Framework, das durch geometrisches latentes Rendern und eine konsistenzbewusste Latent-Vervollständigung erstmals eine präzise Anpassung von Subjekten auf Basis von Textprompts mit einer geometrisch konsistenten Mehransichtsgenerierung unter Kamerasteuerung vereint.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Diese Arbeit stellt einen theoretischen Rahmen vor, der mithilfe der sogenannten Hermite-Eigenstruktur-Ansatz (HEA) und nur empirischen Datenstatistiken Lernkurven für Kernel-Regression auf realen Datensätzen vorhersagt und zudem zeigt, dass MLPs im Feature-Learning-Regime die von der HEA vorhergesagten Hermite-Polynome erlernen.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

Die Arbeit stellt KVTC vor, einen leichten Transform-Coder, der durch PCA-basierte Dekorrelation, adaptive Quantisierung und Entropiecodierung KV-Caches von Large Language Models um bis zu 20-fach komprimiert, um den GPU-Speicherbedarf zu senken und die Genauigkeit bei der Wiederverwendung von Caches in Chat- und Code-Editier-Szenarien zu erhalten.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Diese Studie bewertet die Fähigkeit von Large Language Models, Fachliteratur zu Hochtemperatur-Supraleitern auf Expertenniveau zu verstehen, und zeigt, dass retrieval-augmentierte Generierungssysteme (RAG) mit kuratierten Daten geschlossene Modelle in Bezug auf Vollständigkeit und Evidenzunterstützung übertreffen.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

Die Arbeit stellt DeepEyesV2 vor, ein agentic multimodales Modell, das durch einen zweistufigen Trainingsansatz mit Kaltstart und Verstärkungslernen sowie einem neuen Benchmark namens RealX-Bench die Fähigkeit entwickelt, externe Werkzeuge wie Code-Execution und Websuche kontextabhängig und effektiv in komplexe multimodale Aufgaben zu integrieren.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Die Arbeit stellt „What We Don't C" vor, eine Methode auf Basis von latentem Flow Matching, die durch das explizite Entfernen konditionaler Informationen aus latenten Darstellungen disentanglierte Restrepräsentationen erzeugt, um bisher nicht erfasste Variationsfaktoren für die Entdeckung und Analyse zugänglich zu machen.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Der Artikel stellt D-GAP vor, eine dataset-unabhängige und gradientengesteuerte Augmentierungsmethode, die durch gezielte Eingriffe sowohl im Frequenz- als auch im Pixelfeld die Out-of-Domain-Robustheit von Computer-Vision-Modellen signifikant verbessert.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Die Arbeit stellt STREAM-VAE vor, ein Variational-Autoencoder-Modell mit dualer Pfad-Routing-Architektur, das durch die getrennte Erfassung langsamer Drifts und schneller Spitzen in Fahrzeugtelemetriedaten die Zuverlässigkeit der Anomalieerkennung im Vergleich zu bestehenden Methoden verbessert.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Die Arbeit stellt REMSA vor, einen constraint-bewussten Agenten, der auf einer strukturierten Datenbank mit über 160 Remote-Sensing-Foundation-Modellen basiert, um durch natürliche Sprachabfragen die passendsten Modelle für spezifische Aufgaben automatisch auszuwählen und dabei durch einen von Experten verifizierten Benchmark seine Überlegenheit gegenüber bestehenden Systemen nachweist.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Die vorgestellte Arbeit präsentiert einen hierarchischen Dual-Strategie-Ansatz zum selektiven Vergessen spezifischen Wissens in medizinischen Large Language Models, der durch geometrisch eingeschränkte Gradientenupdates und token-level Interventionen eine hohe Privatsphäre bei gleichzeitiger Erhaltung grundlegender medizinischer Kompetenzen gewährleistet.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Das Paper stellt CostNav vor, einen physikalisch fundierten Benchmark, der autonome Navigationsagenten anhand realer wirtschaftlicher Kosten und Einnahmen bewertet und dabei zeigt, dass aktuelle Methoden trotz hoher Erfolgswahrscheinlichkeit bei vereinfachten Aufgaben kommerziell nicht tragfähig sind.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Das Paper stellt IndiMathBench vor, ein von Menschen verifizierter Benchmark mit 312 formalisierten Lean-4-Theoremen aus indischen Mathematik-Olympiaden, der mittels einer KI-gestützten Pipeline erstellt wurde und die anhaltenden Herausforderungen sowie die Lücken zwischen syntaktischer Gültigkeit und semantischer Korrektheit beim automatischen Formalisieren mathematischer Probleme aufzeigt.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Die Arbeit stellt C3 vor, eine Methode zur Unsicherheitsquantifizierung, die kontinuierlich kalibrierte Videomodelle mit subpatch-genauen, pixelbasierten Konfidenzschätzungen ermöglicht, um Halluzinationen in der kontrollierten Videogenerierung zu erkennen und zu lokalisieren.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Das Paper stellt Trio vor, ein geschlossenes Framework für die molekulare Entdeckung, das fragmentbasierte Sprachmodelle, Reinforcement Learning und Monte-Carlo-Baumsuche integriert, um interpretierbare, synthetisch machbare und hochwirksame Liganden mit verbesserter Bindungsaffinität, Arzneimitteleigenschaften und Diversität zu generieren.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Dieses Paper stellt effiziente Random-Forest-Varianten vor, die das Prinzip der Minimierung des maximalen Risikos (MaxRM) über verschiedene Umgebungen hinweg anwenden, um die Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien zu verbessern, und liefert sowohl konsistente Algorithmen als auch neue theoretische Garantien für verschiedene Risikomaße.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

← Zurück Weiter →

cs.AI