Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Diese Arbeit stellt ein konfidenzbewusstes, feinabgestuftes Debatten-Framework (CFD) vor, das Open-Source-LLMs zur automatischen Anreicherung von Trainingsdaten für die mentale Gesundheit und Online-Sicherheit nutzt und dabei durch die Verwendung von Debattentranskripten signifikante Verbesserungen bei nachgelagerten Aufgaben erzielt.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Diese Arbeit stellt eine effiziente Aktivierungssteuerungsmethode für Masked Diffusion Language Models vor, die durch das Einfügen einer einzigen, aus Kontrast-Prompts extrahierten Richtung in die Residual-Aktivierungen eine systematische Verhaltensänderung (z. B. Sicherheitsverweigerung) ohne Optimierung ermöglicht und dabei architekturspezifische sowie diffusionsspezifische Besonderheiten wie die Wirksamkeit von Vor-Instruktion-Token aufdeckt.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Die Arbeit stellt MedXIAOHE vor, ein medizinisches Vision-Language-Modell, das durch einen entitätsbasierten kontinuierlichen Vortrainingsansatz, verstärktes Lernen und agentenbasiertes Training mit Werkzeugen sowie evidenzbasiertes Schließen state-of-the-art-Leistung in der medizinischen Diagnostik und Berichterstattung erzielt und dabei die Zuverlässigkeit und Nachvollziehbarkeit klinischer Anwendungen verbessert.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Das Paper stellt QIME vor, ein Framework, das durch die Verankerung in medizinischen Ontologien und die Generierung semantisch atomarer Ja/Nein-Fragen interpretierbare biomedizinische Texteinbettungen erstellt, die nicht nur die Erklärbarkeit für klinische Entscheidungen verbessern, sondern auch die Leistungslücke zu Black-Box-Modellen erheblich verringern.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Das Paper stellt ClinConsensus vor, ein von klinischen Experten erstelltes Benchmark-System für chinesische medizinische LLMs, das offene Fälle über den gesamten Versorgungsverlauf hinweg abdeckt und durch eine neuartige Bewertungsmethode (CACS@k) sowie ein Dual-Judge-Framework eine zuverlässige, skalierbare Evaluierung komplexer klinischer Szenarien ermöglicht.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL