cs.AI Arbeiten | Gist.Science

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Die Arbeit stellt DARC vor, eine retraining-freie Inferenzmethode, die durch risikobewusste, distributionell robuste Decodierung die Abstimmung von Sprachmodellen auf heterogene menschliche Präferenzen verbessert, indem sie Diskrepanzen und Tail-Risiken reduziert, ohne die durchschnittliche Qualität zu beeinträchtigen.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Diese Arbeit stellt einen schrittweisen Rahmen zur aktiven Gewinnung externen Wissens vor, der es großen Sprachmodellen ermöglicht, komplexe implizite Fragen im offenen Bereich durch iteratives Abfragen und logisches Schließen zu beantworten und dabei auf dem StrategyQA-Datensatz einen neuen State-of-the-Art für Modelle der ~10-Milliarden-Parameter-Klasse zu erreichen.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Diese Arbeit stellt einen hybriden, erklärbaren Deep-Learning-Ansatz vor, der auf 1D-CNN- und GRU-Modellen sowie Explainable-AI-Techniken basiert, um die Zuverlässigkeit und Nachvollziehbarkeit der Fehlererkennung und -diagnose in der Validierung von Automobilsoftwaresystemen zu verbessern.

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

Das Paper stellt den „Condition Insight Agent" vor, ein eingesetztes Entscheidungsunterstützungssystem, das durch die Integration heterogener Wartungsdaten, die Einschränkung von LLM-Reasoning auf deterministische Evidenz und eine regelbasierte Verifizierungsschleife zuverlässige, evidenzbasierte Erklärungen und Handlungsempfehlungen für die industrielle Instandhaltung liefert.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Das Papier stellt ESC vor, eine kalibrierungsmethode auf Basis von Evolutionsstrategien, die die spezifischen Herausforderungen von Audio-Aktivierungen bei der Low-Bit-Quantisierung adressiert und erstmals nahezu verlustfreie INT4-Quantisierung sowie volle INT8-Leistung für Sprachmodelle ermöglicht.

Lucas Rakotoarivony2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

Die Studie zeigt, dass das kontinuierliche Chain-of-Thought-Verfahren (CODI) im Vergleich zur herkömmlichen Feinabstimmung nicht nur eine bis zu 50-fache Kompression der Denkspuren ermöglicht, sondern auch durch seine sprachinvarianten latenten Repräsentationen insbesondere bei ressourcenarmen Sprachen und Zero-Shot-Szenarien deutlich robustere multilinguale Schlussfolgerungen erzielt.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Diese Studie zeigt, dass die versteckten Zustände end-to-end Full-Duplex-Sprachmodelle wie SALM-Duplex und Moshi erhebliche Privatsphärenrisiken für die Sprecheridentität bergen, und demonstriert, dass vorgeschlagene Streaming-Anonymisierungsmethoden diese Lecks signifikant reduzieren können, ohne dabei die Antwortlatenz oder die Sprachqualität zu beeinträchtigen.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Die Arbeit stellt TildeOpen LLM vor, ein 30-Milliarden-Parameter-Modell, das durch Curriculum-Learning und gezielte Datenkuratierung die Leistung für 34 europäische Sprachen, insbesondere für baltische, finno-ugrische und slawische Sprachen, verbessert und dabei eine deutlich gerechtere sprachliche Repräsentation bei begrenzten Rechenressourcen erreicht.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Die Arbeit stellt MM-TS vor, eine Methode für das kontrastive Lernen mit langschwanzigen Daten, die durch dynamische Temperatur- und Margin-Schedules in multimodalen Settings die Leistung verbessert und den InfoNCE-Loss mit dem Max-Margin-Ansatz vereint.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Die Arbeit kritisiert, dass aktuelle Benchmarks für tabellarische Basis-Modelle wie TabPFN nur Punktschätzer bewerten, und fordert die Einführung von angemessenen Bewertungskennzahlen für probabilistische Regression, insbesondere den Continuous Ranked Probability Score (CRPS), um die Unsicherheit von Vorhersagen zu erfassen und die Modelle entsprechend anzupassen.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Diese Studie stellt zwei neue Fusionsstrategien vor, die eine registrationsbewusste Bildverarbeitung und eine Zuverlässigkeits-gesteuerte Aufmerksamkeitsfusion nutzen, um die Erkennung von unbemannten Luftfahrzeugen (UAVs) durch die Integration heterogener thermischer und visueller Sensordaten signifikant zu verbessern.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Diese Arbeit untersucht alternative Distanzmetriken zur Messung von Gradientenveraltetheit im asynchronen Federated Learning und zeigt, dass deren Integration in den Aggregationsprozess die Konvergenzgeschwindigkeit, Modellleistung und Trainingsstabilität unter heterogenen Bedingungen und nicht-IID-Daten verbessert.

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Die Arbeit stellt SplitAgent vor, eine neuartige verteilte Architektur, die durch kontextbewusste dynamische Bereinigung und differenzielle Privatsphäre eine datenschutzkonforme Zusammenarbeit zwischen Unternehmens- und Cloud-Agenten ermöglicht, ohne die Aufgabenleistung zu beeinträchtigen.

Jianshu She2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Diese Studie analysiert mechanistisch, wie sich die Sicherheit von Large Language Models durch einen Wettstreit zwischen dem inhärenten Fortsetzungsdrang des Modells und den durch Alignment-Training erworbenen Sicherheitsmechanismen unterminieren lässt, und identifiziert dabei spezifische Aufmerksamkeitsköpfe als kritische Faktoren für solche Jailbreak-Angriffe.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Diese Studie nutzt Deep-Learning-Modelle und Ultra-Weitfeld-Bildgebung auf dem UWF4DR-Datensatz, um die Diagnose von diabetischer Retinopathie und makulärem Ödem zu verbessern, wobei insbesondere Vision-Transformer, Frequenzbereichsdarstellungen und Feature-Level-Fusion eine robuste und erklärbare Leistung zeigen.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Fibration Policy Optimization

Die Arbeit stellt Fibration Policy Optimization (FiberPO) vor, ein neuartiges Framework, das durch die Aggregational Policy Censoring Objective (APC-Obj) und die algebraische Fiber Bundle Gating (FBG) eine prinzipielle, mehrskalige Stabilitätskontrolle für die Optimierung von Large Language Models über Token-, Trajektorien- und Domänenebenen hinweg ermöglicht.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Das Paper stellt FinToolBench vor, das erste ausführbare Benchmark-System mit 760 realen Finanzwerkzeugen und einem spezialisierten Evaluierungsrahmen, um die Leistung von LLM-Agenten in komplexen, regulatorisch anspruchsvollen Finanzszenarien zu bewerten.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

Die Studie zeigt, dass sich die rechenintensive Bias-Erkennung in Finanz-LLMs durch die Nutzung konsistenter Muster über verschiedene Modelle hinweg erheblich beschleunigen lässt, indem beispielsweise 73 % der Verzerrungen von FinMA bereits mit nur 20 % der Eingabepaare identifiziert werden können, wenn man sich auf Erkenntnisse aus DistilRoBERTa stützt.

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Das Paper stellt SAIL vor, ein Framework für das In-Context-Imitationslernen, das die Robustheit von Robotern bei variierenden Umgebungen durch testzeitbasiertes Skalieren mittels Monte-Carlo-Baumsuche, eines VLM-basierten Bewertungssystems und einer automatisierten Archivierung erfolgreicher Trajektorien signifikant verbessert.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

← Zurück Weiter →