cs.AI Arbeiten | Gist.Science

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Die Arbeit kritisiert, dass aktuelle Benchmarks für tabellarische Basis-Modelle wie TabPFN nur Punktschätzer bewerten, und fordert die Einführung von angemessenen Bewertungskennzahlen für probabilistische Regression, insbesondere den Continuous Ranked Probability Score (CRPS), um die Unsicherheit von Vorhersagen zu erfassen und die Modelle entsprechend anzupassen.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Diese Studie stellt zwei neue Fusionsstrategien vor, die eine registrationsbewusste Bildverarbeitung und eine Zuverlässigkeits-gesteuerte Aufmerksamkeitsfusion nutzen, um die Erkennung von unbemannten Luftfahrzeugen (UAVs) durch die Integration heterogener thermischer und visueller Sensordaten signifikant zu verbessern.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Diese Arbeit untersucht alternative Distanzmetriken zur Messung von Gradientenveraltetheit im asynchronen Federated Learning und zeigt, dass deren Integration in den Aggregationsprozess die Konvergenzgeschwindigkeit, Modellleistung und Trainingsstabilität unter heterogenen Bedingungen und nicht-IID-Daten verbessert.

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Die Arbeit stellt SplitAgent vor, eine neuartige verteilte Architektur, die durch kontextbewusste dynamische Bereinigung und differenzielle Privatsphäre eine datenschutzkonforme Zusammenarbeit zwischen Unternehmens- und Cloud-Agenten ermöglicht, ohne die Aufgabenleistung zu beeinträchtigen.

Jianshu She2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Diese Studie analysiert mechanistisch, wie sich die Sicherheit von Large Language Models durch einen Wettstreit zwischen dem inhärenten Fortsetzungsdrang des Modells und den durch Alignment-Training erworbenen Sicherheitsmechanismen unterminieren lässt, und identifiziert dabei spezifische Aufmerksamkeitsköpfe als kritische Faktoren für solche Jailbreak-Angriffe.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Diese Studie nutzt Deep-Learning-Modelle und Ultra-Weitfeld-Bildgebung auf dem UWF4DR-Datensatz, um die Diagnose von diabetischer Retinopathie und makulärem Ödem zu verbessern, wobei insbesondere Vision-Transformer, Frequenzbereichsdarstellungen und Feature-Level-Fusion eine robuste und erklärbare Leistung zeigen.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Fibration Policy Optimization

Die Arbeit stellt Fibration Policy Optimization (FiberPO) vor, ein neuartiges Framework, das durch die Aggregational Policy Censoring Objective (APC-Obj) und die algebraische Fiber Bundle Gating (FBG) eine prinzipielle, mehrskalige Stabilitätskontrolle für die Optimierung von Large Language Models über Token-, Trajektorien- und Domänenebenen hinweg ermöglicht.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Das Paper stellt FinToolBench vor, das erste ausführbare Benchmark-System mit 760 realen Finanzwerkzeugen und einem spezialisierten Evaluierungsrahmen, um die Leistung von LLM-Agenten in komplexen, regulatorisch anspruchsvollen Finanzszenarien zu bewerten.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

Die Studie zeigt, dass sich die rechenintensive Bias-Erkennung in Finanz-LLMs durch die Nutzung konsistenter Muster über verschiedene Modelle hinweg erheblich beschleunigen lässt, indem beispielsweise 73 % der Verzerrungen von FinMA bereits mit nur 20 % der Eingabepaare identifiziert werden können, wenn man sich auf Erkenntnisse aus DistilRoBERTa stützt.

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Das Paper stellt SAIL vor, ein Framework für das In-Context-Imitationslernen, das die Robustheit von Robotern bei variierenden Umgebungen durch testzeitbasiertes Skalieren mittels Monte-Carlo-Baumsuche, eines VLM-basierten Bewertungssystems und einer automatisierten Archivierung erfolgreicher Trajektorien signifikant verbessert.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

Die Arbeit stellt SCL-GNN vor, ein neuartiges Framework, das durch den Einsatz des Hilbert-Schmidt-Unabhängigkeitskriteriums (HSIC) zur Identifizierung und Minderung irreführender statistischer Korrelationen die Generalisierungsfähigkeit von Graph Neural Networks sowohl auf IID- als auch auf OOD-Daten signifikant verbessert.

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Diese Studie analysiert auf Basis von 172 Milliarden Token die Halluzinationsraten verschiedener LLMs in Dokumenten-Q&A-Szenarien und zeigt, dass die Modellwahl den größten Einfluss hat, während sich die Fehlerquote mit zunehmendem Kontextumfang drastisch erhöht und Hardware-Plattformen kaum eine Rolle spielen.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

Die Arbeit stellt AdaCultureSafe vor, ein Framework, das durch die Erstellung eines spezialisierten Datensatzes und eine wissensbasierte Methode die kulturelle Sicherheit von Large Language Models verbessert, indem sie diese explizit mit kulturellem Wissen verknüpft, um deren bisherige mangelnde Korrelation zu überwinden.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

Die Studie stellt TA-RNN-Medical-Hybrid vor, ein interpretierbares, zeitaufmerksames Deep-Learning-Framework, das durch die Integration kontinuierlicher Zeitkodierung und medizinischer Konzeptdarstellungen die Sterblichkeitsrisiko-Vorhersage in Intensivstationen sowohl präziser als auch klinisch nachvollziehbarer macht.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Diese Studie untersucht die Eignung von LLMs für die Begutachtung von EPSRC-Förderanträgen durch strukturierte Perturbationen und stellt fest, dass zwar ein abschnittsbasierter Ansatz die beste Leistung zeigt, die Modelle jedoch eine hohe Variabilität aufweisen und sich zu stark auf Compliance-Checks statt auf eine ganzheitliche Bewertung konzentrieren.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Die Arbeit stellt BladeChain vor, ein auf Hyperledger Fabric basierendes Blockchain-System, das durch die Integration von KI-Modell-Herkunft, automatisierten Inspektionsauslösungen und einer unveränderlichen, mehrstufigen Ledger-Struktur eine fälschungssichere und vollständig nachvollziehbare Lebenszyklus-Verfolgung für Flugzeugtriebwerksschaufeln ermöglicht.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Die Studie zeigt, dass Sharpness-Aware Minimization (SAM) bei tiefen linearen Netzwerken im Gegensatz zum Gradientenabstieg zu einem stark initialisierungsabhängigen Verhalten führt, das bei $\ell_\infty$ -SAM zu nicht-intuitiven Grenzwerten und bei $\ell_2$ -SAM zu einer sequenziellen Verstärkung zunächst schwacher Merkmale führt, was die Unzulänglichkeit rein asymptotischer Analysen der impliziten Verzerrung aufdeckt.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Dieser Übersichtsartikel analysiert den aktuellen Stand der multimodalen mathematischen Schlussfolgerung, indem er ein einheitliches Paradigma aus Wahrnehmung, Ausrichtung und Verifizierung vorschlägt, um bestehende Herausforderungen bei der Diagrammintepretation und der Bewertung von Zwischenschritten zu adressieren.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Diese Arbeit stellt Graph-Instructed Neural Networks (GINNs) als eine effiziente und skalierbare Methode vor, um parametrische partielle Differentialgleichungen mit variierenden Randbedingungen zu simulieren und damit die Grenzen klassischer reduzierter Ordnungsverfahren zu überwinden.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

← Zurück Weiter →