cs.AI Arbeiten | Gist.Science

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Diese Studie analysiert auf Basis von 172 Milliarden Token die Halluzinationsraten verschiedener LLMs in Dokumenten-Q&A-Szenarien und zeigt, dass die Modellwahl den größten Einfluss hat, während sich die Fehlerquote mit zunehmendem Kontextumfang drastisch erhöht und Hardware-Plattformen kaum eine Rolle spielen.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

Die Arbeit stellt AdaCultureSafe vor, ein Framework, das durch die Erstellung eines spezialisierten Datensatzes und eine wissensbasierte Methode die kulturelle Sicherheit von Large Language Models verbessert, indem sie diese explizit mit kulturellem Wissen verknüpft, um deren bisherige mangelnde Korrelation zu überwinden.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

Die Studie stellt TA-RNN-Medical-Hybrid vor, ein interpretierbares, zeitaufmerksames Deep-Learning-Framework, das durch die Integration kontinuierlicher Zeitkodierung und medizinischer Konzeptdarstellungen die Sterblichkeitsrisiko-Vorhersage in Intensivstationen sowohl präziser als auch klinisch nachvollziehbarer macht.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Diese Studie untersucht die Eignung von LLMs für die Begutachtung von EPSRC-Förderanträgen durch strukturierte Perturbationen und stellt fest, dass zwar ein abschnittsbasierter Ansatz die beste Leistung zeigt, die Modelle jedoch eine hohe Variabilität aufweisen und sich zu stark auf Compliance-Checks statt auf eine ganzheitliche Bewertung konzentrieren.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Die Arbeit stellt BladeChain vor, ein auf Hyperledger Fabric basierendes Blockchain-System, das durch die Integration von KI-Modell-Herkunft, automatisierten Inspektionsauslösungen und einer unveränderlichen, mehrstufigen Ledger-Struktur eine fälschungssichere und vollständig nachvollziehbare Lebenszyklus-Verfolgung für Flugzeugtriebwerksschaufeln ermöglicht.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Die Studie zeigt, dass Sharpness-Aware Minimization (SAM) bei tiefen linearen Netzwerken im Gegensatz zum Gradientenabstieg zu einem stark initialisierungsabhängigen Verhalten führt, das bei $\ell_\infty$ -SAM zu nicht-intuitiven Grenzwerten und bei $\ell_2$ -SAM zu einer sequenziellen Verstärkung zunächst schwacher Merkmale führt, was die Unzulänglichkeit rein asymptotischer Analysen der impliziten Verzerrung aufdeckt.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Dieser Übersichtsartikel analysiert den aktuellen Stand der multimodalen mathematischen Schlussfolgerung, indem er ein einheitliches Paradigma aus Wahrnehmung, Ausrichtung und Verifizierung vorschlägt, um bestehende Herausforderungen bei der Diagrammintepretation und der Bewertung von Zwischenschritten zu adressieren.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Diese Arbeit stellt Graph-Instructed Neural Networks (GINNs) als eine effiziente und skalierbare Methode vor, um parametrische partielle Differentialgleichungen mit variierenden Randbedingungen zu simulieren und damit die Grenzen klassischer reduzierter Ordnungsverfahren zu überwinden.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Die Autoren stellen eine retrieval-basierte Methode zur Generierung von CT-Bildern aus Text vor, die durch den Abruf und die Nutzung anatomischer Annotationen ähnlicher klinischer Fälle als struktureller Proxy die anatomische Konsistenz und räumliche Kontrollierbarkeit von textbedingten Diffusionsmodellen verbessert.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Diese Arbeit stellt ein neues Fine-Tuning-Framework vor, das die Robustheit von Vision Transformern gegenüber Verteilungsverschiebungen verbessert, indem es die Modellentscheidungen durch automatisch generierte, konzeptbasierte Masken auf semantisch relevante Objektmerkmale lenkt und so den Fokus von irreführenden Hintergrundkorrelationen abwendet.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Diese Studie vergleicht die Leistung von Menschen und KI-Modellen bei der egozentrischen Aktionserkennung unter verschiedenen räumlichen und zeitlichen Manipulationen und zeigt, dass Menschen stark auf semantisch kritische, spärliche Hinweise wie Hand-Objekt-Interaktionen angewiesen sind, während KI-Modelle eher kontextuelle Merkmale nutzen und eine andere Robustheit gegenüber zeitlichen Störungen aufweisen.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

Das Paper stellt CORE-Acu vor, ein neuro-symbolisches Framework für die Akupunktur-Entscheidungsunterstützung, das strukturierte Denkprozesse mit einem Wissensgraphen zur Sicherheitsprüfung kombiniert, um die Interpretierbarkeit zu erhöhen und durch einen geschlossenen Verifikationszyklus sowie einen lexikonbasierten Verlustmechanismus hallucinierte oder unsichere Empfehlungen zu eliminieren.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

Diese Studie demonstriert, wie eine neurosymbolische Zusammenarbeit zwischen einem KI-Agenten, symbolischen Werkzeugen und menschlicher strategischer Führung zu einer neuen, formal in Lean 4 verifizierten unteren Schranke für das Ungleichgewicht lateinischer Quadrate im Fall $n \equiv 1 \pmod{3}$ führte.

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

EndoSERV: A Vision-based Endoluminal Robot Navigation System

Das Paper stellt EndoSERV vor, ein neuartiges, vision-basiertes Navigationssystem für endoluminale Roboter, das durch eine Segment-zu-Struktur- und Real-zu-Virtual-Mapping-Strategie sowie Transferlernen die präzise Lokalisierung in komplexen, deformierbaren anatomischen Umgebungen ohne reale Pose-Labels ermöglicht.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Das Paper stellt SPD-RAG vor, ein hierarchisches Multi-Agenten-Framework, das komplexe Fragen über viele Dokumente hinweg durch eine spezialisierte, pro Dokument arbeitende Agentenarchitektur und eine zentrale Synthese effizienter und kostengünstiger beantwortet als herkömmliche RAG- oder Long-Context-LLM-Ansätze.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

Die vorgestellte Arbeit stellt DS-DGA-GCN vor, ein adaptives Graph-Lernmodell, das durch die Kombination von Netzwerk-Feature-Scoring und einem dynamischen Graph-Attention-Mechanismus organisierte Gruppen von Fake-Bewertern in dynamischen Netzwerken, insbesondere bei kalten Start-Szenarien, effektiv erkennt.

Jing Zhang, Ke Huang, Yao Zhang, Bin Guo, Zhiwen Yu2026-03-10💻 cs

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

Diese Studie zeigt, dass Transformer-Modelle in Kombination mit Koopman-Operator-Features, die durch Extended Dynamic Mode Decomposition mit einem optimierten Radial-Basis-Funktions-Wörterbuch extrahiert werden, bei der vierklassigen EKG-Klassifizierung eine überlegene Leistung erzielen und dynamische Systemtheorie effektiv in die Zeitreihenanalyse integrieren.

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG

Towards plausibility in time series counterfactual explanations

Die vorgestellte Arbeit entwickelt eine neue Methode zur Generierung plausibler Gegenbeispiel-Erklärungen für Zeitreihenklassifikation, die durch gradientenbasierte Optimierung und eine soft-DTW-basierte Plausibilitätskomponente realistischere zeitliche Strukturen erzeugt als bestehende Ansätze.

Marcin Kostrzewa, Krzysztof Galus, Maciej Zi\k{e}ba2026-03-10🤖 cs.LG

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Dieser Beitrag fasst zusammen, wie selbstüberwachte und visuell verankerte Rechenmodelle zeigen, dass frühes Spracherlernen ohne starke linguistische Vorerfahrungen durch gemeinsame Lernprinzipien erklärt werden kann, die mit verschiedenen Theorien der Sprachentwicklung vereinbar sind.

Okko Räsänen2026-03-10💬 cs.CL

M $^3$ -ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering

Die Arbeit stellt M³-ACE vor, ein Multi-Agenten-Framework, das durch die Entkopplung von Wahrnehmung und Schlussfolgerung sowie den Einsatz spezieller Werkzeuge zur Zusammenfassung und Verfeinerung visuelle Wahrnehmungsfehler in der multimodalen mathematischen Reasoning korrigiert und damit neue State-of-the-Art-Ergebnisse auf Benchmarks wie MathVision erzielt.

Peijin Xie, Zhen Xu, Bingquan Liu, Baoxun Wang2026-03-10💻 cs

← Zurück Weiter →

cs.AI