cs.AI Arbeiten | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Das Paper stellt LongAudio-RAG vor, ein hybrides Framework, das durch die Umwandlung von stundenlangen Audioaufnahmen in strukturierte, zeitgestempelte Ereignisdaten und deren gezielte Abfrage mittels SQL die präzise Beantwortung natürlicher Sprachfragen mit minimierten Halluzinationen ermöglicht.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Das Paper stellt CogitoRAG vor, ein RAG-Framework, das menschliche kognitive Gedächtnisprozesse nachahmt, indem es semantische Gist-Extraktion, einen multidimensionalen Wissensgraphen und einen Diffusionsmechanismus nutzt, um bei komplexen Fragen die semantische Integrität zu bewahren und die Leistung gegenüber bestehenden Methoden signifikant zu steigern.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Die Autoren stellen mit CondMedQA den ersten Benchmark für kontextabhängige biomedizinische Fragen vor und entwickeln das Condition-Gated Reasoning (CGR)-Framework, das durch bedingungsbasierte Pfadsteuerung in Wissensgraphen zuverlässigere medizinische Schlussfolgerungen ermöglicht.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Die Arbeit stellt neue Werkzeuge für Split-Conformal-Vorhersagen vor, die über die reine Abdeckung hinausgehen, indem sie durch eine Small-Sample-Beta-Korrektur und einen Kalibrierungs- und Auditierungsansatz finite-garantierte operative Kennzahlen wie Entscheidungshäufigkeit und Fehlerexposition für den praktischen Einsatz bereitstellen.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Die Arbeit stellt ABD vor, einen Benchmark zur Bewertung der Fähigkeit von Sprachmodellen, in endlichen ersten Ordnungs-Welten durch das Ableiten sparsamer Ausnahmeregeln die Satisfiabilität von Theorien wiederherzustellen, und zeigt dabei trotz hoher Validität signifikante Defizite in der Sparsamkeit und Generalisierung auf.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Die Arbeit stellt INDUCTION vor, ein Benchmark für die Synthese von Konzepten in der Prädikatenlogik erster Stufe auf endlichen Strukturen, das die Fähigkeit aktueller Modelle zur Generalisierung und zur Vermeidung übermäßiger Formelkomplexität in verschiedenen Szenarien evaluiert.

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Diese Arbeit stellt einen umfassenden Multi-KPI-Benchmark für Multi-Agenten-Reinforcement-Learning-Algorithmen im CityLearn-Umfeld vor und zeigt, dass dezentralisiertes Training mit dezentraler Ausführung (DTDE) zentrale Ansätze in Bezug auf Leistung und Robustheit übertrifft.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Die Autoren stellen MrBERT vor, eine Familie effizienter multilingualer Encoder auf ModernBERT-Basis, die durch gezielte Anpassung an 35 Sprachen sowie spezialisierte Domänen und die Integration von Matryoshka-Repräsentationslernen sowohl state-of-the-art-Leistung als auch kosteneffiziente Inferenz ermöglicht.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Die Arbeit stellt ARLArena vor, ein einheitliches Framework zur Analyse und Stabilisierung des agentic Reinforcement Learning, das auf Basis einer detaillierten Untersuchung der Trainingsinstabilität die neue Methode SAMPO entwickelt, um zuverlässiges und leistungsfähiges Training von LLM-basierten Agenten zu ermöglichen.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine ist ein auf einem einstufigen Diffusionsmodell basierendes Deep-Learning-Framework, das die automatische und schnelle Verfeinerung von Protein- sowie DNA/RNA-Protein-Komplexen mittels Cryo-EM-Dichtekarten ermöglicht und dabei sowohl die Übereinstimmung mit den experimentellen Daten als auch die geometrische Qualität gegenüber herkömmlichen Methoden wie Phenix.real_space_refine signifikant verbessert.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Diese Arbeit untersucht, wie KI-Agenten mit spezialisierten Fähigkeiten durch das Konzept des „Vibe Researching" die Sozialwissenschaften nicht ersetzen, sondern durch eine kognitive Delegation von Aufgaben ergänzen, die trotz ihrer Stärken in Geschwindigkeit und Methodik weiterhin menschliche theoretische Originalität und implizites Feldwissen erfordert.

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

Die Arbeit führt mit „Bipredictability" ein neues Maß für die Effektivität von Systemen ein, das zeigt, dass aktuelle KI zwar über Handlungsfähigkeit (Agency) verfügt, aber durch das Fehlen einer selbstregulierenden Lernfähigkeit keine echte Intelligenz besitzt, und schlägt eine biologisch inspirierte Feedback-Architektur vor, um diese Lücke zu schließen.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

Autoregressive Visual Decoding from EEG Signals

Die Arbeit stellt AVDE vor, ein leichtgewichtiges und effizientes Framework, das durch die Feinabstimmung eines vortrainierten EEG-Modells und eine autoregressive "Next-Scale Prediction"-Strategie visuelle Informationen aus EEG-Signalen rekonstruiert und dabei die Leistungsfähigkeit bestehender Methoden bei deutlich geringerem Rechenaufwand übertrifft.

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

Decomposing Physician Disagreement in HealthBench

Die Studie zeigt, dass die Diskrepanz zwischen Ärzten bei der Bewertung medizinischer KI hauptsächlich strukturell bedingt ist und sich zwar durch das Schließen von Informationslücken in Randfällen, nicht aber durch die Beseitigung inhärenter medizinischer Unsicherheiten reduzieren lässt.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

Die Arbeit stellt CeRA vor, eine neue Methode zur parametereffizienten Feinabstimmung, die durch Manifold-Expansion die linearen Grenzen von LoRA bei komplexen Aufgaben wie mathematischem Schlussfolgern überwindet und dabei bei deutlich niedrigerem Rang eine überlegene Leistung erzielt.

Hung-Hsuan Chen2026-03-10🤖 cs.LG

On Sample-Efficient Generalized Planning via Learned Transition Models

Diese Arbeit zeigt, dass die Formulierung von generalisierter Planung als Lernproblem für explizite Übergangsmodelle, die Weltzustände autoregressiv vorhersagen, im Vergleich zu direkten Aktionssequenzvorhersagen eine bessere Out-of-Distribution-Generalisierung bei deutlich geringerem Daten- und Modellbedarf ermöglicht.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Die Studie zeigt, dass die Erweiterung eines App-Store-Rankers durch Millionen von mit einem spezialisierten, feinabgestimmten LLM generierten Textrelevanz-Labels die Pareto-Grenze verschiebt und zu signifikanten Verbesserungen sowohl bei der Offline-NDCG als auch bei der weltweiten Konversionsrate führt, insbesondere bei Suchanfragen mit wenig Verhaltensdaten.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Die Arbeit stellt Attn-QAT vor, eine Methode zur quantisierungsbewussten 4-Bit-Attention, die durch die Anpassung der Rückwärtsberechnung an niedrige Präzision und die Auflösung impliziter Genauigkeitsannahmen eine stabile FP4-Ausbildung ohne Ausreißer-Minderung ermöglicht und auf der RTX 5090 eine bis zu 1,5-fache Geschwindigkeitssteigerung erzielt.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

PEPA: a Persistently Autonomous Embodied Agent with Personalities

Die Arbeit stellt PEPA vor, ein dreischichtiges kognitives Architekturkonzept für einen körperlichen Agenten, der durch integrierte Persönlichkeitsmerkmale persistente Autonomie erreicht, indem er selbstständig Ziele generiert und sich ohne externe Vorgabe in dynamischen Umgebungen verhält.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

How Well Do Multimodal Models Reason on ECG Signals?

Diese Arbeit stellt einen reproduzierbaren Rahmen vor, der die reasoning-Fähigkeiten multimodaler Modelle bei EKG-Signalen durch eine duale Verifikation von Wahrnehmung (mittels Code-Generierung) und Deduktion (durch Abgleich mit klinischen Kriterien) skalierbar bewertet, um die Validität klinischer Logik jenseits oberflächlicher Metriken zu überprüfen.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

← Zurück Weiter →