cs.AI Arbeiten | Gist.Science

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Die Arbeit stellt CORA vor, eine Methode zur Kreditvergabe im kooperativen Multi-Agenten-Reinforcement-Learning, die mithilfe des Kerns der kooperativen Spieltheorie und zufälliger Koalitionsstichproben globale Vorteile effizient auf Agenten verteilt, um koordiniertes Verhalten zu fördern und die Leistung gegenüber bestehenden Baselines zu verbessern.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Die Arbeit stellt ChannelTokenFormer vor, ein Transformer-basiertes Framework, das durch die gleichzeitige Modellierung von Kanalabhängigkeiten, asynchroner Abtastung und fehlenden Werten eine robuste multivariate Zeitreihenvorhersage unter realen Bedingungen ermöglicht.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Die Arbeit stellt ConLID vor, eine Methode des überwachten kontrastiven Lernens, die die domänenunabhängige Sprachidentifikation für ressourcenarme Sprachen verbessert und deren Leistung auf Out-of-Domain-Daten um 3,2 Prozentpunkte steigert, ohne die Ergebnisse für ressourcenstarke Sprachen zu beeinträchtigen.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Die Arbeit stellt OPENXRD vor, ein umfassendes Benchmark-Framework zur Evaluierung von LLMs und MLLMs in der Kristallographie-Fragebeantwortung, das zeigt, dass mittelgroße Modelle am meisten von hochwertigen, expertenüberprüften Kontextinformationen profitieren, während sehr große Modelle oft Sättigungseffekte oder Interferenzen aufweisen.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

On the mechanical creation of mathematical concepts

Der Artikel stellt ein Modell mathematischen Problemlösens als Glaubensaktualisierung vor, das zwischen impliziten Konzepten zur Optimierung bestehender Suchräume und expliziten Konzepten als neuartigen, für die mathematische Entdeckung essenziellen Werkzeugen unterscheidet, und argumentiert, dass aktuelle KI-Systeme zwar erstere beherrschen, aber noch nicht in der Lage sind, letztere zu schaffen.

Asvin G2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

Die Studie stellt QSpark vor, ein durch Feinabstimmung mit ORPO und GRPO auf einem synthetischen Datensatz optimiertes Qwen2.5-Coder-32B-Modell, das zwar die Zuverlässigkeit der Qiskit-Codegenerierung im Vergleich zu allgemeinen Baselines signifikant verbessert, jedoch bei komplexen fortgeschrittenen Aufgaben weiterhin an Grenzen stößt.

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Die Arbeit stellt „Latent Policy Steering" (LPS) vor, eine Methode, die durch Vortraining eines Weltmodells mit embodiment-unabhängigem optischem Fluss und anschließendem Feinabstimmen auf wenigen Zielsystem-Demonstrationen die Leistung visuomotorischer Robotik-Policies in datenarmen Szenarien erheblich verbessert.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Die Arbeit stellt MMGraphRAG vor, ein neuartiges Framework, das visuelle Szenengraphen mit textbasierten Wissensgraphen durch die Methode SpecLink und den CMEL-Datensatz verbindet, um Halluzinationen in multimodalen LLMs zu reduzieren und gleichzeitig interpretierbare, strukturierte Schlussfolgerungen zu ermöglichen.

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Diese Studie entwickelt einen LLM-Agenten-Rahmen, der die US-amerikanische Haltung gegenüber China von 2005 bis 2025 simuliert und zeigt, dass ein „Teufels-Advokat"-Agent die durch Medien framing verursachte negative Tendenz am effektivsten mindert, während die Ergebnisse auch auf modellinterne, geografisch bedingte Vorurteile hinweisen.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Die Arbeit stellt SFDA-PFT vor, eine effiziente, quellenfreie Domänenanpassungsmethode, die durch personalisierte Feature-Translation im latenten Raum die Gesichtsausdruckserkennung in Privatsphären-sensitiven Szenarien verbessert, indem sie sich ausschließlich auf ungelabelte neutrale Zieldaten verlässt und dabei auf die Verfügbarkeit von Quelldaten oder die Synthese von Bildern verzichtet.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

Der Artikel stellt „AI Blob!" vor, ein experimentelles System, das mittels Large Language Models, semantischer Einbettungen und automatischer Spracherkennung italienische Fernseharchive transkribiert, semantisch indiziert und durch algorithmische Montage neu kontextualisiert, um ironische und thematische Erzählsequenzen zu erzeugen.

Roberto Balestri2026-03-11💬 cs.CL

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Das Paper stellt EgoCross vor, ein umfassendes Benchmark-Tool, das die Generalisierungsfähigkeit multimodaler großer Sprachmodelle (MLLMs) bei der egozentrischen Video-Fragebeantwortung über vier herausfordernde Domänen hinaus des alltäglichen Lebens hinweg bewertet und dabei erhebliche Defizite der aktuellen Modelle aufzeigt.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Diese Studie stellt einen neuartigen Ansatz vor, bei dem mithilfe von KI-generiertem Gesang und virtuellen Avataren (insbesondere mit dem Tool HeyGem) Lehrpläne in unterhaltsame audiovisuelle Präsentationen umgewandelt werden, um das Engagement der Studierenden zu steigern und die Merkfähigkeit wichtiger Kursinformationen zu verbessern.

Xinxing Wu2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Der Artikel stellt TaoSR1 vor, ein dreistufiges Framework, das Large Language Models durch Supervised Fine-Tuning mit Chain-of-Thought, Direct Preference Optimization und Group Relative Policy Optimization direkt für die E-Commerce-Relevanzsuche einsetzt, um komplexe Schlussfolgerungen zu ermöglichen und dabei Halluzinationen zu minimieren sowie eine effiziente Online-Bereitstellung zu gewährleisten.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Die Arbeit stellt CMASE vor, ein Rahmenwerk für computergestützte Multi-Agenten-Gesellschaftsexperimente, das generative Agentenmodelle mit virtuellen ethnografischen Methoden verbindet, um Forscher als eingebettete Teilnehmer in Echtzeit zu ermöglichen und so komplexe soziale Interventionen mit kausaler Erklärungskraft und empirischer Genauigkeit zu simulieren.

Hanzhong Zhang, Muhua Huang, Jindong Wang2026-03-11🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Die Arbeit stellt VistaWise vor, ein kosteneffizientes Agenten-Framework für Minecraft, das durch die Integration von visuellen und textuellen Daten in einen cross-modalen Wissensgraphen sowie die Feinabstimmung eines Objekterkennungsmodells mit nur wenigen hundert Trainingsbeispielen state-of-the-art-Leistung bei offenen Welten-Aufgaben erzielt.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao Wang2026-03-11🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Die Studie stellt SEER vor, ein adaptives Framework, das durch intelligente Kompression von Chain-of-Thought-Verläufen die Effizienz und Genauigkeit von Large Language Models in Software-Engineering- und Mathematikaufgaben verbessert, indem es unnötige Ausführlichkeit reduziert und Latenzzeiten senkt.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Die Arbeit demonstriert, wie das KI-Tool AlphaEvolve durch die automatische Entwicklung von Code-Mutationen und effizienteren Verifikationsverfahren neue Härte-Approximationsergebnisse für kombinatorische Optimierungsprobleme wie MAX-CUT, MAX-4-CUT und das metrische Traveling Salesman Problem liefert.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Das Paper stellt VoiceBridge vor, ein einstufiges latentes Brückenmodell, das mittels eines energieerhaltenden VAE, eines gemeinsamen neuronalen Priors und eines kombinierten Trainingsansatzes effizient und ohne Distillation hochwertige 48-kHz-Sprache aus vielfältigen Verzerrungen wiederherstellt.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun Zhu2026-03-11🤖 cs.AI

← Zurück Weiter →