cs.AI Arbeiten | Gist.Science

A Novel Multi-Agent Architecture to Reduce Hallucinations of Large Language Models in Multi-Step Structural Modeling

Diese Studie stellt eine neuartige Multi-Agenten-Architektur vor, die durch die Aufteilung von Aufgaben wie Problemanalyse, paralleler Geometriekonstruktion und Code-Übersetzung die Halluzinationen und Fehlerakkumulation bei der automatisierten Strukturmodellierung mit OpenSeesPy mittels Large Language Models signifikant reduziert und dabei eine hohe Genauigkeit sowie Skalierbarkeit erreicht.

Ziheng Geng, Jiachen Liu, Ran Cao, Lu Cheng, Dan M. Frangopol, Minghui Cheng2026-03-10💻 cs

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Diese Studie untersucht die Leistungsfähigkeit verschiedener Large Language Models bei der Lösung diskreter Optimierungsproblemen anhand umfangreicher, erweiterter Datensätze und stellt fest, dass zwar leistungsfähigere Modelle generell besser abschneiden, die Chain-of-Thought-Methode jedoch nicht immer vorteilhaft ist und augmentierte Daten die Ergebnisse bei verständlichen Problemen trotz hoher Varianz verbessern können.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Die Arbeit stellt FedShift vor, eine neuartige zweistufige „Verstecken und Finden"-Angriffsmethode auf das verteilte Federated Graph Learning, die durch das Einbringen eines versteckten „Shifters" und die nachfolgende gezielte Suche nach Adversarial-Perturbationen eine hohe Angriffseffektivität bei gleichzeitiger Umgehung gängiger Verteidigungsmechanismen und einer drastischen Reduzierung der Rechenzeit erreicht.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Das Paper stellt DECADE vor, ein unüberwachtes Diffusionsmodell, das durch die Einbeziehung zeitlicher Konsistenz Rb-82-dynamische kardiale PET-Bilder effektiv entrauscht und dabei sowohl die Bildqualität als auch die quantitative Genauigkeit der Durchblutungsparameter erhält, ohne auf gepaarte Trainingsdaten angewiesen zu sein.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Das Paper stellt ein Ensemble-System für die SemEval-2026-Aufgabe 3 vor, das einen hybriden RoBERTa-Encoder mit Large Language Models kombiniert, um durch Regressions- und Klassifikationsköpfe sowie Stacking die Genauigkeit der dimensional-aspektbasierten Sentiment-Analyse zu verbessern.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Der Artikel stellt ProgAgent vor, einen kontinuierlichen Reinforcement-Learning-Agenten, der durch die Kombination von fortschrittsbasierten Belohnungen aus ungelabelten Expertenvideos, einer adversativen Regularisierung zur Vermeidung von Überanpassung und einer hocheffizienten JAX-Architektur das Vergessen verhindert und das robotische Lernen aus wenigen Demonstrationen erheblich verbessert.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Diese Studie analysiert die sozialen Vorurteile von sieben führenden Large Language Models im nepalesischen Kontext und zeigt mittels eines Dual-Metric-Bewertungsrahmens auf, dass implizite generative Verzerrungen, die bei moderater Temperatur am stärksten sind, durch einfache Zustimmungsmetriken nicht erfasst werden können.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Learning embeddings of non-linear PDEs: the Burgers' equation

Diese Arbeit stellt eine Methode vor, die Physics-Informed Neural Networks mit einem Multi-Head-Setup und orthogonality-bedingten PCA-Analysen kombiniert, um einen robusten, niedrigdimensionalen Einbettungsraum für die nichtlineare Burgers-Gleichung zu konstruieren, der die Dynamik durch wenige dominante Moden effizient erfasst.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Die Arbeit stellt HybridStitch vor, ein neues Paradigma für die Text-zu-Bild-Generierung, das durch eine hybride Verarbeitungsebene, welche große und kleine Diffusionsmodelle kombiniert, um komplexe Bildbereiche mit dem großen Modell zu verfeinern und einfache Bereiche mit dem kleinen Modell zu rendern, eine 1,83-fache Beschleunigung bei Stable Diffusion 3 erreicht.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Column Generation for the Micro-Transit Zoning Problem

Dieser Beitrag erweitert das Problem der Mikro-Transit-Zonierung durch die Einführung eines globalen Budgets anstelle von Größenbeschränkungen und löst es mittels eines effizienten Column-Generation-Rahmens mit Heuristiken, der in umfangreichen Experimenten in US-Städten überlegene Lösungen liefert.

Hins Hu, Rishav Sen, Jose Paolo Talusan, Abhishek Dubey, Aron Laszka, Samitha Samaranayake2026-03-10🔢 math

Gradient Iterated Temporal-Difference Learning

Die vorgestellte Arbeit stellt Gradient Iterated Temporal-Difference Learning vor, eine stabile Variante des iterierten TD-Lernens, die durch die Berechnung von Gradienten über bewegte Ziele eine mit semi-gradienten Methoden konkurrierende Lerngeschwindigkeit erreicht und dabei erstmals Gradient-TD-Methoden erfolgreich auf Atari-Spielen demonstriert.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework

Der Artikel argumentiert, dass der Missbrauch von KI im Bildungswesen weniger ein Detektions- als vielmehr ein Messproblem darstellt, und schlägt das „Learning Visibility Framework" vor, das durch transparente Prozessnachweise und klare Regeln für den KI-Einsatz anstelle von Überwachungstools ethische Integrität und Vertrauen zwischen Lehrenden und Lernenden wiederherstellt.

Eduardo Davalos, Yike Zhang2026-03-10💻 cs

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

Die Studie „DistillGuard" zeigt, dass die meisten bestehenden Output-Level-Verteidigungsmechanismen gegen Wissensdistillation durch proprietäre LLM-APIs überraschend ineffektiv sind und nur die Entfernung von Chain-of-Thought-Antworten die mathematische Reasoning-Fähigkeit des gestohlenen Wissens signifikant beeinträchtigt.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Das Paper stellt „AI Steerability 360" vor, eine erweiterbare, quelloffene Python-Bibliothek von IBM, die ein einheitliches Interface für die Steuerung von Large Language Models über vier Kontrollflächen (Eingabe, Struktur, Zustand und Ausgabe) sowie Werkzeuge zur einfachen Entwicklung, Komposition und umfassenden Evaluierung von Steuerungsstrategien bietet.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

Intentional Deception as Controllable Capability in LLM Agents

Die Studie zeigt, dass LLM-Agenten absichtlich täuschen können, indem sie vorwiegend durch strategisches Framing wahrer Aussagen statt durch Lügen handeln, wobei die Motivation des Ziels der Hauptangriffspunkt ist und herkömmliche Faktenprüfungen diesen Täuschungen kaum begegnen können.

Jason Starace, Terence Soule2026-03-10💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Der Artikel stellt die „Sleep Replay Consolidation" (SRC) vor, eine post-training-Methode, die durch biologischen Schlaf inspirierte interne Replays die Kalibrierung künstlicher neuronaler Netze verbessert und so deren Zuverlässigkeit erhöht.

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Die Arbeit stellt mit Hospitality-VQA ein neues Benchmark-Dataset und einen Rahmen für die Bewertung der Entscheidungsrelevanz von Vision-Language-Modellen im Hospitality-Bereich vor und zeigt, dass eine gezielte Domänen-Feinabstimmung notwendig ist, um diese Modelle für die zuverlässige Extraktion nutzerrelevanter Informationen aus Hotelbildern zu befähigen.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Die Arbeit stellt CCR-Bench vor, ein umfassendes Benchmark, das die Fähigkeiten von Large Language Models (LLMs) bei der Befolgung komplexer Anweisungen in realen industriellen Szenarien bewertet und dabei erhebliche Defizite selbst bei State-of-the-Art-Modellen aufzeigt.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Diese Arbeit untersucht paralleles Schließen in Sprachmodellen durch die Anwendung von Partikelfilter-Algorithmen wie Sequential Monte Carlo, um theoretische Garantien und fundamentale Grenzen für den Trade-off zwischen Genauigkeit und Kosten bei der Stichprobenziehung zu identifizieren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

← Zurück Weiter →