cs.AI Arbeiten | Gist.Science

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Die Arbeit stellt KramaBench vor, einen Benchmark mit 104 manuell erstellten Herausforderungen, der zeigt, dass aktuelle KI-Systeme zwar einzelne Datenaufgaben bewältigen können, aber beim Entwurf und der Ausführung funktionsfähiger End-to-End-Pipelines zur Gewinnung von Erkenntnissen aus komplexen Data Lakes erhebliche Schwierigkeiten haben.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Das Paper stellt VisioMath vor, ein Benchmark mit 1.800 mathematischen Aufgaben, bei denen Modelle zwischen visuell ähnlichen Diagrammen unterscheiden müssen, und zeigt, dass aktuelle Large Multimodal Models aufgrund von Fehlern bei der Bild-Text-Ausrichtung scheitern, was durch gezielte Alignierungsstrategien verbessert werden kann.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Diese Studie stellt ein neues, multidimensionales Rahmenwerk zur Bewertung moralischer Kompetenz in großen Sprachmodellen vor und zeigt, dass diese zwar in standardisierten Szenarien menschliche Nicht-Experten übertreffen, jedoch in komplexen Situationen, in denen moralisch relevante Informationen aus irrelevanten Details herausgefiltert werden müssen, signifikant schlechter abschneiden als Menschen, was darauf hindeutet, dass bestehende Evaluierungen die Fähigkeiten der KI überschätzen.

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

Das Paper stellt ContextBench vor, einen Benchmark zur Bewertung von Methoden, die gezielt latente Merkmale in Sprachmodellen aktivieren, und zeigt, dass eine Kombination aus evolutionärer Prompt-Optimierung, LLM-Unterstützung und Diffusionsmodellen den besten Kompromiss zwischen Wirksamkeit und sprachlicher Flüssigkeit erzielt.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Die Arbeit stellt Sysformer vor, ein trainierbares Transformer-Modell, das durch die adaptive Anpassung von Systemprompts in Eingabe-Embedding-Räumen die Sicherheit und Robustheit von eingefrorenen Large Language Models gegenüber schädlichen Eingaben und Jailbreak-Angriffen signifikant verbessert, ohne die Modellparameter selbst nachtrainieren zu müssen.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

Die Arbeit stellt Iterative Quantum Feature Maps (IQFMs) vor, ein hybrides Quanten-Klassisches Framework, das durch den schichtweisen Aufbau flacher Quanten-Feature-Maps mit klassischen Gewichten und kontrastivem Lernen tiefere Architekturen ohne Optimierung variationaler Parameter ermöglicht, um Rauschen zu reduzieren und die Leistung auf realer Hardware zu verbessern.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Die Arbeit stellt SPARC vor, ein Framework, das durch eine globale TopK-Sparsity-Mechanik und einen Cross-Reconstruction-Loss einen einheitlichen, modals- und architekturübergreifenden latenten Raum für Sparse Autoencoder schafft, um die Interpretierbarkeit und den direkten Vergleich von Konzepten in verschiedenen KI-Modellen zu ermöglichen.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Bridging MOOCs, Smart Teaching, and AI: A Decade of Evolution Toward a Unified Pedagogy

Diese Arbeit schlägt einen einheitlichen pädagogischen Rahmen vor, der MOOCs, Smart Teaching und KI integriert, um durch strukturierte Exposition, adaptive Zuweisung und Effizienzsteigerung den Wissenserwerb zu optimieren.

Bo Yuan, Jiazi Hu2026-03-09🤖 cs.AI

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Das Paper stellt ExDD vor, ein neuartiges Framework zur Erkennung von Oberflächenfehlern, das durch die explizite Modellierung dualer Verteilungen, den Einsatz latenter Diffusionsmodelle zur Generierung synthetischer Defekte und einen benachbarkeitsbewussten Bewertungsmechanismus die Grenzen herkömmlicher Ein-Klassen-Anomalieerkennung überwindet und auf dem KSDD2-Datensatz überlegene Leistung erzielt.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Diese Arbeit stellt ein auf einem multimodalen Large Language Model basierendes Multi-Agenten-System vor, das durch die Zerlegung komplexer chemischer Extraktionsaufgaben in spezialisierte Teilaufgaben einen signifikanten Fortschritt bei der automatischen Gewinnung strukturierter Daten aus chemischer Literatur ermöglicht und dabei den bisherigen State-of-the-Art deutlich übertrifft.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Diese Arbeit stellt MAP vor, eine trainingsfreie Decodierungsmethode, die durch die Interpretation der versteckten Zustände als 2D-Semantikkarte und die Anwendung von schichtweiser kreuzweise Aufmerksamkeitsverarbeitung sowie einer global-lokalen Logit-Fusion Halluzinationen in großen visuell-sprachlichen Modellen effektiv reduziert.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Die Arbeit stellt SGDFuse vor, ein bedingtes Diffusionsmodell, das mithilfe von semantischen Masken des Segment-Anything-Modells (SAM) als explizite Priors eine hochqualitative und semantisch bewusste Fusion von Infrarot- und sichtbaren Bildern ermöglicht, um Artefakte zu reduzieren und die Leistung in nachgelagerten visuellen Aufgaben zu verbessern.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

Diese Arbeit stellt einen effizienten Best-First-Suchalgorithmus mit verzögerten partiellen Expansionen vor, der Steuerungsparameter als echte Entscheidungspunkte in unendlichen Suchräumen behandelt und damit eine wettbewerbsfähige Alternative zu bestehenden Ansätzen für Planungsprobleme mit kontinuierlichen Entscheidungsvariablen bietet.

Ángel Aso-Mollar, Diego Aineto, Enrico Scala + 1 more2026-03-09⚡ eess

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Diese Arbeit stellt „Answer-Then-Check" vor, einen neuartigen Sicherheitsansatz, der durch die Nutzung eines speziell erstellten Reasoned Safety Alignment (ReSA)-Datensatzes Sprachmodelle befähigt, Antworten intern zu generieren und deren Sicherheit kritisch zu prüfen, bevor sie ausgegeben werden, wodurch die Robustheit gegen Jailbreak-Angriffe gesteigert und gleichzeitig die Überverweigerung reduziert wird, ohne die allgemeinen reasoning-Fähigkeiten zu beeinträchtigen.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Die Arbeit stellt eine umfassende Meta-Evaluation von Latenzmetriken für simultane Sprach-zu-Text-Übersetzung vor, identifiziert strukturelle Verzerrungen durch Segmentierung und führt mit YAAL, LongYAAL sowie dem SoftSegmenter-Tool verbesserte Lösungen und das OmniSTEval-Toolkit ein, um zuverlässigere Bewertungen zu ermöglichen.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Die Arbeit stellt LikePhys vor, eine trainingsfreie Methode zur Bewertung des intuitiven Physikverständnisses in Video-Diffusionsmodellen durch Likelihood-Vergleiche, die zeigt, dass diese Modelle trotz aktueller Schwierigkeiten mit komplexen Dynamiken mit zunehmender Kapazität und optimierten Inferenzeinstellungen ein verbessertes Verständnis physikalischer Gesetze aufweisen.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Die Arbeit stellt Phys2Real vor, einen Sim-to-Real-RL-Ansatz, der VLM-basierte Schätzungen physikalischer Parameter mit unsicherheitsbewusster, interaktiver Online-Anpassung kombiniert, um die Robustheit und Effizienz robotischer Manipulationsaufgaben in der realen Welt zu verbessern.

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Das Paper stellt CanvasMAR vor, ein neuartiges autoregressives Videovorhersagemodell, das durch die Einführung eines globalen „Canvas"-Vorschlags und einer bewegungsbewussten Lernkurve hochqualitative Videos mit weniger Sampling-Schritten erzeugt und dabei diffusionbasierte Methoden auf Benchmarks wie Kinetics-600 konkurrenzfähig ist.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Die Arbeit stellt einen Ansatz vor, bei dem durch passives Beobachten des Nutzerverhaltens sofortige, spezifische Ziele abgeleitet werden, um große Sprachmodelle dynamisch auf individuelle Aufgaben zu spezialisieren und dadurch qualitativ überlegene, maßgeschneiderte Tools sowie Antworten zu generieren.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

← Zurück Weiter →