cs.AI Arbeiten | Gist.Science

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Die vorgestellte Arbeit stellt ein System vor, das Vision-Language-Modelle durch eine posebewusste In-Context-Learning-Methode (PA-ICVL) befähigt, visuelle Halluzinationen in Cartoon-Bildern deutlich genauer zu erkennen als herkömmliche Ansätze, die nur auf RGB-Bilder angewiesen sind.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Algorithmic Collusion by Large Language Models

Die Studie zeigt, dass auf Large Language Models basierende Preisgestaltungsagenten in Oligopolen autonom zu überkompetitiven Preisen und Gewinnen neigen, wobei bereits subtile Änderungen in den Prompts das Ausmaß dieser Kollusion erheblich beeinflussen und neue regulatorische Herausforderungen aufwerfen.

Sara Fish, Yannai A. Gonczarowski, Ran I. Shorrer2026-03-09🤖 cs.AI

Computational lexical analysis of Flamenco genres

Diese Studie nutzt computergestützte lexikalische Analysen und maschinelles Lernen, um über 2000 Flamenco-Texte automatisch ihren jeweiligen Stilen („palos") zuzuordnen, semantische Felder zu identifizieren und durch Netzwerkanalysen historische Verbindungen sowie die Evolution dieser Musiktradition quantitativ zu beleuchten.

Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez2026-03-09💬 cs.CL

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Diese Arbeit stellt eine neuartige zweistufige Pipeline für die automatische Spracherkennung vor, die unüberwachtes Clustering von X-Vektoren mit einem auf Monte-Carlo-Dropout basierenden bayesschen Batch-Active-Learning kombiniert, um durch strategische Stichprobenauswahl den Labelaufwand zu minimieren und die Modellleistung zu optimieren.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

My part is bigger than yours -- assessment within a group of peers

Der Artikel stellt einfache Modelle vor, die durch eine gewichtete Aggregation der Meinungen von Peers, bei der die Bedeutung der eigenen Einschätzung von der Bewertung durch andere abhängt, einen Konsens über die individuelle Beitragsgröße in gemeinsamen Projekten wie wissenschaftlichen Arbeiten ermöglichen.

Konrad Kułakowski, Jacek Szybowski2026-03-09🤖 cs.AI

Predictive Coding Networks and Inference Learning: Tutorial and Survey

Dieses Tutorial und die Übersicht stellen Predictive Coding Networks als eine vielversprechende, biologisch plausible und mathematisch übergeordnete Alternative zum Backpropagation-Algorithmus vor, die durch Inferenzlernen effizientere und vielseitigere Architekturen für überwachtes und unüberwachtes Lernen ermöglicht.

Björn van Zwol, Ro Jefferson, Egon L. van den Broek2026-03-09🤖 cs.AI

Transforming Agency. On the mode of existence of Large Language Models

Die Studie kommt zu dem Schluss, dass Large Language Models aufgrund fehlender körperlicher und normativer Voraussetzungen keine autonomen Agenten sind, sondern als sprachliche Automaten fungieren, die dennoch durch ihre spezifische Verleiblichung und die menschlich-maschinelle Kopplung neue Formen von „mittendriger" (midtended) Handlungsfähigkeit ermöglichen.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Das Paper stellt FALCON vor, einen selbstüberwachten Vorab-Trainingsansatz für die UAV-Aktionserkennung, der durch objektspezifisches Masking und zukunftsorientierte Rekonstruktion die Dominanz von Hintergrundinformationen überwindet und so die Genauigkeit bei gleichzeitig schnellerer Inferenz im Vergleich zu überwachten Methoden signifikant verbessert.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

UniHR: Hierarchical Representation Learning for Unified Knowledge Graph Link Prediction

Das Paper stellt UniHR vor, ein einheitliches Framework für das hierarchische Repräsentationslernen, das durch die Module HiDR und HiSL verschiedene Arten von Wissensgraphen (hyper-relational, temporal und verschachtelt) in eine gemeinsame Tripel-basierte Darstellung überführt und so eine generalisierbare Link-Vorhersage in komplexen realen Szenarien ermöglicht.

Zhiqiang Liu, Yin Hua, Mingyang Chen + 4 more2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

Das Paper stellt SpecEM vor, ein trainingsfreies Ensemble-Framework für große Sprachmodelle, das durch segmentweise Vorhersage und eine Online-Feedback-Mechanik zur dynamischen Gewichtsanpassung die Leistungsfähigkeit bestehender Ensemble-Methoden verbessert.

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Diese Übersichtsarbeit bietet einen strukturierten Überblick über den Einsatz von Large Multimodal Language Models im gesamten wissenschaftlichen Lebenszyklus, von der Literaturrecherche und Ideengenerierung bis hin zur Inhaltserstellung, Bewertung und den damit verbundenen ethischen Herausforderungen.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Diese Arbeit stellt eine Methode vor, bei der LLMs durch Feinabstimmung auf einem parallelen Korpus, das durch Rückübersetzung natürlicher Code-Switching-Sätze entsteht, trainiert werden, um fließende englisch-spanische Code-Switching-Texte zu generieren, wobei sich zeigt, dass LLM-basierte Bewertungen besser mit menschlichen Präferenzen übereinstimmen als traditionelle Metriken.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks

Die vorgestellte Arbeit führt generative prädiktive Regelung ein, ein überwachtes Lernframework, das Flow-Matching-Policies nutzt, um dynamische und schwer zu demonstrierende Roboter-Aufgaben zu lösen, indem es die Notwendigkeit von Experten-Demonstrationen umgeht und hochfrequentes Feedback ermöglicht.

Vince Kurtz, Joel W. Burdick2026-03-09🤖 cs.AI

FragFM: Hierarchical Framework for Efficient Molecule Generation via Fragment-Level Discrete Flow Matching

Die Arbeit stellt FragFM vor, ein hierarchisches Framework zur effizienten Generierung von Molekülgraphen mittels fragmentbasierter diskreter Flow-Matching, das durch einen grob-zu-fein Autoencoder und eine stochastische Fragment-Strategie nicht nur eine überlegene Eigenschaftskontrolle ermöglicht, sondern auch durch die Einführung des NPGen-Benchmarks zur Bewertung der Erzeugung natürlicher Produkte einen neuen Maßstab für das Drug-Design setzt.

Joongwon Lee, Seonghwan Kim, Seokhyun Moon, Hyunwoo Kim, Woo Youn Kim2026-03-09🤖 cs.AI

Aligning Compound AI Systems via System-level DPO

Die Arbeit stellt SysDPO vor, ein Framework, das die direkte Präferenzoptimierung (DPO) auf komplexe, aus mehreren Komponenten bestehende KI-Systeme erweitert, um diese durch eine graphbasierte Modellierung und systemweite Optimierung effektiv an menschliche Präferenzen anzupassen, ohne auf differenzierbare Interaktionen angewiesen zu sein.

Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Haolun Wu, Sanmi Koyejo2026-03-09🤖 cs.AI

Adversarial Robustness of Partitioned Quantum Classifiers

Diese Arbeit untersucht die adversarische Robustheit partitionierter Quantenklassifizierer, indem sie einen Zusammenhang zwischen Störungen durch Wire-Cutting oder Teleportation und der Implementierung adversarischer Gatter in Zwischenschichten herstellt und dieses Problem sowohl theoretisch als auch experimentell analysiert.

Pouya Kananian, Hans-Arno Jacobsen2026-03-09⚛️ quant-ph

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

Diese Arbeit bietet einen umfassenden Überblick über die Musikgenerierung aus ein-, kreuz- und multimodaler Perspektive, indem sie Repräsentationen, Datenalignment, aktuelle Datensätze und Evaluierungsmethoden analysiert sowie Herausforderungen und zukünftige Forschungsrichtungen beleuchtet.

Shuyu Li, Shulei Ji, Zihao Wang + 3 more2026-03-09🤖 cs.AI

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Der Artikel stellt FindAnything vor, einen effizienten Open-World-Mapping-Framework, der durch die Aggregation von Vision-Language-Features auf Objektebene eine skalierbare, semantisch ausdrucksstarke und geometrisch präzise 3D-Kartierung für ressourcenbeschränkte Roboter in Echtzeit ermöglicht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

Diese kontrollierte Studie zeigt, dass die wahre Vorhersagefähigkeit von vortrainierten Large Language Models für Zeitreihen durch die Überanpassung von Tokenizer-Detokenizer-Paaren an kleine Datensätze oft verschleiert wird und ihre Leistung selbst mit optimierten, großskalig vortrainierten Komponenten die von speziell auf Zeitreihendaten trainierten Modellen nicht konsistent übertrifft.

Xinyu Zhang, Shanshan Feng, Xutao Li, Kenghong Lin, Fan Li, Pengfei Jia2026-03-09🤖 cs.AI

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

In diesem Positionspapier argumentieren die Autoren, dass die Anthropomorphisierung von Zwischenschritten als „Denkspuren" gefährlich ist, da sie das Wesen von Sprachmodellen missversteht, ihre effektive Nutzung behindert und zu fragwürdiger Forschung führt, und fordern die Community auf, diese Metapher zu vermeiden.

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

← Zurück Weiter →