cs.AI Arbeiten | Gist.Science

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Das Papier stellt aCAPTCHA vor, ein neues Sicherheitsverfahren, das durch zeitbasierte, asymmetrische Härte in der Verarbeitung natürlicher Sprache autonomen KI-Agenten, Skripten und Menschen unterscheidet, um eine infrastrukturneutralen Zugangskontrolle für Internetdienste zu ermöglichen.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Die Arbeit stellt eine neue Aufgabe namens „Emotion Transcription in Conversation" (ETC) vor, die darauf abzielt, komplexe emotionale Zustände in Gesprächen durch natürliche Sprachbeschreibungen zu erfassen, und liefert hierfür ein japanisches Datenset mit selbstberichteten Emotionen sowie eine Benchmark-Analyse bestehender Modelle.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Die Arbeit stellt einen neuen Tabellenretrieval-Mechanismus namens DCTR vor, der durch feingranulare, typisierte Query-Zerlegung und globale Konnektivitätsbewusstheit die Herausforderungen des offenen Fragebeantwortens über komplexe relationale Datenbanken bewältigt und sich in Benchmarks als robust erweist.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Improving reasoning at inference time via uncertainty minimisation

Diese Arbeit stellt eine effiziente Inferenzzeit-Methode vor, die das logische Schlussfolgern von großen Sprachmodellen durch die Maximierung der internen Selbstgewissheit auf Ebene einzelner Gedankenschritte verbessert und dabei bestehende Ansätze wie Greedy Decoding oder Self-Consistency bei geringeren Token-Kosten übertrifft.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

Learning to Rank the Initial Branching Order of SAT Solvers

Diese Arbeit untersucht den Einsatz von Graph Neural Networks zur Vorhersage eines initialen Verzweigungsordnungs für SAT-Löser, wobei zwar signifikante Beschleunigungen bei zufälligen und pseudo-industriellen Instanzen erzielt werden, die Vorhersagen jedoch bei komplexen industriellen Problemen aufgrund der dynamischen Heuristiken der Solver und der Schwierigkeit der Instanzen versagen.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

Die Arbeit stellt drei komplementäre Ansätze vor, um in kreativen Domänen wie GenAI, Visualisierung und Programmierung nicht nur Zustandsänderungen zu erfassen, sondern auch die dahinterliegenden kreativen Absichten und Zusammenhänge zu bewahren und interpretierbar zu machen.

Xiaohan Peng, Sotiris Piliouras, Carl Abou Saada Nujaim2026-03-10💻 cs

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

Diese Arbeit stellt die Layered Governance Architecture (LGA) vor, einen vierstufigen Rahmen zur Abwehr von Ausführungsschicht-Schwachstellen autonomer Agenten, der durch ein umfassendes Benchmark-Testing und experimentelle Ergebnisse belegt wird, dass eine Kombination aus Sandboxing, Intent-Verifikation und Zero-Trust-Autorisierung sowohl hohe Abfangquoten bei bösartigen Tool-Aufrufen als auch geringe Latenzzeiten ermöglicht.

Yuxu Ge2026-03-10💻 cs

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

Die Arbeit stellt Re² vor, eine Reinforcement-Learning-Methode, die Large Language Models befähigt, unproduktive Denkpfade zu erkennen und durch Neustarts zu ersetzen, wodurch die Effizienz und Genauigkeit von Schlussfolgerungen im Vergleich zu herkömmlichen RLVR-Ansätzen erheblich gesteigert wird.

Pinzheng Wang, Shuli Xu, Juntao Li, Yu Luo, Dong Li, Jianye Hao, Min Zhang2026-03-10💻 cs

A Miniature Brain Transformer: Thalamic Gating, Hippocampal Lateralization, Amygdaloid Salience, and Prefrontal Working Memory in Attention-Coupled Latent Memory

Die Studie stellt eine neuartige Miniatur-Gehirn-Transformer-Architektur vor, die zeigt, dass funktionelle Hemisphären-Lateralisierung erst durch die synergistische Kombination von präfrontalem Arbeitsgedächtnis und inhibitorischer Kopplung ausgelöst wird, was als entscheidender Symmetrie-Brecher für die Bildung hierarchischer persistenter Speicher dient.

Hong Jeong2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Das Paper stellt VINO vor, einen selbstüberwachten Lernansatz, der durch einen strukturellen Prior und asymmetrische Destillation in Video-Daten die Abhängigkeit von Kontext-Clues reduziert und robuste, objekzzentrierte Repräsentationen erlernt, die die Leistung bestehender Baselines bei der unsupervisierten Objekterkennung deutlich übertreffen.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Diese Forschungsarbeit stellt ein hybrides Learning-to-Rank-System vor, das mithilfe von Deep Learning und Social-Context-Embeddings Stack-Overflow-Daten analysiert, um Entwicklern bei der Suche nach Lösungen für Softwarefehler zu helfen und dabei eine Trefferquote von nahezu 78 % für die zehn besten Antworten erreicht.

Fouzi Harrag, Mokdad Khemliche2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Die Arbeit stellt LEPA vor, eine Architektur, die durch das direkte Vorhersagen transformierter Embeddings unter Berücksichtigung geometrischer Augmentierungen die Unzuverlässigkeit herkömmlicher Interpolationsverfahren in Geospatial-Grundmodellen überwindet und so präzise geometrische Anpassungen ohne Neu-Encoding ermöglicht.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Learning When to Cooperate Under Heterogeneous Goals

Die Studie stellt einen neuen hierarchischen Ansatz vor, der Imitations- und Verstärkungslernen kombiniert, um Agenten mit heterogenen Zielen zu befähigen, situationsabhängig zu entscheiden, ob sie kooperieren oder allein handeln, und zeigt dabei eine Überlegenheit gegenüber bestehenden Methoden.

Max Taylor-Davies, Neil Bramley, Christopher G. Lucas2026-03-10💻 cs

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

Die Arbeit stellt ein kinematikbewusstes latentes Weltmodell vor, das durch die Integration von Fahrzeugkinematik und geometrischer Überwachung die Dateneffizienz und Fahrleistung beim autonomen Fahren im Vergleich zu bestehenden Methoden verbessert.

Jiazhuo Li, Linjiang Cao, Qi Liu, Xi Xiong2026-03-10💻 cs

VisualDeltas: Learning Preferences from Visual Quality Perturbations

Das Paper stellt VisualDeltas vor, ein leichtgewichtiges Rahmenwerk zum Lernen von Präferenzen aus visuellen Qualitätsveränderungen, das ohne menschliche Annotationen auskommt und durch die Ausnutzung systematischer Bildqualitätsunterschiede die Generalisierung multimodaler Modelle verbessert.

Hailiang Huang, Yihao Liu, Shengyue Guan, Haoze Li, Sujian Li2026-03-10💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Eine empirische Studie an vier Modellen und fünf Prompting-Regimen zeigt, dass deploymentbedingte Einschränkungen die Halluzination von Zitaten in geschlossenen Umgebungen nicht verhindern, sondern die Verifizierbarkeit von Referenzen drastisch senken, was eine nachträgliche Überprüfung vor der Nutzung in der Softwaretechnik zwingend erforderlich macht.

Chen Zhao, Yuan Tang, Yitian Qian2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Die Arbeit stellt MAviS vor, ein multimodales KI-System, das auf einem umfassenden Datensatz für über 1.000 Vogelarten basiert, um durch die Integration von Bild-, Audio- und Textdaten präzise artspezifische Fragen zu beantworten und so den Fortschritt im Bereich des Naturschutzes und der ökologischen Überwachung zu fördern.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

A Cortically Inspired Architecture for Modular Perceptual AI

Diese Arbeit schlägt eine durch die Neurobiologie inspirierte, modulare Architektur für perceptuelle KI vor, die durch hierarchische prädiktive Schleifen und geteilte latente Räume interpretierbares, zusammengesetztes Generalisieren und adaptive Robustheit gegenüber monolithischen Modellen wie GPT-4V ermöglicht.

Prerna Luthra2026-03-10💻 cs

Spectral Discovery of Continuous Symmetries via Generalized Fourier Transforms

Die Arbeit stellt einen neuartigen Rahmen vor, der kontinuierliche Symmetrien durch die Identifizierung struktureller Sparsamkeit im Spektralbereich mittels verallgemeinerter Fourier-Transformationen entdeckt, anstatt direkt über Transformationsgeneratoren zu optimieren.

Pavan Karjol, Kumar Shubham, Prathosh AP2026-03-10🤖 cs.LG

← Zurück Weiter →

cs.AI