cs.AI Arbeiten | Gist.Science

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Die Arbeit stellt TrustBench vor, ein Echtzeit-Framework, das durch eine präventive Verifikation von Agentenaktionen vor deren Ausführung und den Einsatz domänenspezifischer Plugins die Anzahl schädlicher Aktionen um 87 % reduziert und damit den Übergang von Large Language Models zu vertrauenswürdigen autonomen Agenten ermöglicht.

Tavishi Sharma, Vinayak Sharma, Pragya SharmaWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Diese Arbeit schlägt ein kosteneffizientes Framework vor, das funktional fehlerhafte, aber strukturell aussagekräftige von LLMs generierte RTL-Codes nutzt, um Netlist-Repräsentationen zu lernen und so die Datenknappheit für das Training von KI-Modellen in der Schaltungsanalyse zu überwinden.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Die Arbeit stellt GIAT vor, einen neuartigen Geologisch-Informierten Attention Transformer, der durch die Integration von geologischen Priors in den Aufmerksamkeitsmechanismus die Genauigkeit und Interpretierbarkeit der Lithologie-Identifikation aus Bohrlochdaten signifikant verbessert.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Das Paper stellt ZeroWBC vor, ein Framework, das mithilfe von feinabgestimmten Vision-Language-Modellen und menschlichen Ego-Videos natürliche Ganzkörpersteuerung für humanoide Roboter ermöglicht, ohne auf teure Teleoperationsdaten angewiesen zu sein.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Die Arbeit stellt mit AlphaEvolve, einem auf großen Sprachmodellen basierenden Code-Mutations-Agenten, einen einheitlichen Meta-Algorithmus vor, der nicht nur die unteren Schranken für fünf klassische Ramsey-Zahlen verbessert, sondern auch bekannte exakte Werte erfolgreich rekonstruiert.

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Diese Arbeit stellt ein physik-informiertes generatives Modell vor, das stochastische Verkehrsflüsse durch eine auf der Itô-LWR-Gleichung basierende Verteilungsdynamik und ein score-basiertes Netzwerk abbildet, um datenbasierte Schätzungen von Verkehrsdichteverteilungen einschließlich Unsicherheitsintervallen zu ermöglichen.

Wuping XinWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Das Papier stellt DuplexCascade vor, ein VAD-freies, kaskadiertes ASR-LLM-TTS-System, das durch Mikro-Turn-Interaktionen und spezielle Steuertoken voll-duplexe Sprachdialoge mit hoher Konversationsintelligenz ermöglicht.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Die Arbeit stellt Latent-DARM vor, ein latenter Kommunikationsrahmen, der diskrete Diffusionsmodelle als Planer und autoregressive Modelle als Ausführer verbindet, um die reasoning-Fähigkeiten in Multi-Agenten-Systemen signifikant zu verbessern und dabei den Token-Verbrauch drastisch zu senken.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Der vorgestellte „Explainable Innovation Engine"-Ansatz verbessert herkömmliche RAG-Systeme durch den Einsatz von Methoden als Knoten in einer dualen Baumstruktur, die eine agentenbasierte, nachvollziehbare Synthese und eine verifizierbare Rückkopplung für kontrollierbare und überprüfbare Innovationen ermöglicht.

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Die Arbeit stellt \textsc{EvalAct} vor, einen Ansatz, der die Evaluierung von Suchergebnissen zu einer expliziten Aktion macht und durch eine prozessbasierte Optimierung (PCAR) die Zuverlässigkeit von retrieval-basierten Agenten bei mehrstufigen Schlussfolgerungen signifikant verbessert.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Die Studie zeigt, dass emotionale Töne die Aufmerksamkeitsgeometrie von Large Language Models systematisch verändern, und stellt mit dem AURA-QA-Datensatz sowie einem emotionalen Regularisierungsrahmen neue Methoden vor, um die Leseverständnisleistung unter emotionalen Distributionsschwankungen zu verbessern.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

Die Studie formalisiert einen makrofinanziellen Stresstest für die schnelle KI-Adoption, der zeigt, wie die Diskrepanz zwischen KI-generiertem Überfluss und einer durch Lohnverdrängung, sinkende Geldumlaufgeschwindigkeit und Intermediärkollaps verursachten Nachfrageschwäche zu einer explosiven Wirtschaftskrise führen kann, wenn institutionelle Anpassungen ausbleiben.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

Die Studie stellt PrivPRISM vor, ein automatisiertes Framework, das Diskrepanzen zwischen den vereinfachten Google Play-Datensicherheitsangaben und den vollständigen Datenschutzrichtlinien aufdeckt und dabei zeigt, dass bei fast der Hälfte der untersuchten Apps widersprüchliche oder unvollständige Angaben zu Datenpraktiken vorliegen, was die Notwendigkeit einer strengeren Durchsetzung und Nutzerwachsamkeit unterstreicht.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Diese Arbeit stellt einen skalierbaren Simulationsrahmen vor, der ein muskuloskelettales Menschmodell mit Reinforcement Learning kombiniert, um die physische Mensch-Roboter-Interaktion quantitativ zu analysieren und die gleichzeitige Co-Optimierung von Roboterkonstruktion und Steuerung zu ermöglichen.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Die Arbeit stellt BD-FDG vor, ein Framework zur Generierung von feinabgestimmten Trainingsdaten für Large Language Models im Bereich der Weltraumlageerkennung, das durch kognitiv gestaffelte Fragestellungen und automatische Qualitätskontrolle eine signifikante Leistungssteigerung bei gleichzeitiger Beibehaltung allgemeiner Fähigkeiten ermöglicht.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Das Paper stellt BridgeDiff vor, ein diffusionsbasiertes Framework, das durch die Garment Condition Bridge Module und das Flat Structure Constraint Module die Lücke zwischen menschlichen Beobachtungen und der Synthese flacher Kleidungsstücke schließt, um konsistente und strukturell stabile virtuelle Anproben zu ermöglichen.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

Die Arbeit stellt Social-R1 vor, ein Reinforcement-Learning-Framework, das durch das Training mit dem adversarischen Benchmark ToMBench-Hard und einer prozessbasierten Belohnungsfunktion menschliche soziale Intelligenz in Sprachmodellen fördert und dabei selbst kleine Modelle (4B Parameter) effizienter als größere Alternativen macht.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Diese Studie präsentiert einen umfassenden Multi-Modell-Ansatz, der vortrainierte und benutzerdefinierte neuronale Netze für die Verkehrsschilderkennung, Fahrzeug- und Spurerkennung sowie Verhaltensnachahmung integriert, um die Robustheit und Zuverlässigkeit autonomer Fahrsysteme durch fortschrittliche Deep-Learning-Techniken und diverse Datensätze zu verbessern.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← Zurück Weiter →