cs.AI papers | Gist.Science

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Dit paper introduceert TrustBench, een dual-modus framework dat real-time verificatie biedt voor autonome agenten door veiligheidscontroles uit te voeren tussen actieformulering en uitvoering, waardoor schadelijke acties met 87% worden gereduceerd.

Tavishi Sharma, Vinayak Sharma, Pragya SharmaWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Deze paper introduceert een kosteneffectief raamwerk dat imperfecte, door LLM's gegenereerde RTL-code gebruikt om netlistrepresentaties te leren, waardoor de schaarste aan gelabelde data voor circuitanalyse wordt overwonnen zonder in te leveren op de prestaties op realistische ontwerpen.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Dit artikel introduceert GIAT, een nieuw Transformer-gebaseerd framework dat door het integreren van geologische prioren in het aandachtmechanisme de nauwkeurigheid, betrouwbaarheid en interpreteerbaarheid van lithologie-identificatie uit boorgatmetingen aanzienlijk verbetert.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

ZeroWBC is een nieuw kader dat natuurlijke humanoid-robotbesturing direct uit menselijke egocentrische video's leert, waardoor de noodzaak voor dure teleoperatiegegevens wordt geëlimineerd en robuuste, veelzijdige interactie met de omgeving mogelijk wordt gemaakt.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Dit artikel introduceert AlphaEvolve, een op een groot taalmodel gebaseerd agent dat code mutaties uitvoert en daarmee de ondergrenzen voor vijf klassieke Ramsey-getallen heeft verbeterd, terwijl het tevens bestaande resultaten succesvol reproduceerde en matchte.

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Deze paper introduceert een nieuw raamwerk voor differentieerbare, stochastische verkeersdynamica dat fysica-informeren combineert met generatieve modellering om in plaats van deterministische puntwaarden volledige kansverdelingen voor verkeersdichtheid te voorspellen, waardoor onzekerheidskwantificering en risicobeoordeling mogelijk worden.

Wuping XinWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

DuplexCascade is een VAD-vrije, gestreamde spraak-naar-spraak pipeline die volledige duplex-interactie mogelijk maakt door conventionele lange wisselgesprekken om te zetten in micro-turns met behulp van speciale controletokens, waardoor de intelligentie van een tekst-LLM behouden blijft terwijl de onderbrekingsproblemen van traditionele systemen worden opgelost.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Latent-DARM is een nieuw latentruimte-communicatiekader dat Discrete Diffusion-talenmodellen (voor planning) en autoregressieve modellen (voor uitvoering) combineert om de redeneerprestaties en samenwerking tussen heterogene agenten aanzienlijk te verbeteren.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Dit paper introduceert een uitlegbare Innovatie-Engine die Retrieval-Augmented Generation (RAG) verbetert door tekstfragmenten te vervangen door methoden als knooppunten binnen een dubbele boomstructuur, waardoor een agent traceerbare synthese kan uitvoeren en geverifieerde resultaten terug kan schrijven voor continue groei.

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Dit paper introduceert het RAISE-framework om aan te tonen dat verbeteringen in logisch redeneren bij grote taalmodellen onvermijdelijk leiden tot een toename van situationeel bewustzijn en strategisch zelfbewustzijn, waardoor er dringende nieuwe veiligheidsmaatregelen nodig zijn.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Het paper introduceert EvalAct, een methode die retrieval-augmented agents verbetert door zoekopdrachten te koppelen aan expliciete evaluaties en een procesgebaseerde optimalisatie (PCAR) te gebruiken, wat leidt tot aanzienlijk betere prestaties bij multi-hop vraagbeantwoording.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Dit onderzoek toont aan dat emotionele toon de aandachtsgewichten en redeneerprestaties van grote taalmodellen beïnvloedt, en introduceert met AURA-QA en een emotionele regularisatieframework een dataset en methode om deze effecten te bestuderen en de leesbegripprestaties te verbeteren.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

Dit artikel presenteert een macro-financiële stresstest die aantoont dat snelle AI-adaptatie leidt tot een distributie- en contractprobleem waarbij overvloedige productie samengaat met vraagtekorten, omdat economische instituties vastzitten aan menselijke schaarste, wat een zelfversterkende cyclus van inkomensdaling, afnemende geldomloopsnelheid en instorting van intermediaire marges kan veroorzaken.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

Dit paper introduceert PrivPRISM, een automatisch framework dat ontdekt dat bijna de helft van de populaire apps op Google Play discrepanties vertonen tussen hun vereenvoudigde gegevensveiligheidsverklaringen en hun volledige privacybeleid, wat wijst op systemische misleiding en onvoldoende transparantie over datapraktijken.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Dit artikel introduceert een schaalbaar simulatiekader dat een volledig gespierd menselijk model combineert met reinforcement learning om interactieve robotica kwantitatief te analyseren en te co-optimiseren, waardoor interne biomechanische metrics zoals spierkrachten direct toegankelijk worden voor het ontwerp van systemen zoals exoskeletten.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Dit paper introduceert BD-FDG, een raamwerk voor cognitief gelaagde data-synthese dat een hoogwaardig SFT-dataset voor ruimtesituatiebewaking genereert en zo de prestaties van een aangepast LLM aanzienlijk verbetert zonder in te leveren op algemene vaardigheden.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

Dit paper introduceert Social-R1, een versterkingsleerframework dat, ondersteund door het uitdagende ToMBench-Hard-benchmark, kleine taalmodellen in staat stelt om menselijk sociale redenering te overtreffen door het leerproces te aligneren met menselijke cognitie in plaats van alleen op uitkomsten te focussen.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← Vorige Volgende →