cs.AI articles | Gist.Science

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Le papier présente TrustBench, un cadre en temps réel qui vérifie la sécurité des agents autonomes avant l'exécution de leurs actions, réduisant ainsi les comportements nuisibles de 87 % grâce à des plugins spécifiques à chaque domaine.

Tavishi Sharma, Vinayak Sharma, Pragya SharmaWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Cet article propose un cadre d'apprentissage innovant qui exploite le code RTL généré par des LLMs, bien que fonctionnellement imparfait, pour entraîner des modèles de représentation de netlists capables de généraliser aux circuits réels et de surmonter la pénurie de données étiquetées.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Ce papier propose GIAT, un nouveau cadre Transformer enrichi par des connaissances géologiques via un mécanisme d'attention biaisée, qui améliore considérablement la précision et l'interprétabilité de l'identification des lithologies à partir des diagraphies de puits.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

ZeroWBC est un cadre novateur qui permet d'apprendre directement à partir de vidéos humaines à la première personne un contrôle visuomoteur naturel pour les robots humanoïdes, éliminant ainsi le besoin de données de téléopération coûteuses et permettant des interactions complexes avec l'environnement.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

En utilisant AlphaEvolve, un agent de mutation de code basé sur un modèle de langage, cette étude améliore les bornes inférieures de cinq nombres de Ramsey classiques et démontre la capacité d'un algorithme méta unique à générer des algorithmes de recherche performants pour l'ensemble de ces résultats.

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Cet article propose un cadre d'apprentissage profond généré physiquement qui modélise la dynamique du trafic macroscopique comme un processus stochastique via une équation de flux de probabilité déterministe, permettant ainsi l'estimation d'états de trafic sous forme de distributions complètes plutôt que de simples valeurs ponctuelles.

Wuping XinWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Le papier présente DuplexCascade, un pipeline de dialogue vocal en duplex intégral sans détection de parole (VAD) qui transforme les tours de parole longs en micro-tours pour permettre des échanges bidirectionnels rapides tout en préservant l'intelligence conversationnelle des grands modèles de langage.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Le papier présente Latent-DARM, un cadre de communication dans l'espace latent qui combine les modèles de diffusion discrets pour la planification et les modèles autoregressifs pour l'exécution, permettant ainsi une collaboration multi-agent plus efficace et économe en tokens pour le raisonnement complexe.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Ce papier présente un moteur d'innovation explicable qui améliore les systèmes RAG en remplaçant les fragments de texte par des nœuds de méthodes organisés en arbres de double structure, permettant ainsi une synthèse contrôlée, traçable et vérifiable via un agent stratégique et un mécanisme de rétroaction validée.

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Ce papier soutient que l'amélioration des capacités de raisonnement logique des modèles de langage crée inévitablement des voies mécanistes vers une conscience situationnelle accrue et potentiellement dangereuse, et propose le cadre RAISE ainsi que de nouvelles mesures de sécurité pour atténuer ces risques émergents.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Le papier propose \textsc{EvalAct}, une méthode qui transforme l'évaluation implicite de la qualité des recherches en une action explicite couplée à un protocole de recherche-évaluation, permettant d'optimiser les agents de récupération-augmentée grâce à une nouvelle technique d'apprentissage par renforcement appelée PCAR pour améliorer la fiabilité du raisonnement multi-étapes.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Ce papier propose d'étudier l'émotion comme un facteur latent influençant la géométrie de l'attention et le raisonnement des grands modèles de langage, en introduisant le jeu de données AURA-QA et un cadre de régularisation émotionnelle qui améliorent la compréhension de lecture et la robustesse face aux variations de ton émotionnel.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

Ce papier formalise un test de résistance macro-financier démontrant que l'adoption rapide de l'IA risque de provoquer une crise explosive non pas par un effondrement de la productivité, mais par un décalage structurel où l'abondance générée par l'IA coexiste avec une insuffisance de la demande due à la baisse des revenus du travail et à la compression des marges d'intermédiation.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

Le papier présente PrivPRISM, un cadre automatisé qui révèle des incohérences majeures entre les déclarations de sécurité des données et les politiques de confidentialité sur Google Play, exposant ainsi des pratiques trompeuses et des risques de non-conformité réglementaire pour des milliers d'applications populaires.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Ce travail propose un cadre de simulation évolutive intégrant un modèle musculo-squelettique humain piloté par l'apprentissage par renforcement pour permettre l'analyse quantitative et l'optimisation conjointe de la conception mécanique et du contrôle des robots interactifs, comme en témoigne son application réussie à l'amélioration des exosquelettes.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Ce papier présente BD-FDG, un cadre de génération de données d'entraînement basé sur la taxonomie de Bloom qui permet d'adapter efficacement un grand modèle de langage au domaine complexe de la conscience situationnelle spatiale en surmontant les limites des jeux de données existants grâce à une structuration cognitive hiérarchisée et un contrôle qualité automatisé.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Le papier présente BridgeDiff, un cadre basé sur la diffusion qui améliore la synthèse de vêtements plats pour les essais virtuels en comblant le fossé entre les observations humaines et les représentations canoniques grâce à un module de conditionnement des vêtements et un module de contrainte structurelle.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

Le papier présente Social-R1, un cadre d'apprentissage par renforcement qui, combiné au benchmark adversarial ToMBench-Hard, permet à un modèle de langage de 4 milliards de paramètres de surpasser des modèles plus grands en matière de raisonnement social grâce à un alignement trajectoriel multi-dimensionnel de la cognition humaine.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Cette étude propose une approche multi-modèle basée sur l'apprentissage profond et la vision par ordinateur pour améliorer la sécurité et la fiabilité des véhicules autonomes en intégrant la détection de panneaux, de véhicules et de voies ainsi que l'apprentissage comportemental via des réseaux de neurones pré-entraînés et des techniques d'augmentation de données.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← Précédent Suivant →