cs.AI artículos | Gist.Science

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

El artículo presenta TrustBench, un marco de verificación de confianza en tiempo real que interviene antes de la ejecución de las acciones de agentes autónomos mediante plugins específicos de dominio, logrando una reducción del 87% en acciones dañinas con una latencia inferior a 200 ms.

Tavishi Sharma, Vinayak Sharma, Pragya SharmaWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap es un marco de aprendizaje por refuerzo que utiliza rúbricas generadas por LLMs para proporcionar señales de recompensa granulares y específicas, logrando así una generación de descripciones de imágenes densas superior a los métodos supervisados y otros enfoques de RL, incluso con modelos de tamaño reducido.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabajo propone un marco de aprendizaje efectivo para representaciones de netlistas que supera la escasez de datos etiquetados al utilizar RTL imperfecto generado por modelos de lenguaje grande, demostrando que sus patrones estructurales preservados permiten entrenar modelos que generalizan bien a diseños reales y superan a los métodos existentes.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

El artículo presenta GIAT, un nuevo marco Transformer informado geológicamente que integra filtros de correlación de secuencia por categoría para guiar el mecanismo de atención hacia patrones coherentes, logrando así una identificación de litología más precisa, fiable e interpretable que los modelos existentes.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

El documento presenta ZeroWBC, un marco innovador que permite a los humanoides aprender control visuomotor natural directamente de videos en primera persona sin necesidad de costosos datos de teleoperación, superando las limitaciones de movimientos rígidos y logrando una interacción versátil en entornos reales.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

El artículo presenta resultados mejorados para cinco números de Ramsey clásicos y demuestra la eficacia de AlphaEvolve, un agente de mutación de código basado en modelos de lenguaje, como un metaalgoritmo único capaz de generar algoritmos de búsqueda que superan o igualan los límites inferiores conocidos en este campo.

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabajo propone un marco de modelado generativo informado por la física que, partiendo de una dinámica de flujo de tráfico estocástica tipo Ito, deriva una ecuación determinista de flujo de probabilidad para entrenar una red neuronal capaz de estimar distribuciones completas del estado del tráfico, permitiendo así calcular estimaciones puntuales, intervalos de credibilidad y medidas de riesgo de congestión.

Wuping XinWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

El artículo presenta DuplexCascade, un sistema de diálogo voz-voz full-duplex que elimina la necesidad de detección de voz (VAD) mediante la conversión de turnos largos en micro-turnos y el uso de tokens de control especializados, logrando así una interacción bidireccional rápida que preserva la inteligencia conversacional de los modelos de lenguaje.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

El artículo presenta Latent-DARM, un marco de comunicación en espacio latente que integra modelos de difusión discreta para la planificación y modelos autoregresivos para la ejecución, logrando un rendimiento superior en tareas de razonamiento con un uso de tokens significativamente menor que los modelos de razonamiento más avanzados.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Este artículo presenta un Motor de Innovación Explicable que mejora la generación aumentada por recuperación (RAG) al reemplazar los fragmentos de texto por nodos de métodos dentro de un sistema de doble árbol para la trazabilidad y navegación jerárquica, permitiendo a un agente seleccionar operadores de síntesis explícitos y validar nuevos conocimientos mediante un mecanismo de verificación para lograr una innovación controlable y auditable.

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

El artículo presenta \textsc{EvalAct}, un marco que transforma la evaluación de la calidad de la recuperación en una acción explícita y utiliza el método de optimización PCAR para mejorar el razonamiento multi-paso de los agentes aumentados por recuperación, logrando así un rendimiento superior en tareas de preguntas y respuestas de dominio abierto.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este trabajo demuestra que el tono emocional es un factor latente que altera la geometría de la atención en los modelos de lenguaje, proponiendo el dataset AURA-QA y un marco de regularización emocional que mejora la comprensión lectora y el rendimiento en tareas de preguntas y respuestas bajo diversas distribuciones.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

El artículo formaliza una prueba de estrés macrofinanciero que advierte que la adopción rápida de la IA podría desencadenar una crisis explosiva debido a un desajuste entre la abundancia generada y la demanda deficiente, impulsado por un espiral de desplazamiento laboral, una caída en la velocidad del dinero y el colapso de los márgenes de intermediación.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

El estudio presenta PrivPRISM, un marco automatizado que utiliza modelos de lenguaje para detectar discrepancias entre las declaraciones de seguridad de datos de Google Play y las políticas de privacidad, revelando que más de la mitad de las aplicaciones analizadas incumplen la consistencia regulatoria y subestiman significativamente el acceso a datos sensibles.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Este trabajo presenta un marco de simulación escalable basado en un modelo musculoesquelético completo y controlado por aprendizaje por refuerzo que permite el análisis cuantitativo y la co-optimización simultánea del diseño mecánico y la política de control en la interacción física humano-robot, facilitando la evaluación de métricas biomecánicas internas como las fuerzas musculares.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Este trabajo presenta BD-FDG, un marco de generación de datos de ajuste fino basado en la taxonomía de Bloom que, al organizar el conocimiento y modelar preguntas en niveles cognitivos, permite construir un dataset de 230.000 muestras para adaptar modelos LLM al dominio de la Conciencia Situacional Espacial, logrando mejoras significativas en rendimiento sin sacrificar capacidades generales.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

El artículo presenta BridgeDiff, un marco basado en difusión que supera las limitaciones de los métodos anteriores para la síntesis de prendas planas en el intento virtual de ropa al unir explícitamente las observaciones humanas con la estructura de la prenda mediante módulos de puente de condición y restricciones estructurales, logrando así un rendimiento superior en benchmarks estándar.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

El artículo presenta Social-R1, un marco de aprendizaje por refuerzo que, junto con el nuevo benchmark adversarial ToMBench-Hard, permite a modelos de lenguaje pequeños desarrollar una inteligencia social humana mediante la alineación del proceso de razonamiento y el uso de casos de entrenamiento desafiantes, superando así a modelos mucho más grandes en diversas pruebas.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudio presenta un enfoque de múltiples modelos basado en redes neuronales preentrenadas y personalizadas, junto con técnicas de aumento de datos y aprendizaje por transferencia, para mejorar la detección de señales de tráfico, vehículos y carriles, así como la clonación de comportamiento, con el fin de aumentar la robustez y fiabilidad de los sistemas de conducción autónoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← Anterior Siguiente →