cs artículos | Gist.Science

Real-Time Aligned Reward Model beyond Semantics

Este trabajo presenta R2M, un marco de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) innovador que supera las limitaciones de la sobreoptimización de recompensas al alinear el modelo de recompensa con los cambios de distribución en tiempo real de la política mediante el uso de sus estados ocultos evolutivos, en lugar de depender únicamente de representaciones semánticas superficiales.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Este estudio evalúa el impacto del análisis de sentimiento de noticias basado en LLMs (DeBERTa, RoBERTa y FinBERT) en la predicción de movimientos del precio de las acciones, demostrando que DeBERTa supera a los otros modelos individuales y que un enfoque de ensamble alcanza una precisión del 80%, mejorando ligeramente el rendimiento de diversos arquitecturas de predicción.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Este artículo presenta un enfoque de diseño sensible a la edad que, mediante talleres de co-diseño con tecnologías interactivas e IA, permite a las mujeres jubiladas en China transformar su papel de meras intérpretes a creadoras activas de performances de danza al reducir las barreras técnicas y fomentar su autoría.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Este artículo presenta un marco de control cognitivamente flexible que adapta en línea las representaciones latentes de un modelo estocástico profundo bajo un índice de flexibilidad acotado, integrándolo en un esquema de control predictivo basado en modelos bayesianos para garantizar la seguridad, la viabilidad recursiva y la estabilidad en sistemas ciberfísicos no estacionarios.

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

El artículo presenta Green-VLA, un marco de modelo de visión-lenguaje-acción con un currículo de cinco etapas y un pipeline de datos escalable que permite un despliegue seguro y generalizable en el robot humanoide Green y otros embodiments mediante adaptación específica y alineación con aprendizaje por refuerzo.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

El estudio presenta SIM-VAIL, un marco de auditoría que revela cómo las interacciones entre usuarios vulnerables y chatbots de IA pueden generar bucles de amplificación de vulnerabilidades (VAILs) que acumulan riesgos clínicos a lo largo del tiempo, subrayando la necesidad de evaluaciones de seguridad multidimensionales y escalables.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

AgenticLab es una plataforma y benchmark de código abierto para agentes robóticos que, mediante un bucle cerrado de percepción y razonamiento en entornos reales no estructurados, expone limitaciones críticas de los modelos visión-lenguaje actuales que las evaluaciones estáticas no logran capturar.

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Este artículo demuestra que la aceleración mediante GPU en plataformas de borde heterogéneas mejora significativamente el rendimiento y reduce la latencia de la decodificación LDPC para comunicaciones vehiculares 5G, liberando recursos de CPU críticos para cumplir con los estrictos requisitos de tiempo y potencia de las unidades RSU.

Ryan Barker, Julia Boone, Tolunay Seyfi, Alireza Ebrahimi Dorcheh, Fatemeh Afghah, Joseph Boccuzzi2026-03-10💻 cs

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Este artículo presenta FSTab, un marco de ataque en caja negra que demuestra cómo las vulnerabilidades recurrentes en software generado por LLMs pueden predecirse a partir de características observables y evalúa la consistencia de estas fallas en modelos de última generación como GPT-5.2, Claude-4.5 Opus y Gemini-3 Pro, revelando un riesgo de seguridad significativo y transferible entre dominios.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

El artículo presenta LMMRec, un marco de recomendación multimodal impulsado por modelos de lenguaje grande que utiliza técnicas de razonamiento y aprendizaje contrastivo para extraer y alinear motivaciones finas de usuarios y artículos a partir de texto y datos de interacción, logrando mejoras significativas en el rendimiento.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Este estudio demuestra que no existe una convergencia significativa entre las medidas de resolución de problemas basadas en juegos y las autoevaluadas, lo que respalda la necesidad de integrar ambos enfoques complementarios en los procesos de selección de personal para obtener una visión más completa de las competencias.

Fabrizio Fornari, Eleonora Cova, Niccolò Vito Vacca, Francesco Bocci, Marcello Sarini, Luigi Caputo2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Este artículo presenta un marco de guía condicional para modelos de difusión bajo restricciones estrictas, basado en la transformada h de Doob y procesos de variación cuadrática, que permite estimar la corrección de deriva necesaria mediante algoritmos de aprendizaje fuera de política sin modificar la red de puntuación preentrenada, garantizando teóricamente la satisfacción de las condiciones y demostrando su eficacia en la generación de eventos raros.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Este estudio revela que las madres utilizan los modelos de lenguaje grandes como recursos no juzgadores para obtener apoyo emocional y tranquilidad sobre la crianza, evitando el juicio social, aunque la mayoría sigue valorando más el calor humano, especialmente en contextos familiares complejos.

Shayla Sharmin, Sadia Afrin Ratna2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

El artículo presenta NAAMSE, un marco evolutivo que automatiza la evaluación de seguridad de agentes de IA mediante la optimización de mutaciones de prompts y la exploración jerárquica para identificar vulnerabilidades adaptativas sin comprometer la funcionalidad benigna.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape es un solucionador híbrido neural-físico que integra una red neuronal informada por física con un solver de proyección diferenciable para resolver el conflicto entre la viabilidad geométrica y la plausibilidad física en el drapeado de prendas, logrando un manejo robusto de colisiones y un equilibrio cuasi-estático mediante fuerzas explícitas y restricciones geométricas estrictas.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

LLM4PQC - Accurate and Efficient Synthesis of PQC Cores by Feedback-Driven LLMs

El artículo presenta LLM4PQC, un marco basado en modelos de lenguaje grande que automatiza la refactorización de especificaciones de criptografía postcuántica en código sintetizable y verifica su corrección mediante un flujo de retroalimentación jerárquico, reduciendo así el esfuerzo manual y acelerando la exploración del espacio de diseño de hardware.

Buddhi Perera, Zeng Wang, Weihua Xiao, Mohammed Nabeel, Ozgur Sinanoglu, Johann Knechtel, Ramesh Karri2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

El artículo presenta FlowAdapt, un marco de adaptación de dominio eficiente en parámetros basado en la teoría del transporte óptimo que, mediante una muestreo selectivo y una transferencia progresiva de conocimiento, supera las limitaciones de la adaptación directa en sistemas de percepción colaborativa V2X logrando un rendimiento de vanguardia con solo el 1% de parámetros entrenables.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

El marco SToRM propone un método de reducción supervisada de tokens para modelos de lenguaje multimodal que permite una conducción autónoma de extremo a extremo eficiente, reduciendo los costos computacionales hasta en un 30x sin sacrificar el rendimiento en comparación con el uso de todos los tokens.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

El artículo presenta AGPS, un marco que automatiza el aprendizaje por refuerzo en robótica mediante un agente multimodal que sustituye la supervisión humana, mejorando significativamente la eficiencia de las muestras y la escalabilidad en tareas de manipulación.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

El artículo M2RL compara los paradigmas de entrenamiento mixto y de fusión de modelos para el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) en múltiples dominios, descubriendo que estos interactúan de forma sinérgica sin interferencias significativas y analizando los mecanismos internos que explican estas ganancias mutuas.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

← Anterior Siguiente →