cs.AI artículos | Gist.Science

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

El artículo presenta PepEDiff, un generador novedoso de péptidos unidores que diseña secuencias de unión directamente en un espacio latente continuo derivado de incrustaciones de proteínas preentrenadas, eliminando la dependencia de la predicción de estructuras y superando a los métodos actuales en la generación de péptidos diversos y novedosos, como se demuestra en el caso de estudio del objetivo TIGIT.

Po-Yu Liang, Tibo Duran, Jun Bai2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem es un sistema basado en memoria que utiliza una estructura espacial métrica 3D derivada de video egocéntrico RGB para habilitar la recuperación y el razonamiento de preguntas y respuestas de largo alcance en interiores, permitiendo consultas lingüísticas interpretables sobre relaciones espaciales sin necesidad de sensores especializados.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Neural Signals Generate Clinical Notes in the Wild

Este artículo presenta CELM, el primer modelo fundacional de EEG a lenguaje que genera informes clínicos automatizados a partir de grabaciones de EEG de larga duración, logrando mejoras significativas en métricas de generación al integrar modelos de EEG preentrenados con modelos de lenguaje.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

Este artículo presenta Localized In-Context Learning (L-ICL), una técnica que mejora significativamente la capacidad de los modelos de lenguaje grandes para generar planes válidos en tareas de planificación simbólica al inyectar correcciones dirigidas a los primeros pasos que violan las restricciones, superando así a los métodos tradicionales de aprendizaje en contexto.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artículo presenta una serie de estudios de caso y técnicas comunes que demuestran cómo la colaboración interactiva con modelos avanzados de Gemini, como Gemini Deep Think, acelera el descubrimiento científico al resolver problemas abiertos, refutar conjeturas y generar nuevas pruebas en campos como la informática teórica, la economía y la física.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Este artículo propone un marco principista para la cuantificación de incertidumbre en agentes de modelos de lenguaje, estableciendo sus fundamentos teóricos, identificando cuatro desafíos técnicos clave en entornos interactivos y delineando direcciones futuras para mejorar la seguridad en aplicaciones complejas.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Este artículo demuestra que, a diferencia de los métodos de atribución efectivos en sistemas de IA estáticos, la explicabilidad basada en trazas es esencial para diagnosticar fallos en sistemas de IA agénticos, revelando que la inconsistencia en el seguimiento de estados es una causa principal de fracaso en sus trayectorias de decisión.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

El artículo presenta a Aletheia, un agente de investigación matemática autónomo que, potenciado por modelos avanzados de razonamiento y herramientas especializadas, demuestra capacidades que van desde la resolución de problemas olímpicos hasta la generación de artículos de investigación y la solución de problemas abiertos, marcando hitos significativos en la colaboración humano-IA en matemáticas.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

El artículo presenta un marco centrado en la retroalimentación de utilidad que incluye el nuevo benchmark AgoraBench, métricas alineadas con la teoría económica y una metodología de aprendizaje basada en preferencias humanas, logrando mejorar significativamente la capacidad de negociación estratégica y la adaptación a factores humanos de los modelos de lenguaje grande.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Este estudio demuestra que, en el "código de vibración" colaborativo, la dirección humana es esencial para evitar el colapso del rendimiento y lograr los mejores resultados cuando se combina con la evaluación automatizada por IA.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

El artículo presenta DataChef-32B, un sistema que utiliza aprendizaje por refuerzo para generar automáticamente recetas de datos óptimas para la adaptación de modelos de lenguaje grandes, logrando un rendimiento comparable o superior al de expertos humanos en diversas tareas, incluida la matemática.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

El artículo presenta SWE-MiniSandbox, un método ligero y sin contenedores que utiliza mecanismos a nivel de kernel y técnicas de precaché para reducir drásticamente el uso de disco y el tiempo de preparación de entornos en el entrenamiento de agentes de ingeniería de software mediante aprendizaje por refuerzo, manteniendo al mismo tiempo un rendimiento comparable al de las pipelines basadas en contenedores.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artículo presenta una fórmula de puntuación "pico + acumulación" que, sin utilizar un LLM, detecta eficazmente inyecciones de prompts de múltiples turnos al combinar el riesgo máximo por turno, la persistencia y la diversidad de categorías, logrando un 90,8% de recuperación con una tasa de falsos positivos del 1,20% en un conjunto de datos de más de 10.000 conversaciones.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artículo examina cómo la búsqueda de un "ground truth" en la anotación de datos ignora la subjetividad humana y la diversidad cultural, proponiendo en su lugar infraestructuras pluralistas que valoren el desacuerdo como una señal esencial para construir modelos más competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudio presenta AHSIV, un marco de selección de modelos adaptativo que aborda la inestabilidad en la clasificación de pronósticos causada por el horizonte temporal y la variabilidad de la demanda, integrando métricas de error ajustadas y clasificación estructural para optimizar la toma de decisiones operativas y estratégicas en entornos comerciales complejos.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

El artículo presenta IntelliAsk, un modelo entrenado mediante optimización por refuerzo con verificación de recompensas (RLVR) y una nueva función de recompensa llamada IntelliReward, que genera preguntas de revisión de investigación de alta calidad, fundamentadas y sustanciales, superando a los modelos de línea base y demostrando mejoras en benchmarks de razonamiento y escritura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artículo presenta resultados empíricos de una implementación en C++ de un sustrato de estado semántico determinista, denominado Compute ICE-AGE, que demuestra una latencia de recorrido invariante y un consumo de recursos estable en entornos de escala masiva (hasta 25 millones de nodos), logrando una eficiencia termodinámica superior a las arquitecturas de inferencia probabilística al depender de la capacidad de memoria en lugar del volumen de tokens.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

El artículo presenta FLoRG, un marco de aprendizaje federado que optimiza el ajuste fino de modelos de lenguaje mediante la agregación de matrices Gram de baja rango y alineación Procrustes, logrando así una mayor precisión en tareas, una reducción significativa de la sobrecarga de comunicación y una convergencia teórica mejorada al eliminar errores de agregación y deriva de descomposición.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artículo demuestra mediante una metodología de evaluación y análisis mecanicista que, en la mayoría de los casos de uso, los modelos de lenguaje grandes de voz (Speech LLMs) actuales funcionan como cascadas costosas e ineficientes bajo ruido, perdiendo su ventaja sobre los sistemas tradicionales de reconocimiento de voz seguidos de LLM.

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

El artículo presenta EMPO $^2$ , un marco híbrido de aprendizaje por refuerzo que combina optimización on- y off-policy con memoria aumentada para superar las limitaciones de exploración de los agentes LLM, logrando mejoras significativas en rendimiento y adaptabilidad a tareas nuevas.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

← Anterior Siguiente →

cs.AI