cs.AI artículos | Gist.Science

Controllable and explainable personality sliders for LLMs at inference time

Este trabajo presenta un marco modular que utiliza la técnica de Dirección Adaptativa Secuencial (SAS) para controlar y explicar múltiples rasgos de personalidad en modelos de lenguaje grandes durante la inferencia, permitiendo la síntesis de perfiles complejos sin necesidad de reentrenamiento.

Florian Hoppe, David Khachaturov, Robert Mullins + 1 more2026-03-05🤖 cs.AI

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Este trabajo presenta la construcción de un nuevo conjunto de datos chino multietiqueta y multitarea diseñado para abordar la limitación de recursos existentes al permitir el reconocimiento simultáneo de satisfacción, reconocimiento de emociones y predicción de transiciones de estado emocional en diálogos.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

El artículo presenta StructLens, un marco analítico que utiliza árboles de expansión máxima sobre representaciones semánticas para revelar relaciones estructurales globales entre capas de modelos de lenguaje, demostrando que esta perspectiva estructural ofrece una métrica de similitud superior a la coseno tradicional y es beneficiosa para tareas prácticas como la poda de capas.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

El paper presenta AutoHarness, un método que permite a un modelo de lenguaje pequeño (Gemini-2.5-Flash) sintetizar automáticamente un "harness" de código o una política completa mediante refinamiento iterativo, superando en rendimiento y costo a modelos más grandes al eliminar movimientos ilegales en entornos de juegos.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Este artículo introduce el "Certainty Robustness Benchmark", un marco de evaluación de dos vueltas que demuestra que la fiabilidad interactiva de los modelos de lenguaje grandes es una dimensión crítica distinta de la precisión básica, revelando cómo algunos modelos abandonan respuestas correctas bajo presión conversacional mientras otros mantienen una alineación robusta entre su confianza y la verdad.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Este trabajo presenta PulseLM, un conjunto de datos y benchmark a gran escala que unifica 1,31 millones de segmentos de señales PPG con 3,15 millones de pares de preguntas y respuestas en lenguaje natural para facilitar el razonamiento fisiológico multimodal y el desarrollo de modelos de lenguaje fundamentales.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Este artículo presenta una evaluación empírica exhaustiva de la robustez de 13 modelos de lenguaje ante cinco tipos de perturbaciones en el razonamiento de cadena de pensamiento, revelando patrones de vulnerabilidad heterogéneos que dependen del tamaño del modelo y del tipo de error, con implicaciones críticas para el despliegue de sistemas de razonamiento multi-etapa.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Ethical and Explainable AI in Reusable MLOps Pipelines

Este artículo presenta un marco unificado de MLOps que integra principios éticos en la práctica mediante la implementación de puertas de control automatizadas para la equidad y la explicabilidad, logrando reducir significativamente el sesgo demográfico y mantener la utilidad predictiva en entornos de producción sin interrumpir los flujos operativos.

Rakib Hossain, Mahmood Menon Khan, Lisan Al Amin + 3 more2026-03-05🤖 cs.AI

Cryo-SWAN: the Multi-Scale Wavelet-decomposition-inspired Autoencoder Network for molecular density representation of molecular volumes

Cryo-SWAN es un autoencoder variacional basado en voxelización e inspirado en la descomposición por wavelets multiescala que mejora la representación y reconstrucción de volúmenes de densidad molecular, superando a los métodos actuales de visión 3D en tareas de aprendizaje de formas y generación condicional.

Rui Li, Artsemi Yushkevich, Mikhail Kudryashev + 1 more2026-03-05🤖 cs.AI

Neuro-Symbolic Decoding of Neural Activity

El artículo presenta NEURONA, un marco neurosimbólico que mejora la decodificación de actividad cerebral mediante fMRI al integrar el razonamiento simbólico y las estructuras composicionales, logrando así una mayor precisión y generalización en la interpretación de conceptos visuales.

Yanchen Wang, Joy Hsu, Ehsan Adeli + 1 more2026-03-05🤖 cs.AI

GreenPhase: A Green Learning Approach for Earthquake Phase Picking

El artículo presenta GreenPhase, un modelo de aprendizaje sostenible y sin retropropagación que mejora la detección y el análisis de fases sísmicas con alta precisión y una reducción del 83% en costos computacionales en comparación con los métodos actuales.

Yixing Wu, Shiou-Ya Wang, Dingyi Nie + 5 more2026-03-05🤖 cs.AI

Physics-constrained symbolic regression for discovering closed-form equations of multimodal water retention curves from experimental data

Este trabajo presenta un marco de aprendizaje automático restringido por la física que utiliza programación genética para descubrir automáticamente ecuaciones de forma cerrada que modelan con precisión las curvas de retención de agua multimodales de materiales porosos a partir de datos experimentales.

Yejin Kim, Hyoung Suk Suh2026-03-05🤖 cs.AI

Perfect score on IPhO 2025 theory by Gemini agent

Este informe presenta un agente basado en Gemini 3.1 Pro Preview que obtuvo una puntuación perfecta en los problemas teóricos de la Olimpiada Internacional de Física de 2025, aunque advierte que este resultado podría deberse a contaminación de datos dado que el modelo se lanzó después de la competición.

Yichen Huang2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

Non-Invasive Reconstruction of Intracranial EEG Across the Deep Temporal Lobe from Scalp EEG based on Conditional Normalizing Flow

Este estudio presenta NeuroFlowNet, un marco generativo innovador basado en flujos normalizadores condicionales que reconstruye por primera vez señales de electroencefalografía intracraneal (iEEG) de alta fidelidad en el lóbulo temporal profundo a partir de electroencefalografía de cuero cabelludo (sEEG), superando las limitaciones de los métodos tradicionales al capturar eficazmente la aleatoriedad y las dependencias a largo plazo de la dinámica cerebral.

Dongyi He, Bin Jiang, Kecheng Feng + 5 more2026-03-05🤖 cs.AI

Inhibitory Cross-Talk Enables Functional Lateralization in Attention-Coupled Latent Memory

El artículo presenta un transformador aumentado con memoria que logra una lateralización funcional especializada mediante un acoplamiento cruzado inhibitorio, el cual evita el colapso de dominancia bancaria y mejora drásticamente el recuerdo episódico sin perjudicar la predicción basada en reglas.

Hong Jeong2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

El artículo presenta ACES, un método de auditoría basado en representaciones que identifica subespacios de acento de baja dimensión en modelos de reconocimiento automático de voz como herramientas diagnósticas esenciales, revelando que la información del acento está profundamente entrelazada con las señales críticas para el reconocimiento y que su supresión lineal no mejora la equidad.

Swapnil Parekh2026-03-05🤖 cs.AI

Bridging the Reproducibility Divide: Open Source Software's Role in Standardizing Healthcare AI

A pesar de que la mayoría de los artículos de IA en salud aún dependen de datos privados y no comparten su código, adoptar prácticas de ciencia abierta y estandarizar los procesos mediante software de código fuente no solo duplica las citas recibidas, sino que es fundamental para garantizar la reproducibilidad, la confianza y la seguridad de los sistemas de IA en la atención médica.

John Wu, Zhenbang Wu, Jimeng Sun2026-03-05🤖 cs.AI

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Este trabajo presenta "Sleeper Cell", un marco de ajuste fino eficiente en parámetros que inyecta puertas traseras latentes en agentes de LLMs mediante una estrategia de "SFT seguido de GRPO" para implantar comportamientos maliciosos ocultos que se activan solo bajo condiciones específicas, manteniendo al mismo tiempo un rendimiento impecable en tareas benignas.

Bhanu Pallakonda, Mikkel Hindsbo, Sina Ehsani + 1 more2026-03-05🤖 cs.AI

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

MemSifter es un marco innovador que optimiza la recuperación de memoria en modelos de lenguaje grandes (LLM) mediante el uso de un modelo proxy pequeño entrenado con aprendizaje por refuerzo para razonar sobre la tarea y seleccionar información relevante, logrando así un equilibrio eficiente entre precisión, coste computacional y rendimiento en tareas de larga duración.

Jiejun Tan, Zhicheng Dou, Liancheng Zhang + 3 more2026-03-05🤖 cs.AI

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Este artículo presenta LiteVLA-Edge, un pipeline de modelos de Visión-Lenguaje-Acción optimizado para inferencia totalmente local en hardware embebido mediante cuantización y aceleración GPU, logrando una latencia de 150,5 ms que demuestra la viabilidad del control reactivo condicionado por lenguaje en robótica integrada.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

← Anterior Siguiente →