cs.AI artículos | Gist.Science

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

El artículo presenta DeformTrace, un modelo innovador que combina dinámicas deformables y un mecanismo de tokens de relevo dentro de arquitecturas de Espacio de Estados (SSM) para lograr una localización temporal de falsificaciones en video y audio con mayor precisión, eficiencia y robustez que los métodos actuales.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

Este artículo presenta STEM-Bench, el primer benchmark para evaluar la memoria en diálogos de streaming infinito, y propone ProStream, un marco de memoria jerárquica proactiva que resuelve el dilema entre fidelidad y eficiencia mediante la recuperación de memoria bajo demanda y la optimización dinámica de la retención.

Bingbing Wang, Jing Li, Ruifeng Xu2026-03-06🤖 cs.AI

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

El artículo presenta FedAFD, un marco unificado de aprendizaje federado multimodal que mejora el rendimiento personalizado y global mediante una estrategia de alineación adversaria, un módulo de fusión adaptable y un mecanismo de destilación guiado por similitud para abordar la heterogeneidad de datos y modelos.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Este trabajo propone un método de muestreo diverso y sin entrenamiento que modifica secuencialmente las muestras intermedias en modelos de lenguaje difusivos para penalizar la redundancia, logrando así una mejora significativa en la diversidad y el rendimiento Pass@ $k$ en tareas de razonamiento complejo con un costo computacional mínimo.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Differentially Private Multimodal In-Context Learning

El artículo presenta DP-MTV, el primer marco que habilita el aprendizaje multimodal en contexto con muchas muestras bajo privacidad diferencial formal, logrando un rendimiento cercano al no privado en tareas sensibles mediante la agregación de demostraciones en vectores de tarea compactos con una única adición de ruido.

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near2026-03-06🤖 cs.AI

Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

Este trabajo presenta AoD-IP, un marco innovador para modelos de visión y lenguaje que garantiza la protección de la propiedad intelectual mediante una autorización dinámica bajo demanda y una evaluación consciente de la legalidad, superando las limitaciones de los métodos estáticos existentes al permitir una adaptación flexible a entornos cambiantes.

Lianyu Wang, Meng Wang, Huazhu Fu + 1 more2026-03-06🤖 cs.AI

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

EvoTool es un marco de autoevolución que optimiza la política de uso de herramientas en agentes LLM mediante un paradigma evolutivo libre de gradientes que localiza errores específicos, aplica mutaciones dirigidas y selecciona candidatos diversos, logrando un rendimiento superior en múltiples benchmarks.

Shuo Yang, Soyeon Caren Han, Xueqi Ma + 3 more2026-03-06🤖 cs.AI

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

El artículo presenta AgentSCOPE, un marco y benchmark que evalúa la privacidad contextual en cada etapa de los flujos de trabajo de agentes, revelando que la mayoría de las violaciones ocurren en las respuestas de las herramientas y que las evaluaciones centradas únicamente en la salida subestiman significativamente los riesgos de privacidad.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy2026-03-06🔒 cs.CR

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Este estudio demuestra que las intervenciones de alineación en modelos de lenguaje grandes pueden provocar un "efecto rebote" dependiente del idioma, donde la seguridad superficial en inglés se invierte en patologías colectivas y disociación en otros idiomas como el japonés, revelando que la validación de seguridad en inglés no garantiza resultados seguros en otros contextos lingüísticos y culturales.

Hiroki Fukui2026-03-06🤖 cs.AI

Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Este artículo presenta un flujo de trabajo determinista e interpretable, implementado en un script de Python, que procesa registros extraídos de una base de datos académica para calcular y categorizar mediante lógica difusa los costos por estudiante, generando informes reproducibles y trazables para la toma de decisiones administrativas.

Shane Lee, Stella Ng2026-03-06🤖 cs.AI

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

El artículo presenta VPWEM, una política visuomotor no markoviana que integra memorias de trabajo y episódica mediante un compresor contextual basado en Transformers para resolver tareas de manipulación que requieren memoria a largo plazo con una eficiencia computacional constante, superando significativamente a los modelos de estado del arte en benchmarks de manipulación móvil y de memoria intensiva.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

El artículo presenta EVMbench, una evaluación que demuestra que los agentes de IA avanzados son capaces de detectar, parchear y explotar vulnerabilidades en contratos inteligentes de Ethereum en entornos de ejecución reales, utilizando un conjunto de datos curado y calificación programática para medir estos riesgos y capacidades.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

El artículo presenta BandPO, un nuevo método de optimización para el aprendizaje por refuerzo en modelos de lenguaje grande que sustituye el recorte fijo tradicional por límites dinámicos sensibles a la probabilidad, resolviendo así el cuello de botella en la exploración y mitigando el colapso de entropía sin comprometer la estabilidad.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Knowledge-informed Bidding with Dual-process Control for Online Advertising

El artículo presenta KBD, un método innovador para la optimización de pujas en publicidad en línea que integra el conocimiento experto humano y un control de doble proceso (combinando reglas PID rápidas con un Transformador de Decisiones) para superar las limitaciones de los modelos de aprendizaje automático tradicionales en escenarios con datos escasos y dependencias a largo plazo.

Huixiang Luo, Longyu Gao, Yaqi Liu + 3 more2026-03-06🤖 cs.AI

TimeWarp: Evaluating Web Agents by Revisiting the Past

El artículo presenta TimeWarp, un nuevo benchmark que evalúa la robustez de los agentes web frente a cambios en el diseño y la interfaz de usuario, y propone TimeTraj, un algoritmo que utiliza la destilación de planes en múltiples versiones para superar las limitaciones de los métodos actuales y mejorar significativamente el rendimiento de los modelos.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Este trabajo presenta un marco de preentrenamiento con tareas conscientes de la ubicación que mejora la capacidad de los modelos de visión para detectar cambios clínicos sutiles en imágenes médicas, logrando un rendimiento superior en la respuesta a preguntas visuales sobre diferencias en radiografías de tórax.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

Retrieval-Augmented Generation with Covariate Time Series

El artículo presenta RAG4CTS, un marco de generación aumentada por recuperación sin entrenamiento diseñado específicamente para series temporales con covariables en escenarios de alta escasez de datos, el cual supera a los métodos existentes en la predicción de fallos de válvulas de regulación de presión mediante una base de conocimientos nativa y un mecanismo de recuperación bi-ponderado, logrando una implementación exitosa en China Southern Airlines con cero falsas alarmas.

Kenny Ye Liang, Zhongyi Pei, Huan Zhang + 3 more2026-03-06🤖 cs.AI

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

El artículo presenta la Optimización de Preferencias Ponderada por Confianza (CW-PO), un marco que utiliza un modelo de lenguaje débil para reponderar muestras de entrenamiento, logrando un rendimiento superior al de los métodos tradicionales con anotaciones humanas completas al seleccionar solo un subconjunto de muestras altamente confiables.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

El artículo presenta MPCEval, una suite de evaluación y benchmarking diseñada para medir la generación de conversaciones multipersona mediante métricas cuantitativas y sin referencia que descomponen la calidad en modelado del hablante, calidad del contenido y consistencia entre ambos, revelando cómo los objetivos de evaluación influyen en la percepción de las capacidades de los modelos de IA generativa.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

El artículo presenta MOUE, una generalización de los modelos de expertos mezclados (MoE) que introduce la "ancho virtual" al reutilizar expertos universales entre capas mediante una topología rotacional escalonada y mecanismos de balanceo de carga específicos, logrando mejoras significativas en el rendimiento y la escalabilidad frente a las arquitecturas MoE convencionales.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

← Anterior Siguiente →

cs.AI