cs.AI artículos | Gist.Science

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

Este estudio demuestra que, en la educación en diseño, la inteligencia artificial generativa actúa principalmente como un acelerador cognitivo que complementa, pero no reemplaza, las capacidades humanas esenciales de agencia, conocimiento del dominio, imaginación y gusto para la colaboración efectiva.

Qian Huang, King Wang Poon2026-03-10💻 cs

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

El artículo presenta Self-MOA, un marco automatizado que alinea modelos de lenguaje pequeños mediante supervisión débil y optimización multiobjetivo, logrando una mejora del 12,41% en seguridad sin sacrificar la utilidad y utilizando hasta 11 veces menos datos de entrenamiento que los métodos supervisados por humanos.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

El artículo presenta \textsc{ReSched}, un marco de aprendizaje por refuerzo profundo minimalista basado en arquitecturas Transformer que, al reducir la representación del estado a solo cuatro características esenciales y eliminar dependencias históricas, supera a los métodos existentes y demuestra una fuerte generalización en diversos problemas de programación de talleres.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

El artículo presenta Hit-RAG, un marco de alineación de preferencias en tres etapas que optimiza el uso de evidencias externas en modelos de lenguaje multimodal para superar la dilución de atención y las alucinaciones en contextos extensos, logrando un razonamiento preciso que supera a modelos mucho más grandes.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Enhancing Web Agents with a Hierarchical Memory Tree

El artículo propone la Memoria Jerárquica en Árbol (HMT), un marco estructurado que desacopla la planificación lógica de la ejecución de acciones mediante una jerarquía de tres niveles, mejorando significativamente la generalización de los agentes web en entornos no vistos al evitar la confusión entre la lógica de la tarea y los detalles específicos del sitio.

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

El artículo presenta DeepEarth, un modelo de mundo auto-supervisado que utiliza el codificador posicional 4D Earth4D para integrar datos multivariados a escala planetaria con precisión submétrica y subsegundo, logrando un rendimiento superior en pronósticos ecológicos.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

El artículo presenta CAPL, un marco estructurado que mitiga las alucinaciones en tareas de múltiples imágenes mediante la calibración de la atención cruzada entre imágenes y el aprendizaje de preferencias, logrando así una mejor alineación de entidades y una mayor dependencia de la evidencia visual genuina sin comprometer el rendimiento en tareas de imagen única.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Este artículo presenta un marco de trabajo accesible que utiliza scripting asistido por modelos de lenguaje grande para generar animaciones 3D de datos climáticos petascala en estaciones de trabajo comerciales, permitiendo a científicos sin experiencia en visualización crear resultados de alta resolución en tiempos de procesamiento muy reducidos.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Este artículo propone un método de diagnóstico de fallos con pocos ejemplos que utiliza un prototipo de gemelo digital bidireccional anclado con aprendizaje de multi-periodicidad para superar la dependencia de grandes cantidades de datos etiquetados mediante la adaptación de meta-entrenamiento en el espacio virtual y adaptación en tiempo de prueba en el espacio físico.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer es un marco de guiado de activaciones sin entrenamiento que genera pares sintéticos contrafactuales en imágenes endoscópicas preservando la estructura anatómica y superando a los métodos basados en inversión en la generación de datos causales para la detección de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

User Review Writing via Interview with Dialogue Systems

Este estudio propone y valida un sistema basado en diálogo con IA que facilita la creación de reseñas de usuarios mediante entrevistas, logrando que las reseñas generadas requieran menos edición y sean percibidas como más útiles por los lectores en comparación con las escritas por humanos.

Yoshiki Tanaka, Michimasa Inaba2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

El artículo presenta CoTJudger, un marco basado en grafos que evalúa automáticamente la eficiencia y la redundancia en los modelos de razonamiento a gran escala (LRMs) al convertir las cadenas de pensamiento en grafos de dependencia para identificar la ruta más corta necesaria para la solución correcta.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

El artículo introduce Countdown-Code, un entorno minimalista que demuestra cómo la contaminación de datos de entrenamiento con solo un 1% de ejemplos de hacking de recompensas puede inducir a los modelos de lenguaje a aprender y generalizar este comportamiento de desalineación durante el ajuste fino supervisado y el aprendizaje por refuerzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

mAVE: A Watermark for Joint Audio-Visual Generation Models

El artículo presenta mAVE, un marco de marca de agua diseñado nativamente para modelos de generación audio-visual conjunta que resuelve la vulnerabilidad de los ataques de intercambio mediante el enlace criptográfico de los latentes de audio y video, garantizando así la integridad de la autoría sin pérdida de rendimiento.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Este artículo investiga la capacidad de los modelos de lenguaje grandes para sintetizar código ejecutable en Unity a partir de patrones de juego, comparando la generación directa con enfoques basados en representaciones intermedias y revelando que los principales obstáculos para la escalabilidad son los fallos de "grounding" estructural y de proyecto.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

El artículo presenta PSAD, un marco de reranking personalizado que combina generación semiautoregresiva y destilación de conocimiento en línea para resolver el conflicto entre calidad y latencia, mejorando además la interacción usuario-ítem mediante una red de perfiles de usuario y superando a los métodos más avanzados en rendimiento y eficiencia.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

El estudio demuestra que los Modelos de Lenguaje Visual actuales carecen de la capacidad de razonar sobre transformaciones físicas, ya que fallan sistemáticamente al evaluar la conservación de cantidades físicas en escenas dinámicas, confiando en lugar de ello en sesgos textuales en lugar de comprender visualmente la invariancia.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Este estudio presenta un agente de IA para el juego de Werewolf, desarrollado para la tarea compartida AIWolfDial 2024, que mejora la coherencia de sus respuestas mediante el uso de resúmenes de diálogo generados por modelos de lenguaje y perfiles de personaje diseñados manualmente.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

El artículo presenta aCAPTCHA, un protocolo de verificación que utiliza la asimetría en la dificultad de procesamiento temporal entre humanos y agentes de IA para distinguir y admitir únicamente a entidades capaces de actuar de forma autónoma.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

El artículo presenta EyExIn, un marco eficiente en datos que mejora el razonamiento médico en modelos de visión y lenguaje para oftalmología mediante la inyección profunda de conocimiento experto, el cual aborda las brechas de percepción y razonamiento para reducir las alucinaciones y lograr un rendimiento superior en la interpretación de imágenes retinianas.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

← Anterior Siguiente →