cs.AI artículos | Gist.Science

HELM: Hierarchical and Explicit Label Modeling with Graph Learning for Multi-Label Image Classification

El artículo presenta HELM, un marco novedoso que combina tokens de clase específicos de la jerarquía, redes de convolución gráfica y aprendizaje auto-supervisado para lograr un rendimiento superior en la clasificación de imágenes multietiqueta de teledetección, especialmente en escenarios con pocas etiquetas.

Marjan Stoimchev, Boshko Koloski, Jurica Levatic, Dragi Kocev, Sašo Džeroski2026-03-13🤖 cs.AI

Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder

Este artículo propone un método de auditoría de equidad mecánica que localiza sesgos demográficos en cabezas de atención individuales del codificador visual de CLIP, demostrando que es posible reducir el sesgo de género mediante la ablación de cabezas específicas, mientras que el sesgo de edad parece estar codificado de manera más difusa.

Alaa Yasser, Kittipat Phunjanna, Marcos Escudero Viñolo, Catarina Barata, Jenny Benois-Pineau2026-03-13🤖 cs.AI

DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering

El documento presenta DocSage, un marco de agente end-to-end que mejora significativamente la respuesta a preguntas sobre múltiples documentos y entidades mediante la integración de descubrimiento dinámico de esquemas, extracción de información estructurada en tablas relacionales y razonamiento relacional consciente del esquema, superando así las limitaciones de los sistemas RAG y LLM existentes.

Teng Lin, Yizhang Zhu, Zhengxuan Zhang, Yuyu Luo, Nan Tang2026-03-13🤖 cs.AI

A Semi-Decentralized Approach to Multiagent Control

Este artículo presenta un marco teórico y el algoritmo exacto RS-SDA* para el control semi-descentralizado de agentes cooperativos en entornos con incertidumbre en la comunicación, unificando los procesos de decisión de Markov parcialmente observables descentralizados (Dec-POMDP) mediante la extensión del concepto de semi-descentralización a los POMDP.

Mahdi Al-Husseini, Mykel J. Kochenderfer, Kyle H. Wray2026-03-13🤖 cs.AI

Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Este artículo presenta un marco para automatizar la adquisición de habilidades procedimentales en agentes de IA mediante la minería de repositorios de código abierto, demostrando que la extracción sistemática de conocimientos especializados mejora significativamente la eficiencia en la transferencia de conocimiento sin necesidad de reentrenar los modelos.

Shuzhen Bi, Mengsong Wu, Hao Hao, Keqian Li, Wentao Liu, Siyu Song, Hongbo Zhao, Aimin Zhou2026-03-13🤖 cs.AI

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

RADAR es un sistema autónomo de generación de datos robóticos que elimina la intervención humana mediante un bucle cerrado de planificación semántica, ejecución por imitación y restablecimiento causal del entorno, logrando una recolección de datos escalable y robusta tanto en simulación como en el mundo real.

Yongzhong Wang, Keyu Zhu, Yong Zhong, Liqiong Wang, Jinyu Yang, Feng Zheng2026-03-13🤖 cs.AI

VisiFold: Long-Term Traffic Forecasting via Temporal Folding Graph and Node Visibility

El artículo presenta VisiFold, un marco innovador que utiliza un gráfico de plegado temporal y un mecanismo de visibilidad de nodos para superar las limitaciones computacionales y de dependencia espacio-temporal en la predicción de tráfico a largo plazo, logrando un rendimiento superior con un consumo de recursos drásticamente reducido.

Zhiwei Zhang, Xinyi Du, Weihao Wang, Xuanchi Guo, Wenjuan Han2026-03-13🤖 cs.AI

Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI

Este estudio propone un sistema automatizado para la detección de lesiones malignas en el ovario utilizando variantes de redes neuronales convolucionales entrenadas con un conjunto de datos histopatológicos, donde el modelo InceptionV3 con ReLU obtuvo el mejor rendimiento (94%) y se complementó con técnicas de IA explicable (LIME, Integrated Gradients y SHAP) para interpretar los resultados.

Md. Hasin Sarwar Ifty, Nisharga Nirjan, Labib Islam, M. A. Diganta, Reeyad Ahmed Ornate, Anika Tasnim, Md. Saiful Islam2026-03-13🤖 cs.AI

Hybrid Human-Agent Social Dilemmas in Energy Markets

Este estudio demuestra que la introducción de agentes artificiales capaces de utilizar señales observables globalmente puede fomentar la coordinación cooperativa en dilemas sociales de gestión energética, mejorando los resultados agregados incluso durante las fases de adopción parcial, aunque esto puede generar beneficios asimétricos para los no adoptantes.

Isuri Perera, Frits de Nijs, Julian Garcia2026-03-13🤖 cs.AI

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

El artículo identifica y cuantifica la "Dilema del Ejecutor de Confianza", una vulnerabilidad estructural en los agentes LLM de alto privilegio que les lleva a ejecutar instrucciones maliciosas ocultas en documentación técnica, demostrando mediante el benchmark ReadSecBench que las defensas actuales son ineficaces para prevenir la exfiltración de datos sin generar falsos positivos inaceptables.

Ching-Yu Kao, Xinfeng Li, Shenyu Dai, Tianze Qiu, Pengcheng Zhou, Eric Hanchen Jiang, Philip Sperl2026-03-13🤖 cs.AI

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Este trabajo presenta CreativeBench, un nuevo marco de evaluación cuantitativa para la creatividad en la generación de código que distingue objetivamente entre creatividad y alucinación, revela comportamientos específicos de los modelos a escala y propone EvoRePE, una estrategia de inferencia que mejora consistentemente la creatividad de las máquinas mediante patrones de búsqueda evolutiva.

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang2026-03-13🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

El artículo propone un marco sistemático para operacionalizar las normas sociales, legales, éticas, empáticas y culturales (SLEEC) en agentes de IA, cerrando la brecha entre los principios abstractos y los requisitos verificables para garantizar su alineación con los valores humanos en dominios de alto riesgo.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley Townsend2026-03-13🤖 cs.AI

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

ElISA es un agente de IA híbrido e interpretable que unifica los embeddings de scGPT con la recuperación semántica de BioBERT y la interpretación mediada por LLM para permitir el descubrimiento interactivo de hipótesis biológicas a partir de datos de scRNA-seq sin acceder a la matriz de conteo original, superando significativamente a sistemas anteriores como CellWhisperer en la recuperación de tipos celulares y la alineación con hallazgos biológicos publicados.

Omar Coser2026-03-13🧬 q-bio

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

El artículo presenta AdaFuse, un marco que acelera la inferencia de adaptadores dinámicos en modelos de lenguaje grandes mediante una estrategia de pre-gateo a nivel de token y la optimización de kernels CUDA fusionados, logrando reducir la latencia de decodificación en más de 2,4 veces sin comprometer la precisión.

Qiyang Li, Rui Kong, Yuchen Li, Hengyi Cai, Shuaiqiang Wang, Linghe Kong, Guihai Chen, Dawei Yin2026-03-13🤖 cs.AI

The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection

El artículo presenta "Mirror", un patrón de diseño que prioriza la geometría estricta de los datos sobre la escala del modelo para la detección de inyecciones de prompts, logrando mediante un clasificador lineal optimizado una latencia submilisegundo y una precisión superior a la de modelos neuronales grandes en la capa inicial de filtrado.

J Alex Corll2026-03-13🤖 cs.AI

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

Este informe presenta Bielik-Minitron-7B, un modelo de lenguaje comprimido para el polaco que, mediante poda estructurada y destilación de conocimiento, reduce un 33,4% los parámetros del modelo original Bielik-11B-v3.0 recuperando el 90% de su rendimiento y logrando una aceleración de inferencia de hasta un 50%.

Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwozdziej2026-03-13💬 cs.CL

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

El artículo presenta "Think While Watching", un marco de razonamiento en streaming para modelos multimodales que, mediante una memoria anclada a nivel de segmento y una estrategia de entrenamiento de tres etapas, permite la percepción y generación simultáneas para mejorar la interacción de múltiples vueltas en flujos de video continuos.

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)2026-03-13💬 cs.CL

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

El artículo presenta EnTransformer, un marco de pronóstico generativo profundo que combina la regresión estocástica con arquitecturas Transformer para realizar pronósticos probabilísticos multivariados coherentes y bien calibrados sin depender de suposiciones paramétricas restrictivas.

Rajdeep Pathak, Rahul Goswami, Madhurima Panja, Palash Ghosh, Tanujit Chakraborty2026-03-13📊 stat

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Este estudio revela que los modelos de lenguaje actuales, incluso los más avanzados, a menudo fallan en mantener principios éticos al procesar contenido dañino proporcionado por el usuario dentro de tareas aparentemente benignas, lo que destaca una vulnerabilidad de seguridad de nivel de contenido que requiere medidas de mitigación.

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang Zhang2026-03-13🤖 cs.AI

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

El artículo presenta MobileKernelBench, un marco de evaluación que revela las limitaciones actuales de los LLMs para generar kernels eficientes en dispositivos móviles, y propone MoKA, un agente multiagente que supera estos desafíos logrando una tasa de compilación del 93,7% y mejoras de velocidad significativas.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

← Anterior Siguiente →