cs.AI artículos | Gist.Science

Machine Learning Transferability for Malware Detection

Este estudio evalúa la idoneidad de diferentes enfoques de preprocesamiento de datos para mejorar la generalización y transferibilidad de modelos de aprendizaje automático en la detección de malware, unificando características de EMBERv2 y entrenando modelos combinados que se prueban contra múltiples conjuntos de datos de referencia.

César Vieira, João Vitorino, Eva Maia, Isabel Praça2026-03-30🤖 cs.AI

Make Geometry Matter for Spatial Reasoning

El artículo presenta GeoSR, un marco que mejora el razonamiento espacial de los modelos visión-lenguaje mediante el enmascaramiento estratégico de tokens visuales 2D y una fusión guiada por geometría, logrando así un rendimiento superior al estado del arte al forzar al modelo a utilizar activamente la información geométrica.

Shihua Zhang, Qiuhong Shen, Shizun Wang, Tianbo Pan, Xinchao Wang2026-03-30🤖 cs.AI

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

El artículo presenta Vision2Web, un benchmark jerárquico basado en sitios web reales que evalúa el desarrollo de sitios visuales desde la generación de código hasta el desarrollo full-stack, utilizando un paradigma de verificación con agentes para revelar las limitaciones actuales de los modelos de lenguaje visuales en tareas complejas.

Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang2026-03-30🤖 cs.AI

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

El artículo presenta PerceptionComp, un nuevo benchmark de 1.114 preguntas manualmente anotadas sobre 279 videos que evalúa la capacidad de razonamiento perceptivo complejo y de largo alcance en modelos de lenguaje multimodal, revelando que tanto los humanos como los modelos de última generación enfrentan dificultades significativas en esta tarea.

Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna2026-03-30💬 cs.CL

Ruka-v2: Tendon Driven Open-Source Dexterous Hand with Wrist and Abduction for Robot Learning

Este artículo presenta Ruka-v2, una mano robótica dextrá de código abierto y accionada por tendones que incorpora movilidad de muñeca y abducción de dedos, logrando mejoras significativas en el rendimiento de teleoperación y demostrando su utilidad para el aprendizaje automático en robótica.

Xinqi (Lucas), Liu, Ruoxi Hu, Alejandro Ojeda Olarte, Zhuoran Chen, Kenny Ma, Charles Cheng Ji, Lerrel Pinto, Raunaq Bhirangi, Irmak Guzey2026-03-30🤖 cs.AI

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

El artículo presenta el Hourglass Diffusion Transformer (HDiT), un modelo generativo de imágenes que escala linealmente con el número de píxeles y permite entrenar directamente en el espacio de píxeles a resoluciones altas (como 1024x1024) sin técnicas habituales, logrando un nuevo estado del arte en FFHQ-1024².

Katherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z. Kaplan, Enrico Shippole2026-03-27🤖 cs.LG

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge

Este artículo presenta EIKE, un nuevo enfoque de incrustación de ontologías que integra simultáneamente el conocimiento extensional e intensional mediante un marco unificado que combina métodos geométricos y modelos de lenguaje preentrenados, logrando un rendimiento superior en tareas de clasificación de tripletes y predicción de enlaces.

Keyu Wang, Guilin Qi, Jiaoyan Chen, Yi Huang, Tianxing Wu2026-03-27💬 cs.CL

History of generative Artificial Intelligence (AI) chatbots: past, present, and future development

Este artículo ofrece una revisión exhaustiva de la evolución de los chatbots, desde sus inicios basados en reglas y modelos estadísticos tempranos hasta los actuales agentes conversacionales impulsados por inteligencia artificial y transformadores, analizando hitos clave y proyectando su futuro potencial.

Md. Al-Amin, Mohammad Shazed Ali, Abdus Salam, Arif Khan, Ashraf Ali, Ahsan Ullah, Md Nur Alam, Shamsul Kabir Chowdhury2026-03-27🤖 cs.AI

A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis

Este artículo presenta un marco de usuario amigable (UF-FGTG) y un nuevo conjunto de datos (CFP) que automatizan la optimización de prompts para síntesis de imágenes texto-a-imagen, traduciendo las entradas de usuarios novatos en prompts preferidos por el modelo para generar imágenes más estéticas y diversas.

Nailei Hei, Qianyu Guo, Zihao Wang, Yan Wang, Haofen Wang, Wenqiang Zhang2026-03-27🤖 cs.AI

MindSet: Vision. A toolbox for testing DNNs on key psychological experiments

El artículo presenta MindSet: Vision, una caja de herramientas que ofrece conjuntos de datos de imágenes manipulados sistemáticamente y scripts para evaluar la alineación entre las redes neuronales profundas y la percepción visual humana mediante 30 hallazgos psicológicos clave.

Valerio Biscione, Milton L. Montero, Marin Dujmovic, Gaurav Malhotra, Dong Yin, Guillermo Puebla, Federico Adolfi, Rachel F. Heaton, John E. Hummel, Benjamin D. Evans, Karim Habashy, Jeffrey S. Bowers2026-03-27🤖 cs.AI

← Anterior Siguiente →