cs artículos | Gist.Science

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

El artículo presenta DivCon, un enfoque de dividir y conquistar que mejora la generación de imágenes texto-a-imagen al desacoplar la predicción de la disposición espacial y la síntesis de objetos en subtasas manejables, permitiendo a modelos de lenguaje ligeros lograr una precisión superior y una mejor calidad perceptual en prompts complejos con múltiples objetos.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Esta encuesta presenta una revisión integral y un benchmark de las tecnologías más avanzadas para la generación y detección de deepfakes, abarcando definiciones de tareas, conjuntos de datos, métricas, cuatro campos representativos (intercambio de rostros, reenactment, generación de rostros parlantes y edición de atributos faciales) y sus desafíos futuros.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Weighted Reservoir Sampling With Replacement from Data Streams

Este trabajo presenta un nuevo algoritmo de muestreo aleatorio con reemplazo para flujos de datos que permite obtener en una sola pasada una muestra ponderada representativa del conjunto visto hasta el momento, garantizando su corrección y eficiencia mediante pruebas formales y análisis experimental.

Adriano Meligrana, Adriano Fazzone2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Los autores proponen tres nuevos conjuntos de prueba de alta calidad denominados Hadrian, Eclipse y ND-Twins para evaluar la verificación facial en escenarios desafiantes como diferencias en atributos faciales y similitud entre individuos, evitando la degradación artificial de las imágenes y aplicando reglas estrictas para garantizar una evaluación equilibrada y rigurosa.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

RDM: Recurrent Diffusion Model for Human Motion Generation

El artículo presenta RDM, un nuevo modelo de difusión recurrente que utiliza flujos normalizadores para generar secuencias largas de movimiento humano alineadas con texto, evitando el costoso proceso de desruido completo de los marcos anteriores y reduciendo significativamente los costos computacionales durante la inferencia.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Este artículo presenta un método que utiliza la Entropía de Transferencia para modular la influencia entre agentes en la interacción humano-robot, demostrando mediante simulaciones y experimentos reales que potenciar dicha influencia mejora la colaboración, mientras que resistirla fomenta la independencia social.

Haoyang Jiang, Elizabeth A. Croft, Michael G. Burke2026-03-10💻 cs

On Polynomial-Time Decidability of k-Negations Fragments of First-Order Theories

Este artículo presenta un marco genérico que garantiza la decidibilidad en tiempo polinómico de fragmentos de teorías de primer orden con un número fijo de negaciones, demostrando su aplicabilidad para probar la tractabilidad de la aritmética débil de Presburger y otras teorías relacionadas, en contraste con la dureza NP de fragmentos más restringidos de la aritmética de Presburger estándar.

Christoph Haase, Alessio Mansutti, Amaury Pouly2026-03-10💻 cs

MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

El artículo presenta MORCoRA, una técnica de búsqueda multiobjetivo que recomienda secuencias de refactorización que mejoran la calidad del código y preservan su semántica, al mismo tiempo que identifica revisores expertos y disponibles para garantizar la viabilidad de la revisión.

Lei Chen, Shinpei Hayashi2026-03-10💻 cs

A 1.6-fJ/Spike Subthreshold Analog Spiking Neuron in 28 nm CMOS

Este trabajo presenta un diseño de neurona analógica Leaky Integrate-and-Fire en tecnología CMOS de 28 nm que consume solo 1.61 fJ por espiga, logrando una frecuencia máxima de 300 kHz y una precisión del 82.5% en el conjunto de datos MNIST, demostrando así la viabilidad de sistemas neuromórficos de bajo consumo para aplicaciones de aprendizaje automático embebido.

Marwan Besrour, Takwa Omrani, Jacob Lavoie, Gabriel Martin-Hardy, Esmaeil Ranjbar Koleibi, Jeremy Menard, Konin Koua, Philippe Marcoux, Mounir Boukadoum, Rejean Fontaine2026-03-10💻 cs

Life Histories of Taboo Knowledge Artifacts

Este estudio de métodos mixtos examina el ciclo de vida de los artículos de Wikipedia sobre temas tabú, identificando seis temas clave que revelan cómo la colaboración resiliente, el liderazgo y la gobernanza emergente permiten crear y mantener conocimiento de alta calidad en medio de conflictos y censura.

Kaylea Champion, Benjamin Mako Hill2026-03-10💻 cs

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Este trabajo presenta el Sistema de Análisis Multimodal de Video Laringoscópico (MLVAS), una herramienta innovadora que combina datos de audio y video mediante detección de glotis, refinamiento de segmentación basado en difusión y extracción de características acústicas y visuales para asistir en el diagnóstico objetivo y automatizado de la parálisis de las cuerdas vocales.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li2026-03-10💻 cs

The Future of Software Testing: AI-Powered Test Case Generation and Validation

Este artículo explora el potencial transformador de la inteligencia artificial para optimizar la generación y validación de casos de prueba mediante la automatización y el aprendizaje automático, abordando al mismo tiempo los desafíos de implementación para lograr lanzamientos de software más rápidos, precisos y escalables.

Mohammad Baqar, Rajat Khanda2026-03-10💻 cs

Safe Navigation of Bipedal Robots via Koopman Operator-Based Model Predictive Control

Este trabajo propone un marco de navegación segura para robots bípedos que combina aprendizaje por refuerzo profundo con el control predictivo basado en el operador de Koopman para linealizar la dinámica compleja en un espacio elevado, logrando así una predicción más precisa y una mayor tasa de éxito en entornos densos.

Jeonghwan Kim, Yunhai Han, Harish Ravichandar, Sehoon Ha2026-03-10💻 cs

InterMind: Doctor-Patient-Family Interactive Depression Assessment Empowered by Large Language Models

El artículo presenta InterMind, un sistema basado en modelos de lenguaje grande que mejora la evaluación de la depresión mediante la interacción entre médicos, pacientes y familiares, integrando técnicas como la generación aumentada por recuperación y la cadena de pensamiento para ofrecer diagnósticos más precisos, interpretables y libres de alucinaciones.

Zhiyuan Zhou, Jilong Liu, Sanwang Wang, Shijie Hao, Yanrong Guo, Richang Hong2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

El artículo presenta PiVOT, un nuevo mecanismo de visual prompting que aprovecha el modelo fundacional CLIP para generar y refinar dinámicamente indicaciones visuales en línea, mejorando así la capacidad de los rastreadores de objetos genéricos para suprimir distracciones y distinguir el objetivo de su entorno.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation

El sistema S^2Sim automatiza el diagnóstico y la reparación de configuraciones de enrutamiento distribuido mediante la simulación simbólica selectiva de variantes para identificar errores y generar parches que cumplan con los requisitos de intención, demostrando su eficacia en redes de gran escala.

Rulan Yang, Gao Han, Hanyang Shao, Xiaoqiang Zheng, Xing Fang, Ziyi Wang, Lizhao You, Ruiting Zhou, Linghe Kong, Ennan Zhai, Qiao Xiang, Jiwu Shu2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

El artículo presenta al Pose Prior Learner (PPL), un método no supervisado que aprende priores categóricos generales de pose para cualquier categoría de objeto mediante un aprendizaje auto-supervisado y una memoria jerárquica, mejorando así la precisión en la estimación de poses incluso en imágenes ocluidas sin requerir anotaciones humanas adicionales.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

El artículo presenta ExpGest, un marco innovador basado en modelos de difusión que utiliza información sincronizada de audio y texto para generar gestos corporales completos, expresivos y controlables, superando las limitaciones de rigidez y falta de contenido semántico de los métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Optimal Mediation Mechanism in Bilateral Trade

Este artículo estudia el diseño de mecanismos de mediación que maximizan los ingresos en el comercio bilateral con valoraciones interdependientes, demostrando una trilema de imposibilidad y caracterizando mecanismos óptimos bajo condiciones de relajación que revelan estructuras de umbral que generan efectos de mercado de limones o asignan más información a los compradores de menor tipo.

Zhikang Fan, Weiran Shen, Shaojie Tang, Yao Wang2026-03-10💻 cs

I/O complexity and pebble games with partial computations

Este trabajo propone una variante del juego de fichas que permite cálculos parciales para modelar grafos acíclicos dirigidos con grados de entrada arbitrarios, demostrando que encontrar una estrategia óptima es NP-completo incluso en casos simples y presentando algoritmos de aproximación para casos especiales.

Aleksandros Sobczyk2026-03-10💻 cs

← Anterior Siguiente →