cs.AI artículos | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Este trabajo demuestra que el ajuste fino con LoRA de modelos de lenguaje grandes compactos para sistemas de síntesis de voz mejora significativamente la calidad perceptiva, la fidelidad del hablante y la relación señal-ruido, siempre que se utilice un conjunto de datos de entrenamiento suficientemente diverso.

Anupam Purwar, Aditya Choudhary2026-03-12🤖 cs.AI

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Este artículo propone el Entrenamiento de Consenso Histórico, un método iterativo que selecciona mezclas gaussianas para crear una barrera de estabilidad que elimina por completo el colapso posterior en los autoencoders variacionales sin requerir restricciones arquitectónicas ni ajustes de hiperparámetros.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

Este trabajo presenta RAD, un marco de alineación que reemplaza las restricciones de costo esperado tradicionales por restricciones de dominancia estocástica de primer orden dentro de un marco de transporte óptimo, permitiendo un control universal de medidas de riesgo espectral y mejorando la robustez ante eventos catastróficos y distribuciones fuera de contexto en el Aprendizaje por Refuerzo a partir de Feedback Humano (RLHF).

Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum2026-03-12🤖 cs.LG

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

El artículo presenta CCGE, un método de exploración general que guía el aprendizaje por refuerzo en manipulación diestra mediante el conteo y la recompensa de patrones de contacto novedosos entre la mano y el objeto, logrando así una mayor eficiencia de entrenamiento y una transferencia robusta a sistemas robóticos reales.

Zixuan Liu, Ruoyi Qiao, Chenrui Tie, Xuanwei Liu, Yunfan Lou, Chongkai Gao, Zhixuan Xu, Lin Shao2026-03-12🤖 cs.AI

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

El artículo presenta GroundCount, un marco que mejora la precisión del conteo en modelos de visión y lenguaje al integrar detección de objetos basada en CNN para mitigar las alucinaciones espaciales, logrando mejoras significativas en la mayoría de las arquitecturas evaluadas mediante una estrategia de anclaje simbólico explícito.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Este artículo examina cómo la inteligencia artificial actúa como catalizador de innovación en la ingeniería de software, demostrando mediante una revisión bibliográfica y un estudio empírico que su integración optimiza las prácticas ágiles y automatiza tareas clave para mejorar la calidad, la velocidad y la adaptabilidad ante requisitos cambiantes.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-Cisneros2026-03-12🤖 cs.AI

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Este artículo examina los desafíos metodológicos que surgen al aplicar ensayos controlados aleatorios para evaluar el impacto de la IA de vanguardia en el rendimiento humano, identificando tensiones en la validez de los estudios y proponiendo soluciones prácticas basadas en la experiencia de expertos para mejorar la toma de decisiones de alto riesgo.

Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal, Carson Ezell, Gailius Praninskas, Valerie Chen, Umang Bhatt, Ella Guest2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Esta investigación interdisciplinaria demuestra que los Modelos de Lenguaje Visuales predicen el estilo artístico basándose en conceptos visualmente coherentes y semánticamente significativos que, en un 90% de los casos, son juzgados como relevantes por historiadores del arte, aunque a veces logran aciertos mediante interpretaciones formales de conceptos que estos expertos considerarían irrelevantes.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

Instruction set for the representation of graphs

El artículo presenta IsalGraph, un método que codifica cualquier grafo finito en una cadena compacta mediante un conjunto de instrucciones de nueve caracteres, permitiendo una representación isomórfica, válida y compatible con modelos de lenguaje que facilita la búsqueda de similitud, la generación de grafos y la modelación condicionada.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

El paper presenta V2M-Zero, un enfoque de generación de música a partir de video sin pares de datos que logra una alineación temporal precisa al extraer y transferir estructuras de cambio temporal independientes dentro de cada modalidad mediante curvas de eventos, superando significativamente a los métodos basados en datos pareados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

El artículo presenta NeFTY, un marco de física diferenciable que reconstruye cuantitativamente propiedades materiales en 3D y localiza defectos subsuperficiales mediante la parametrización de un campo de difusividad continuo optimizado con un solver numérico riguroso, superando las limitaciones de las aproximaciones tradicionales y las redes neuronales informadas por física en escenarios de difusión transitoria.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

El artículo presenta LiTo, un nuevo enfoque que utiliza la tokenización de campos de luz superficiales para crear una representación latente 3D unificada que modela simultáneamente la geometría y el aspecto dependiente del punto de vista, permitiendo la generación de objetos 3D con efectos realistas como brillos especulares y reflejos de Fresnel.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

El artículo presenta COMIC, un sistema automatizado de IA que genera videos de comedia tipo sketch mediante una población de agentes inspirados en roles de producción y críticos de LLM alineados con preferencias reales de audiencia, logrando resultados de calidad profesional y rendimiento de vanguardia en la generación de video.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

El artículo presenta SDR-GAIN, un marco de aprendizaje adversarial auto-supervisado en tiempo real que completa la pose de peatones ocluidos mediante la imputación de coordenadas de keypoints, superando a los métodos existentes en precisión y velocidad de inferencia para la conducción autónoma.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

Este artículo presenta el TSformer-SA, un modelo basado en transformadores que fusiona información temporal y espectral mediante adaptadores específicos por sujeto para mejorar la decodificación de interfaces cerebro-computadora basadas en RSVP con datos de entrenamiento limitados.

Xujin Li, Wei Wei, Shuang Qiu + 1 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

El artículo presenta PnLCalib, un método de calibración de cámaras para videos deportivos que supera las limitaciones de los enfoques tradicionales mediante una optimización basada en un modelo 3D de campo de fútbol y líneas detectadas, logrando una mayor precisión y robustez en escenarios de transmisión con múltiples vistas y oclusiones.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

El artículo presenta DP-IQA, un método pionero que aprovecha los priores de modelos de difusión preentrenados y una técnica de destilación de conocimiento para lograr un estado del arte en la evaluación ciega de la calidad de imágenes en entornos naturales con alta generalización.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Este artículo presenta ScenarioFuzz, un método pionero de fuzzing basado en escenarios que utiliza datos históricos y redes neuronales gráficas para orquestar pruebas de seguridad en sistemas de conducción autónoma, logrando reducir los costos de tiempo en un 60,3% y descubrir un 103% más de escenarios de error por unidad de tiempo, identificando además 58 errores en seis sistemas probados.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network

Este artículo propone y evalúa una solución de aprendizaje por refuerzo multiagente basada en Q-learning para optimizar las actualizaciones de mapas de alta definición en redes vehiculares, logrando reducciones significativas en la latencia en comparación con enfoques de agente único al evitar la carga computacional excesiva de algoritmos más complejos.

Jeffrey Redondo, Nauman Aslam, Juan Zhang + 1 more2026-03-11🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

El artículo presenta CoHet, un algoritmo que utiliza motivación intrínseca basada en Redes Neuronales de Grafos para mejorar la cooperación descentralizada entre agentes heterogéneos en entornos de aprendizaje por refuerzo multiagente con observabilidad parcial y recompensas escasas.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan2026-03-11🤖 cs.AI

← Anterior Siguiente →