cs.AI artículos | Gist.Science

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudio analiza las activaciones intermedias de modelos visión-lenguaje ligeros para identificar que sus fallos en escenarios de conducción autónoma se deben tanto a la falta de codificación lineal de ciertos conceptos visuales (fallo perceptual) como a la incapacidad de alinear la información visual presente con la semántica lingüística (fallo cognitivo), revelando además que la distancia del objeto degrada rápidamente la separabilidad de estos conceptos.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

El artículo presenta TempoSyncDiff, un marco de difusión latente basado en destilación que genera cabezas parlantes impulsadas por audio con baja latencia y alta consistencia temporal, mitigando problemas como el parpadeo y la deriva de identidad mediante un enfoque maestro-alumno y condicionamiento basado en visemas.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

El estudio presenta PyPDDLEngine, un motor de simulación PDDL que permite a los LLMs actuar como políticas de búsqueda interactivas, demostrando que aunque este enfoque agente ofrece una ventaja marginal del 3% en la resolución de problemas de planificación frente a la planificación directa, su eficacia depende críticamente de la naturaleza de la retroalimentación ambiental, la cual resulta menos efectiva en dominios autoevaluados como PDDL en comparación con entornos con señales externas verificables.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudio evalúa el uso de modelos de lenguaje grandes de código abierto para la calificación automática de ensayos alemanes de nivel A en Austria, concluyendo que, aunque pueden aplicar rúbricas estandarizadas, su baja concordancia con los evaluadores humanos (máximo 40,6% en subdimensiones y 32,8% en calificaciones finales) los hace inadecuados para su implementación en entornos reales de evaluación.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Este artículo introduce una nueva familia de semánticas graduales para Marcos de Argumentación Bipolar Cuantitativos (QBAF) que, mediante un proceso de tres etapas que agrupa por separado a atacantes y defensores antes de combinarlos con el peso intrínseco, ofrece un enfoque más interpretable y parametrizable que las semánticas modulares existentes.

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Este artículo propone la tarea de generación de rostros parlantes emocionalmente continuos (EC-TFG) y presenta el modelo TIE-TFG, que utiliza modelado de fluctuación emocional temporalmente intensiva para sintetizar videos realistas donde las expresiones faciales cambian de manera fluida y natural en sincronía con un texto y una descripción emocional variable.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lifelong Embodied Navigation Learning

El artículo presenta Uni-Walker, un marco de aprendizaje que aborda el olvido catastrófico en la navegación corporal mediante la decodificación de conocimientos compartidos y específicos con DE-LoRA, permitiendo a los agentes adaptarse continuamente a nuevas tareas e instrucciones sin perder lo aprendido previamente.

Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han2026-03-09🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

El artículo presenta StreamVoiceAnon+, un método de anonimización de hablantes en tiempo real que preserva la emoción mediante microajuste supervisado y destilación emocional a nivel de cuadro, logrando una mejora significativa en la retención de emociones sin añadir latencia ni comprometer la privacidad.

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng2026-03-09🤖 cs.AI

Offline Materials Optimization with CliqueFlowmer

Este trabajo presenta CliqueFlowmer, un modelo de optimización basado en aprendizaje profundo que fusiona la optimización directa de propiedades con la generación de materiales mediante transformadores y flujos, logrando superar significativamente a los métodos generativos tradicionales en el descubrimiento de materiales.

Jakub Grudzien Kuba, Benjamin Kurt Miller, Sergey Levine, Pieter Abbeel2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Este estudio demuestra que el entrenamiento continuado con textos específicos de dominio moldea la personalidad de los modelos de lenguaje, revelando que la supresión de rasgos sociales puede mejorar el razonamiento complejo y estableciendo un vínculo causal entre la lingüística de los datos de entrenamiento y el comportamiento del modelo para guiar la "ingeniería de personalidad".

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Este artículo propone un pipeline que integra modelos de lenguaje grande y un razonador neuro-simbólico para transformar los argumentos implícitos (entimemas) en fórmulas lógicas y determinar su validez, superando así las limitaciones de los métodos actuales de NLP y lógica.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Este informe presenta un marco estructurado para la seguridad física en robótica que integra la ingeniería de riesgos clásica con la generación de datos sintéticos y el aprendizaje automático mediante una ontología formalizada de peligros.

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

Este trabajo propone un marco basado en grafos que representa las narrativas como grafos de interacción entre entidades e incorpora estimación causal para detectar, analizar y clasificar narrativas opositoras, superando a los métodos existentes al evitar sesgos y modelar las interacciones estructuradas en lugar de patrones lineales.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Partial Policy Gradients for RL in LLMs

Este artículo propone un enfoque de gradiente de política parcial para el aprendizaje por refuerzo en modelos de lenguaje grande, que optimiza subconjuntos de recompensas futuras para permitir el aprendizaje más fiable de políticas de distinta complejidad, demostrando empíricamente que diferentes clases de políticas (como las de planificación completa, voraces o de K pasos) sobresalen en distintos problemas de alineación conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

El paper presenta Place-it-R1, un marco end-to-end que aprovecha el razonamiento de modelos de lenguaje multimodal (MLLM) mediante una estrategia de "pensar antes de colocar" para lograr inserciones de objetos en video que son físicamente coherentes y ambientalmente conscientes, superando las limitaciones de fidelidad visual sin causalidad física de las técnicas actuales.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

El artículo demuestra que los gráficos de codificación predictiva (PCGs) constituyen un superconjunto matemático de las redes neuronales de alimentación hacia adelante, lo que fortalece su posición dentro del aprendizaje automático y resalta la importancia de la topología en las redes neuronales.

Björn van Zwol2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

El artículo presenta VLM-RobustBench, un benchmark integral que evalúa la robustez de modelos de visión-lingüística frente a 133 tipos de perturbaciones y revela que, aunque estos modelos son semánticamente fuertes, son espacialmente frágiles, ya que las distorsiones geométricas y de muestreo degradan su rendimiento más que las corrupciones fotométricas visualmente severas.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Este trabajo demuestra que el uso de perturbaciones de entrada espacialmente coherentes, como el ruido de Perlin, en ensembles de redes neuronales gráficas permite generar pronósticos probabilísticos calibrados de la temperatura superficial del mar sin costos adicionales de entrenamiento, superando a las perturbaciones puramente aleatorias en la representación de la incertidumbre.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

El estudio RAPTOR demuestra que la trayectoria de pre-entrenamiento multilingüe de modelos compactos como HuBERT es más determinante para la detección robusta de deepfakes de audio que la escala del modelo, logrando un rendimiento comparable a sistemas comerciales mediante un detector unificado y una nueva evaluación de incertidumbre.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Este artículo presenta RF-Sampling, un marco de mejora en la inferencia sin entrenamiento y fundamentado teóricamente diseñado específicamente para modelos de flujo como FLUX, que optimiza la alineación con el prompt y la calidad de generación mediante una derivación formal que realiza implícitamente un ascenso de gradiente en la puntuación de alineación texto-imagen.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

← Anterior Siguiente →