Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudio analiza las activaciones intermedias de modelos visión-lenguaje ligeros para identificar que sus fallos en escenarios de conducción autónoma se deben tanto a la falta de codificación lineal de ciertos conceptos visuales (fallo perceptual) como a la incapacidad de alinear la información visual presente con la semántica lingüística (fallo cognitivo), revelando además que la distancia del objeto degrada rápidamente la separabilidad de estos conceptos.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

El estudio presenta PyPDDLEngine, un motor de simulación PDDL que permite a los LLMs actuar como políticas de búsqueda interactivas, demostrando que aunque este enfoque agente ofrece una ventaja marginal del 3% en la resolución de problemas de planificación frente a la planificación directa, su eficacia depende críticamente de la naturaleza de la retroalimentación ambiental, la cual resulta menos efectiva en dominios autoevaluados como PDDL en comparación con entornos con señales externas verificables.

Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Este estudio evalúa el uso de modelos de lenguaje grandes de código abierto para la calificación automática de ensayos alemanes de nivel A en Austria, concluyendo que, aunque pueden aplicar rúbricas estandarizadas, su baja concordancia con los evaluadores humanos (máximo 40,6% en subdimensiones y 32,8% en calificaciones finales) los hace inadecuados para su implementación en entornos reales de evaluación.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Este artículo propone la tarea de generación de rostros parlantes emocionalmente continuos (EC-TFG) y presenta el modelo TIE-TFG, que utiliza modelado de fluctuación emocional temporalmente intensiva para sintetizar videos realistas donde las expresiones faciales cambian de manera fluida y natural en sincronía con un texto y una descripción emocional variable.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Este estudio demuestra que el entrenamiento continuado con textos específicos de dominio moldea la personalidad de los modelos de lenguaje, revelando que la supresión de rasgos sociales puede mejorar el razonamiento complejo y estableciendo un vínculo causal entre la lingüística de los datos de entrenamiento y el comportamiento del modelo para guiar la "ingeniería de personalidad".

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

A Causal Graph Approach to Oppositional Narrative Analysis

Este trabajo propone un marco basado en grafos que representa las narrativas como grafos de interacción entre entidades e incorpora estimación causal para detectar, analizar y clasificar narrativas opositoras, superando a los métodos existentes al evitar sesgos y modelar las interacciones estructuradas en lugar de patrones lineales.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Partial Policy Gradients for RL in LLMs

Este artículo propone un enfoque de gradiente de política parcial para el aprendizaje por refuerzo en modelos de lenguaje grande, que optimiza subconjuntos de recompensas futuras para permitir el aprendizaje más fiable de políticas de distinta complejidad, demostrando empíricamente que diferentes clases de políticas (como las de planificación completa, voraces o de K pasos) sobresalen en distintos problemas de alineación conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

El paper presenta Place-it-R1, un marco end-to-end que aprovecha el razonamiento de modelos de lenguaje multimodal (MLLM) mediante una estrategia de "pensar antes de colocar" para lograr inserciones de objetos en video que son físicamente coherentes y ambientalmente conscientes, superando las limitaciones de fidelidad visual sin causalidad física de las técnicas actuales.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

El artículo presenta VLM-RobustBench, un benchmark integral que evalúa la robustez de modelos de visión-lingüística frente a 133 tipos de perturbaciones y revela que, aunque estos modelos son semánticamente fuertes, son espacialmente frágiles, ya que las distorsiones geométricas y de muestreo degradan su rendimiento más que las corrupciones fotométricas visualmente severas.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Este trabajo demuestra que el uso de perturbaciones de entrada espacialmente coherentes, como el ruido de Perlin, en ensembles de redes neuronales gráficas permite generar pronósticos probabilísticos calibrados de la temperatura superficial del mar sin costos adicionales de entrenamiento, superando a las perturbaciones puramente aleatorias en la representación de la incertidumbre.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

El estudio RAPTOR demuestra que la trayectoria de pre-entrenamiento multilingüe de modelos compactos como HuBERT es más determinante para la detección robusta de deepfakes de audio que la escala del modelo, logrando un rendimiento comparable a sistemas comerciales mediante un detector unificado y una nueva evaluación de incertidumbre.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Este artículo presenta RF-Sampling, un marco de mejora en la inferencia sin entrenamiento y fundamentado teóricamente diseñado específicamente para modelos de flujo como FLUX, que optimiza la alineación con el prompt y la calidad de generación mediante una derivación formal que realiza implícitamente un ascenso de gradiente en la puntuación de alineación texto-imagen.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI