Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este estudio presenta un nuevo enfoque que utiliza modelos fundacionales de visión y lenguaje (Gemma 3 y Qwen3-VL) para generar configuraciones JSON de simulaciones de plantas a partir de imágenes de drones, demostrando su potencial para escalar la creación de gemelos digitales agrícolas mediante aprendizaje en contexto, aunque también revela limitaciones en la precisión de los parámetros biofísicos cuando faltan pistas visuales claras.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

Este artículo propone el "AgentOS", un nuevo paradigma de sistema operativo basado en una interfaz de usuario natural que reemplaza las aplicaciones tradicionales con módulos de habilidades orquestados por un núcleo de agentes, planteando su implementación como un problema fundamental de descubrimiento de conocimiento y minería de datos para la comunidad KDD.

Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian PeiWed, 11 Ma🤖 cs.AI

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

El artículo presenta Semantic Level of Detail (SLoD), un marco que utiliza la difusión del núcleo de calor en variedades hiperbólicas para establecer una operación de zoom continua que controla la resolución semántica, identifica automáticamente los límites entre niveles de abstracción mediante brechas espectrales y demuestra su eficacia para descubrir jerarquías significativas en grafos de conocimiento reales como WordNet.

Edward IzgorodinWed, 11 Ma🤖 cs.AI

Security Considerations for Multi-agent Systems

Este estudio caracteriza sistemáticamente el panorama de amenazas de los sistemas de inteligencia artificial multiagente (MAS) y evalúa cuantitativamente 16 marcos de seguridad, revelando que ninguno cubre la mayoría de las categorías de riesgo y destacando la necesidad urgente de nuevas estrategias para abordar vulnerabilidades únicas como la no determinación y la filtración de datos.

Tam Nguyen, Moses Ndebugre, Dheeraj ArremsettyWed, 11 Ma🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Este trabajo presenta el algoritmo CMA-ES-IG, que mejora el aprendizaje de las preferencias de los usuarios no expertos en robots mediante la generación de trayectorias perceptualmente distintas e informativas, logrando así una mayor escalabilidad, robustez ante ruido y preferencia de los usuarios en comparación con métodos existentes.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja MataricWed, 11 Ma🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

El artículo presenta Meissa, un modelo de lenguaje multimodal médico ligero de 4 mil millones de parámetros que, mediante la destilación de trayectorias estructuradas de modelos avanzados y una supervisión estratificada, ofrece capacidades de agente autónomo totalmente offline con menor latencia y costo, igualando o superando el rendimiento de agentes propietarios en múltiples tareas clínicas.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan YuilleWed, 11 Ma🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

El artículo propone la fenomenología de la IA como un marco metodológico que prioriza la experiencia vivida y la percepción subjetiva de los usuarios sobre las métricas tradicionales de rendimiento, ofreciendo herramientas prácticas y conceptos de diseño para estudiar la alineación bidireccional y la coevolución entre humanos e IA a lo largo del tiempo.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi WangWed, 11 Ma🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

El documento presenta MEMO, un marco de autojuego que optimiza el contexto de inferencia mediante un sistema de memoria persistente y exploración evolutiva, logrando una mejora significativa en la tasa de victoria y la estabilidad de los rankings en juegos de múltiples agentes y rondas para modelos de lenguaje grandes.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang WangWed, 11 Ma🤖 cs.AI