cs.AI artículos | Gist.Science

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Este artículo propone un enfoque totalmente diferenciable para descubrir boletos de lotería fuertes (SLT) mediante el uso de puertas de Bernoulli relajadas continuamente, lo que permite optimizar la esparsidad de redes neuronales sobreparametrizadas sin entrenamiento de pesos y lograr hasta un 90% de reducción de parámetros con mínima pérdida de precisión.

Itamar Tsayag, Ofir LindenbaumWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Este artículo demuestra que las métricas de visibilidad en motores de búsqueda generativos son inherentemente estocásticas y variables, por lo que las estimaciones de un solo intento son engañosas y deben reemplazarse por un marco estadístico que cuantifique la incertidumbre mediante intervalos de confianza y análisis de distribuciones.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este estudio presenta un nuevo enfoque que utiliza modelos fundacionales de visión y lenguaje (Gemma 3 y Qwen3-VL) para generar configuraciones JSON de simulaciones de plantas a partir de imágenes de drones, demostrando su potencial para escalar la creación de gemelos digitales agrícolas mediante aprendizaje en contexto, aunque también revela limitaciones en la precisión de los parámetros biofísicos cuando faltan pistas visuales claras.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

El sistema Guardian presenta un marco de decisión interpretable que combina cadenas de Markov, aprendizaje por refuerzo y validación mediante modelos de lenguaje grandes para generar planes de búsqueda óptimos y dinámicos para casos de niños desaparecidos durante las primeras 72 horas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

Este artículo propone el "AgentOS", un nuevo paradigma de sistema operativo basado en una interfaz de usuario natural que reemplaza las aplicaciones tradicionales con módulos de habilidades orquestados por un núcleo de agentes, planteando su implementación como un problema fundamental de descubrimiento de conocimiento y minería de datos para la comunidad KDD.

Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian PeiWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

El artículo presenta BiCLIP, un marco sencillo y eficiente que mejora la adaptación de dominios en modelos de visión y lenguaje mediante una transformación geométrica canónica aprendida a partir de pocas muestras, logrando resultados de vanguardia en múltiples benchmarks.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

El artículo presenta a Guardian, un sistema de tubería multi-LLM que utiliza modelos especializados y un mecanismo de consenso, junto con ajuste fino QLoRA, para extraer y procesar información de manera auditable y coordinada durante las primeras 72 horas críticas de investigaciones de personas desaparecidas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Este artículo presenta \texttt{EinSum}, una notación tensor-relacional que automatiza la descomposición de cálculos en Einstein para ejecutar componentes intensivos mediante núcleos numéricos eficientes mientras gestiona la dispersión de los datos de forma relacional.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

The FABRIC Strategy for Verifying Neural Feedback Systems

Este trabajo introduce la estrategia FaBRIC, que integra nuevos algoritmos de análisis de alcanzabilidad hacia atrás con técnicas existentes hacia adelante para verificar sistemas de retroalimentación neuronal no lineales, superando significativamente el estado del arte en benchmarks representativos.

I. Samuel Akinwande, Sydney M. Katz, Mykel J. Kochenderfer, Clark BarrettWed, 11 Ma🤖 cs.AI

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

El artículo presenta Semantic Level of Detail (SLoD), un marco que utiliza la difusión del núcleo de calor en variedades hiperbólicas para establecer una operación de zoom continua que controla la resolución semántica, identifica automáticamente los límites entre niveles de abstracción mediante brechas espectrales y demuestra su eficacia para descubrir jerarquías significativas en grafos de conocimiento reales como WordNet.

Edward IzgorodinWed, 11 Ma🤖 cs.AI

Arbiter: Detecting Interference in LLM Agent System Prompts

El artículo presenta Arbiter, un marco de evaluación que combina reglas formales y el escaneo con múltiples modelos de lenguaje para detectar patrones de interferencia en los prompts de sistema de agentes de codificación, revelando vulnerabilidades críticas y correlaciones arquitectónicas en herramientas de Anthropic, OpenAI y Google por un costo mínimo.

Tony MasonWed, 11 Ma🤖 cs.AI

Security Considerations for Multi-agent Systems

Este estudio caracteriza sistemáticamente el panorama de amenazas de los sistemas de inteligencia artificial multiagente (MAS) y evalúa cuantitativamente 16 marcos de seguridad, revelando que ninguno cubre la mayoría de las categorías de riesgo y destacando la necesidad urgente de nuevas estrategias para abordar vulnerabilidades únicas como la no determinación y la filtración de datos.

Tam Nguyen, Moses Ndebugre, Dheeraj ArremsettyWed, 11 Ma🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Este artículo analiza la equidad de género en los modelos de detección de deepfakes de audio, demostrando mediante el uso de métricas de equidad específicas que, a pesar de un rendimiento general bajo, existen disparidades ocultas en la distribución de errores entre géneros que las métricas tradicionales no capturan.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Este trabajo presenta el algoritmo CMA-ES-IG, que mejora el aprendizaje de las preferencias de los usuarios no expertos en robots mediante la generación de trayectorias perceptualmente distintas e informativas, logrando así una mayor escalabilidad, robustez ante ruido y preferencia de los usuarios en comparación con métodos existentes.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja MataricWed, 11 Ma🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

El artículo presenta Meissa, un modelo de lenguaje multimodal médico ligero de 4 mil millones de parámetros que, mediante la destilación de trayectorias estructuradas de modelos avanzados y una supervisión estratificada, ofrece capacidades de agente autónomo totalmente offline con menor latencia y costo, igualando o superando el rendimiento de agentes propietarios en múltiples tareas clínicas.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan YuilleWed, 11 Ma🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

El artículo propone la fenomenología de la IA como un marco metodológico que prioriza la experiencia vivida y la percepción subjetiva de los usuarios sobre las métricas tradicionales de rendimiento, ofreciendo herramientas prácticas y conceptos de diseño para estudiar la alineación bidireccional y la coevolución entre humanos e IA a lo largo del tiempo.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi WangWed, 11 Ma🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

El documento presenta MEMO, un marco de autojuego que optimiza el contexto de inferencia mediante un sistema de memoria persistente y exploración evolutiva, logrando una mejora significativa en la tasa de victoria y la estabilidad de los rankings en juegos de múltiples agentes y rondas para modelos de lenguaje grandes.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang WangWed, 11 Ma🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

El artículo presenta Pichay, un sistema de paginación bajo demanda que trata las ventanas de contexto de los LLM como una jerarquía de memoria virtual para eliminar contenido obsoleto y reducir drásticamente el consumo de recursos mediante la detección de fallos de página y la gestión de conjuntos de trabajo.

Tony MasonWed, 11 Ma🤖 cs.AI

← Anterior Siguiente →