cs.AI articles | Gist.Science

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Cet article propose une méthode entièrement différentiable utilisant des portes de Bernoulli relaxées pour découvrir des tickets de loterie forts dans des réseaux de neurones sur-optimisés, permettant d'atteindre jusqu'à 90 % de parcimonie avec une perte de précision minimale sans nécessiter d'estimateurs de gradient non différentiables ni de cycles d'élagage itératifs.

Itamar Tsayag, Ofir LindenbaumWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Cette étude démontre que la visibilité des domaines dans les moteurs de recherche génératifs est intrinsèquement stochastique et sujette à une grande variabilité, rendant les mesures ponctuelles trompeuses et soulignant la nécessité d'adopter un cadre statistique incluant des intervalles de confiance pour quantifier correctement l'incertitude.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Cette étude présente un nouveau cadre utilisant des modèles de vision-langage fondationnels pour générer automatiquement des configurations de simulation de plantes à partir d'images de drones, offrant ainsi une solution évolutive pour la création de jumeaux numériques agricoles.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Le système Guardian propose une approche décisionnelle interprétable pour la recherche d'enfants disparus, combinant des chaînes de Markov pour la modélisation des risques spatiotemporels, l'apprentissage par renforcement pour l'optimisation des plans de recherche et des modèles de langage pour la validation automatique de la qualité.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Le papier présente VoxEmo, un benchmark complet pour l'évaluation des modèles de langage audio dans la reconnaissance des émotions, qui propose un protocole d'étiquetage souple et des stratégies d'ensemble pour mieux capturer l'ambiguïté inhérente aux émotions humaines et la subjectivité des annotations.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

Cet article propose le concept d'AgentOS, un nouveau paradigme d'exploitation qui remplace les interfaces traditionnelles par une interface naturelle pilotée par des agents intelligents, transformant ainsi le système d'exploitation en un pipeline continu de découverte de connaissances et de fouille de données pour gérer l'intention utilisateur et orchestrer les tâches.

Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian PeiWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Le papier présente BiCLIP, un cadre simple et efficace qui améliore l'adaptation de domaine des modèles vision-langage en appliquant une transformation géométrique structurée aux caractéristiques multimodales, permettant d'atteindre des performances de pointe sur plusieurs benchmarks avec un nombre minimal de paramètres.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Ce papier présente Guardian, un système end-to-end coordonnant plusieurs modèles de langage spécialisés et un moteur de consensus pour extraire et traiter intelligemment les informations lors des premières heures critiques d'une enquête sur une personne disparue, tout en garantissant une approche auditable et conservatrice.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Cet article présente \texttt{EinSum}, une extension de la notation d'Einstein pour les calculs tensoriels relationnels, permettant de réécrire automatiquement les calculs afin d'exécuter les parties intensives via des noyaux numériques optimisés tout en gérant la grande sparsité des données par des systèmes relationnels.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

The FABRIC Strategy for Verifying Neural Feedback Systems

Ce papier présente la stratégie FaBRIC, qui comble le manque de recherches sur l'analyse de rétro-accessibilité dans les systèmes de feedback neuronal en intégrant de nouveaux algorithmes d'approximation arrière avec les techniques existantes d'analyse avant pour certifier ces systèmes avec une performance supérieure à l'état de l'art.

I. Samuel Akinwande, Sydney M. Katz, Mykel J. Kochenderfer, Clark BarrettWed, 11 Ma🤖 cs.AI

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

Ce papier présente le cadre SLoD, qui utilise la diffusion par noyau de chaleur sur des variétés hyperboliques pour définir un opérateur de zoom continu permettant de contrôler la résolution sémantique et de détecter automatiquement les niveaux d'abstraction dans les graphes de connaissances.

Edward IzgorodinWed, 11 Ma🤖 cs.AI

Arbiter: Detecting Interference in LLM Agent System Prompts

Ce papier présente Arbiter, un cadre d'évaluation combinant des règles formelles et un balayage multi-modèles pour détecter des interférences dans les prompts système d'agents de codage LLM, révélant ainsi des vulnérabilités structurelles et des corrélations entre l'architecture des prompts et les types d'échecs.

Tony MasonWed, 11 Ma🤖 cs.AI

Security Considerations for Multi-agent Systems

Cette étude caractérise systématiquement le paysage des menaces des systèmes multi-agents et évalue quantitativement 16 cadres de sécurité, révélant que les solutions actuelles, bien que menées par l'initiative OWASP Agentic Security, offrent une couverture insuffisante, en particulier face aux risques de non-déterminisme et de fuite de données.

Tam Nguyen, Moses Ndebugre, Dheeraj ArremsettyWed, 11 Ma🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Cette étude analyse les disparités de genre dans la détection des deepfakes audio en démontrant que l'évaluation basée uniquement sur des métriques globales comme le taux d'erreur égalisé masque des biais démographiques significatifs, soulignant ainsi la nécessité d'adopter des mesures d'équité spécifiques pour développer des systèmes plus justes et fiables.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Cette présentation propose l'algorithme CMA-ES-IG, qui améliore l'apprentissage des préférences des utilisateurs non experts pour les robots en intégrant explicitement l'expérience utilisateur via la sélection de trajectoires informatives et perceptuellement distinctes, surpassant ainsi les méthodes existantes en termes d'évolutivité, de robustesse et de préférence utilisateur.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja MataricWed, 11 Ma🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

Le papier présente Meissa, un modèle multimodal médical léger de 4 milliards de paramètres capable de fonctionner hors ligne avec des capacités agentiques, qui rivalise avec les agents propriétaires en apprenant des stratégies d'interaction complexes via une supervision hiérarchisée et une modélisation unifiée de trajectoires, tout en réduisant considérablement les coûts, la latence et les risques de confidentialité.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan YuilleWed, 11 Ma🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Ce papier propose l'« AI phenomenology » comme un cadre de recherche pratique et des outils méthodologiques pour comprendre et aligner les expériences vécues et évolutives des humains avec les systèmes d'IA, au-delà des métriques traditionnelles de performance.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi WangWed, 11 Ma🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Le papier présente MEMO, un cadre d'auto-jeu qui améliore la robustesse et les performances des modèles de langage dans les jeux multi-agents à long terme en optimisant le contexte d'inférence via une mémoire persistante et une exploration adaptative, réduisant ainsi la variance des résultats et augmentant significativement les taux de victoire.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang WangWed, 11 Ma🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Ce papier présente Pichay, un système de pagination à la demande transparent pour les fenêtres de contexte des LLM qui, en appliquant des principes de hiérarchie mémoire virtuel, réduit drastiquement la consommation de contexte en évitant le gaspillage de tokens et en gérant dynamiquement les données obsolètes.

Tony MasonWed, 11 Ma🤖 cs.AI

← Précédent Suivant →