cs articles | Gist.Science

A Study on the Continuous Generation of Test Cases for Large Language Models with Project Memory

Cet article propose une approche de génération de cas de test basée sur les LLM, améliorée par un référentiel de mémoire de projet qui intègre les données historiques et le contexte de version afin d'améliorer significativement la couverture des risques, de réduire la duplication et d'augmenter la découverte de défauts dans les systèmes logiciels à grande échelle.

Yuxuan Li, Huichen Ma2026-07-28

💻 computer science

A Preliminary CNN Baseline for Breast Ultrasound Classification in MATLAB, with Exploratory IDC/ILC Labels: Toward Explainable Breast Imaging AI

Cet article établit une base de référence préliminaire de type CNN sous MATLAB pour la classification binaire des tumeurs mammaires malignes versus non malignes à l'aide du jeu de données BrEaST, atteignant une précision de test améliorée tout en formulant explicitement l'étiquetage exploratoire des sous-types et l'explicabilité comme des directions de recherche futures plutôt que comme des résultats validés.

ISHANI CHOVATIYA2026-07-28

💻 computer science

Modular Differentiable Explanations for Markov Disease Models: A Transparent Framework for Clinical Decision Support

Cet article présente un cadre de programmation différentiable modulaire qui intègre l'interprétabilité directement dans un modèle de chaîne de Markov en temps continu pour l'aide à la décision clinique en décomposant les taux de transition en facteurs cliniquement significatifs, en calculant leurs sensibilités via la différenciation automatique stochastique, et en générant des explications traçables en langage clair en temps réel.

Virendra Kumar Tiwari2026-07-28

💻 computer science

Exploring Functional Shifts in Pos Tagging Across Various NLP Libraries: A Study of NLTK, spaCy and Textblob

Cette étude compare la performance de NLTK, TextBlob et spaCy dans le traitement des phrases à détournement (garden path sentences) causées par des glissements fonctionnels, concluant que spaCy surpasse significativement les deux autres bibliothèques en matière de précision syntaxique et offrant des perspectives pour l'amélioration des outils de TAL, y compris ceux destinés aux langues africaines.

Kayode Victor Amusan2026-07-28

💻 computer science

A Calibration-Aware Reference Architecture for Resilient Supply Chain Planning: Integrating Conformal Probabilistic Demand Forecasting with Scenario-Based Stochastic Vehicle Routing

Cet article présente une architecture de référence et une implémentation open-source qui font le pont entre l'apprentissage automatique et la recherche opérationnelle dans la planification de la chaîne logistique en intégrant des prévisions probabilistes conformes à un routage stochastique basé sur des scénarios, démontrant empiriquement par un backtest synthétique que les prévisions de quantiles non calibrées entraînent un sous-couverture significative et des risques de rupture de stock, validant ainsi la nécessité d'interfaces sensibles au calibrage pour un support à la décision fiable.

Joseph Javier Sánchez Acuña2026-07-28

💻 computer science

Beyond Kinesthetic Twins: A Dematerialized Control Primitive for Zero-Shot Generalization Across Robot Morphologies

Cet article introduit un cadre de téléopération dématérialisé basé sur la théorie du contrôle par découplage cinématique qui élimine la nécessité de jumeaux kinesthésiques physiques en décomposant orthogonalement l'intention humaine dans l'espace informationnel, atteignant ainsi une généralisation zéro-shot à travers diverses morphologies robotiques et renversant la croyance de longue date selon laquelle le retour de force physique est essentiel pour un contrôle robotique intuitif.

Yu-Xiang Wu, Yuyan Wu2026-07-28

💻 computer science

Cethraian-X: A Leakage-Clean, Multi-Seed Benchmark of Chest X-Ray Classification Under Weak Labels

Cethraian-X est un benchmark open-source, exempt de fuites de données, pour la classification multi-labels de radiographies thoraciques utilisant le jeu de données NIH ChestX-ray14, qui établit des normes de reproductibilité rigoureuses à travers une évaluation multi-graines, une analyse de calibration et des outils d'explicabilité afin de permettre une comparaison transparente des futures méthodes.

Mohammed Badhan2026-07-28

💻 computer science

Semantic Tracing in LLM-Based Multi-Agent Systems Using LangChain, LangGraph, and LangSmith for AI Governance

Cet article présente un cadre de traçage sémantique pour les systèmes multi-agents basés sur les LLM utilisant LangChain, LangGraph et LangSmith au sein du prototype SHADOWAI-RISK, démontrant que l'intégration de l'évaluation sémantique réduit considérablement la dérive sémantique et les violations de contraintes tout en n'entraînant qu'une augmentation modérée de la latence et un coût local nul.

Audrey Rahimi2026-07-28

💻 computer science

From RAG to Runtime Intelligence: Design and Evaluation of a Multi-LLM Automated Learning Engine for Enterprise Knowledge Synthesis

Cet article présente et évalue un moteur d'apprentissage automatisé (Automated Learning Engine - ALE) qui va au-delà du RAG standard en employant un système orchestré par plusieurs LLM avec une recherche hybride et des flux de travail basés sur des machines à états, démontrant une amélioration significative de l'exactitude factuelle, de la pertinence contextuelle et une réduction des taux d'hallucination dans la synthèse des connaissances d'entreprise par rapport aux configurations de base.

Swapnil M2026-07-28

💻 computer science

The Limits of Training Data Size in Foundation Models: An Empirical Analysis of Quality Filtering under a Fixed Token Pool

À travers des expériences empiriques sur un pool fixe de 24 millions de tokens, cet article démontre qu'un filtrage de qualité agressif sous un budget de calcul fixe nuit souvent à la performance du modèle en imposant une répétition excessive des données, tandis que le maintien de données de moindre qualité et le suréchantillonnage de sous-ensembles de haute qualité produisent des résultats supérieurs ou équivalents à travers diverses cibles.

Alexander Memming2026-07-28

← Précédent Suivant →