SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Ce papier présente SurvHTE-Bench, le premier benchmark complet pour l'estimation des effets de traitement hétérogènes sur des données de survie censurées, offrant une suite de données synthétiques, semi-synthétiques et réelles permettant une évaluation rigoureuse et reproductible des méthodes causales dans ce domaine.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI

AuToMATo: An Out-Of-The-Box Persistence-Based Clustering Algorithm

Ce papier présente AuToMATo, un algorithme de clustering basé sur l'homologie persistante qui, grâce à des paramètres par défaut robustes et une procédure de bootstrapping, offre une solution « prête à l'emploi » surpassant souvent les meilleurs réglages d'autres méthodes et s'intégrant parfaitement à l'écosystème scikit-learn et à l'analyse de données topologiques.

Marius Huber, Sara Kalisnik, Patrick Schnider2026-03-05🤖 cs.LG

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Cet article analyse les propriétés de convergence et les dynamiques d'échappement de la descente de gradient stochastique dans des paysages unidimensionnels, en démontrant comment les caractéristiques du bruit et la géométrie du paysage influencent les échelles de temps de convergence vers les minima locaux et les probabilités d'échappement des maxima locaux.

Dmitry Dudukalov, Artem Logachov, Vladimir Lotov + 3 more2026-03-05🤖 cs.LG

A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning

Cet article propose un filtre supervisé efficace basé sur le score de concordance de queue supérieure (lambda U) d'une copule de Gumbel pour la sélection de caractéristiques dans la prédiction du risque de diabète, démontrant sa capacité à identifier des prédicteurs cliniquement pertinents et à réduire la dimensionnalité des données tout en maintenant des performances compétitives par rapport aux méthodes standards sur des ensembles de données publics et cliniques.

Agnideep Aich, Md Monzur Murshed, Sameera Hewage + 1 more2026-03-05🤖 cs.LG

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Cet article propose la « Supervised Calibration », un cadre unificateur basé sur la minimisation de la perte qui améliore l'apprentissage en contexte des grands modèles de langage en apprenant des transformations affines optimales pour corriger les biais et réorienter les frontières de décision, surpassant ainsi les méthodes de calibration existantes sur plusieurs modèles et jeux de données.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Best-of-\infty -- Asymptotic Performance of Test-Time LLM Ensembling

Cet article propose une méthode d'inférence adaptative pour l'ensemblage de grands modèles de langage par vote majoritaire, qui étend l'analyse asymptotique du « meilleur parmi N » à l'infini et optimise les pondérations d'ensembles hétérogènes via un programme linéaire en nombres entiers pour maximiser les performances avec un budget de calcul limité.

Junpei Komiyama, Daisuke Oba, Masafumi Oyamada2026-03-05🤖 cs.AI

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Cet article démontre que l'induction implicite de l'algorithme Adam en mode par échantillon sur des données séparables peut s'écarter de son comportement en lot complet pour converger vers un classifieur à marge maximale 2\ell_2, contrairement à la tendance \ell_\infty observée dans le régime par lot complet, tandis que l'optimiseur Signum conserve une convergence invariante vers la marge \ell_\infty quelle que soit la taille du lot.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI