How Well Do Multimodal Models Reason on ECG Signals?

本論文は、心電図信号におけるマルチモーダルモデルの推論能力を評価するため、信号パターンの正確な識別(知覚)と臨床知識の論理的適用(推論)を分離し、それぞれをコード生成による実証的検証と構造化臨床基準との照合によって評価する、スケーラブルで再現性のあるフレームワークを提案しています。

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

2026 年の F1 新規定における不完全観測条件下でのエネルギー戦略最適化のため、競合他車の隠れた状態を隠れマルコフモデルで推論し、その推論結果を Deep Q-Network に投入して意思決定を行う 2 層フレームワークを提案し、敵の欺瞞的な「カウンターハーベスト」戦略の検出や ERS 状態の高精度推定を実現する手法を示しています。

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

DISPLACE-M チャレンジの Track 1(話者分離)において、TCG CREST チームは WavLM ベースのハイブリッド型エンドツーエンドシステム「Diarizen」と高度なクラスタリング手法を組み合わせることで、従来の SpeechBrain ベースラインを大幅に上回る性能(評価セットで DER 9.21%)を達成し、11 チーム中 6 位に入賞したことを報告しています。

Nikhil Raghav, Md Sahidullah2026-03-10🤖 cs.LG

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

この論文は、局所化器とセグメンテーション器を統合し、時間的一貫性ラッパーを備えた検出ゲート型パイプラインを提案することで、高速度ビデオエンドスコピーにおける喉頭領域波形の抽出精度と臨床的病理評価のための生体マーカーの一般化性を飛躍的に向上させたことを報告しています。

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

本論文は、メコンデルタの無形文化遺産画像分類におけるデータ不足と過学習の問題に対し、CoAtNet 構造とモデルスープ(モデルの重み平均化)を組み合わせることで、分散を低減し、既存の強固なベースラインを凌ぐ最先端の精度を達成したことを示しています。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Embedding interpretable 1\ell_1-regression into neural networks for uncovering temporal structure in cell imaging

この論文は、1\ell_1正則化によるスパースな時系列構造の解釈性を維持しつつ、畳み込みオートエンコーダとベクトル自己回帰(VAR)モデルを埋め込むことで、細胞イメージングデータから動的な要因を特定し、時系列比較や空間的寄与の可視化を可能にする新しい手法を提案しています。

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

本論文は、勾配計算やパラメータ更新を必要とせず、GramCol と運動特徴選択アルゴリズムを導入することで、動画生成モデル(Video DiT)における運動概念の空間的・時間的な局所化を可能にする解釈可能な運動注意マップ(IMAP)を提案し、運動および非運動概念の両方に対して優れた局所化性能と可視化を実現するものです。

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

本論文は、GUI アプリケーションの頻繁な更新に伴う継続学習の課題に対し、SFT と強化学習の相乗効果を動的に調整し、勾配干渉を解消する「CGL」フレームワークと、その評価用ベンチマーク「AndroidControl-CL」を提案し、既存タスクの忘却を防ぎつつ新たなタスクへの適応を可能にする手法を開発したことを示しています。

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

この論文は、古典的な有界分散モデルにおいて、停止時間とマルチンゲール解析を用いて、信頼パラメータδ\deltaに対する依存度がAdamはδ1/2\delta^{-1/2}であるのに対しSGDは少なくともδ1\delta^{-1}を必要とするという、両者の高確率収束挙動における理論的な分離を初めて証明し、Adamの第二モーメント正規化がより鋭い尾部をもたらすことを示しています。

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

この論文は、Compositional Probe Decomposition (CPD) という手法を用いて、分子モデルにおける幾何学的・組成情報の線形分離性を定量化し、タスクの整合性、データ多様性、対称性に基づく情報経路が、モデルの表現における線形分離の度合いを決定づけることを明らかにしました。

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

本論文は、従来の LLM チャットボットの課題を克服し、デジタルウェルビーイングを促進する Web アプリケーション向けに、古典的な「探索・洞察・行動」のカウンセリングパラダイムに沿った多エージェントフレームワーク「XInsight」と、その評価基準「XInsight-Bench」を提案するものである。

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

この論文は、ニューラルアーキテクチャに直接統合された「等方性層(Isotonic Layer)」という新しいフレームワークを提案し、特徴空間の分割と非負の傾き最適化を通じてモデルの出力に単調性を強制することで、推薦システムのバイアス除去と較正精度を大幅に向上させることを実証しています。

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

この論文は、大規模言語モデルにおける「アテンションシンク」の発生メカニズムを解明し、意味情報に依存せず位置 0 のトークンを認識する「P0 シンク回路」がトランスフォーマーの初期層で早期に形成されることを発見し、これが事前学習の収束状態を監視する指標となる可能性を示しています。

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

この論文は、階層的な潜在構造を持つ確率的文脈自由文法(PCFG)を用いて合成コーパスを生成し、その階層性がインダクションヘッドやファンクションベクトル、ハイドラ効果といった一見無関係な機械的現象の出現を統一的に説明する鍵であることを示しています。

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

この論文は、リポジトリ全体の情報を高密度な階層的ベクトルに圧縮し、擬似トークンとして生成モデルに効率的に統合する「階層的埋め込み融合(HEF)」手法を提案し、既存の検索拡張コード生成手法と同等の精度を維持しつつ、単一 GPU 上でサブ秒の低遅延を実現することを示しています。

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

この論文は、大規模で複雑なデータセットの要約において、従来の重心ベースのクラスタリングが抱える冗長性の課題を克服し、より簡潔かつ正確な要約を実現するための「Khatri-Rao クラスタリング」パラダイムを提案し、k-Means および深層クラスタリングへの適用を通じてその有効性を示しています。

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG