Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li2026-03-10💻 cs

Reconsidering the energy efficiency of spiking neural networks

本論文は、データ移動やメモリアクセスなどのオーバーヘッドを包括的に評価する厳密なエネルギーモデルを用いて、特定の条件下(平均スパイク率が 6.4% 未満など)でのみスパイクニューラルネットワーク(SNN)が従来の量子化人工ニューラルネットワーク(QNN)を上回るエネルギー効率を実現し得ることを実証し、スマートウォッチのバッテリー寿命を倍増させる可能性を示唆しています。

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

この論文は、物理システムの数学的構造と安定性を保ち、入力と潜在空間の力を双方向に変換可能にする「結合振動子ネットワーク(CON)」を提案し、これにより画像からのみ学習した複雑な非線形力学を閉形式の制御理論と組み合わせて効率的に制御する手法を実現したことを示しています。

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

本論文は、ボルツマン分布からの効率的なサンプリングを目的として、ノイズ付きエネルギーの学習に基づく拡散サンプリング手法「NEM」と、そのバイアスと分散を調整するブートストラップ技術を組み合わせた「BNEM」を提案し、複雑な分布における最先端の性能と頑健性を示しています。

RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

この論文は、Mori-Zwanzig 形式に着想を得て、遅延時間変数をデータから学習するニューラル遅延微分方程式(NDDE)を提案し、部分観測条件下での非マルコフ的動的システムのモデル化において、既存の手法よりも優れた性能とデータ効率を実現することを示しています。

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG

Puppet-CNN: Continuous Parameter Dynamics for Input-Adaptive Convolutional Networks

この論文は、畳み込みニューラルネットワークの層パラメータをニューラル常微分方程式によって記述される連続的な力学系としてモデル化する「Puppet-CNN」を提案し、入力複雑さに応じて計算量を動的に調整可能にしながら、保存される学習パラメータを大幅に削減しつつ競合する予測性能を達成することを示しています。

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Energy-Efficient SLAM via Joint Design of Sensing, Communication, and Exploration Speed

本論文は、2D LiDAR とオドメトリを搭載したロボットがクラウドに生データを送信して深層学習によるリアルタイム地図構築を行う生涯 SLAM システムにおいて、センシング・通信・移動速度を統合的に設計・最適化することでエネルギー効率を最大化する手法を提案し、シミュレーションと実験でその有効性を検証したものである。

Zidong Han, Ruibo Jin, Xiaoyang Li + 3 more2026-03-10🤖 cs.AI

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

この論文は、高計算コストやブラックボックスモデルへの適用限界といった既存のアンサンブル手法の課題を解決するため、ピボット翻訳を用いて多様な候補を生成し、それらを事後に統合する「単一モデルアンサンブルフレームワーク」を提案し、低リソース言語対における翻訳品質の向上を実証したものである。

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

An Efficient Local Search Approach for Polarized Community Discovery in Signed Networks

本論文は、符号付きネットワークにおける極性コミュニティ発見の問題に対し、サイズ不均衡を回避する新しい最適化目的関数を導入し、中立ノードを含む大規模ネットワークに拡張された効率的な局所探索アルゴリズムを提案し、その線形収束性を証明するとともに、実データおよび合成データを用いた実験で最先端手法を上回る解の質を達成したことを報告するものである。

Linus Aronsson, Morteza Haghir Chehreghani2026-03-10🤖 cs.LG