cs.AI 件の論文 | Gist.Science

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

この論文は、大規模な障害物回避を可能にするために特権情報（到達時間マップ）と新しい損失関数を活用した強化学習ベースの四旋回飛行ロボットナビゲーション手法を提案し、シミュレーションおよび屋外実機実験において高い成功率と安全性を実証したものである。

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

本論文は、外部ワンスに条件付けられたトランスフォーマー型拡散モデルとエネルギー保存則に基づくインピーダンス制御を組み合わせ、接触に富む操作タスクにおいてオンラインでインピーダンスを適応させ、高精度かつ安定した接触動作を実現する「拡散ベースのインピーダンス学習」フレームワークを提案するものである。

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

本研究は、LLM を基盤とする音声モデルが自然な会話の流暢性を欠く入力に対して構造的忠実度よりも意味の抽象化を優先する傾向があり、特に推論モデルが過剰な削除を行うことを示し、音声に対する頑健性が特定の学習目的によって形成されることを明らかにしています。

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

本論文は、エントロピー正則化の限界を克服し、シャノンエントロピーと均衡からの距離の積として定義される自己調整型の複雑さ項を導入することで、ハイパーパラメータの感度を低下させつつ報酬最適化に集中できる「複雑さ正則化付き近方方策最適化（CR-PPO）」を提案し、その有効性を示しています。

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

本論文は、拡散モデルの理論的整合性を保ちつつ粗いアンカー軌道から文脈を考慮した高品質な計画を生成する「BridgeDrive」という新しい拡散ブリッジ方策を提案し、自律運転の閉ループ計画タスクにおいて最先端の性能を達成したことを報告しています。

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

本論文は、教師モデルの隠れたバイアスが蒸留を通じて学生モデルに伝達される「潜在学習」のメカニズムを解明し、その伝達が稀な「発散トークン」に依存し、初期層の微調整で可能となる一方、プロンプトのわずかな変更でも抑制される脆弱な現象であることを示しています。

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

本論文は、LLM がユーザーの個人差や文脈を自発的に特定し、それに応じて推論プロセスを適応させる「パーソナライズド推論」の必要性を指摘し、心理学的根拠に基づくペルソナを用いた対話型評価手法「PrefDisco」と、それに基づく微細なアライメント指標「PrefAlign」を提案することで、教育や医療など個人化が不可欠な分野におけるシステム開発の基盤を提供するものです。

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

本論文は、第一人称視点の観測ノイズに耐性を持つ軌道予測を実現するため、実世界ノイズを含む履歴とクリーンな未来軌道を対応させた初のベンチマーク「EgoTraj-Bench」を提案し、歴史的観測のノイズ除去と将来の運動予測を同時に行う双フローモデル「BiFlow」を開発して最先端の性能と堅牢性を示したものです。

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

本論文は、大規模言語モデルのハルシネーションやデータ間の関係性の欠如といった課題を解決するため、外部データソースから構築した知識グラフを活用して、意味的一貫性と解決可能性に優れたマルチモーダルエージェントタスクを自動生成するフレームワーク「Graph2Eval」およびその評価ベンチマーク「Graph2Eval-Bench」を提案し、既存手法よりもタスクの質とエージェント性能の識別力を大幅に向上させることを示しています。

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

脊椎疾患の AI 診断におけるレベル認識や多モーダル推論の課題を解決するため、臨床医と共同で脊椎専門の大規模データセット「SpineMed-450k」と評価基準「SpineBench」を構築し、これらを用いて微細な脊椎レベルの推論能力を飛躍的に向上させたことを示した論文です。

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

本論文は、異なる手の形状（モルフォロジー）を埋め込みと固有把持（eigengrasp）セットとして表現し、物体の点群と手首の姿勢に基づいて関節角度を直接生成するエンドツーエンドのフレームワーク「MachaGrasp」を提案し、これにより未知の物体や未学習のロボットハンドに対しても高い把持成功率と高速な推論を実現することを示しています。

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

本論文は、知識グラフを大規模言語モデルに統合する際、従来のプレフィックス結合の限界を克服し、局所的なグラフ構造を明示的な「グラフメモリ」として表現し、トランスフォーマー層におけるクロスアテンションを通じて生成時に微細な証拠を動的に検索可能にする「Graph-as-Memory Tuning (GMT)」という新しいパラダイムを提案し、知識グラフ補完タスクにおいて顕著な性能向上を実現したことを示しています。

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

本論文は、音声と視覚の相補性と論理的整合性に焦点を当て、1000 の高品質な QA ペアと詳細な推論トレースを含む大規模ベンチマーク「OmniVideoBench」を提案し、現在のマルチモーダル大規模言語モデルにおける真の音声・視覚推論能力の限界を明らかにするものです。

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

本論文は、3D 幾何学の事前知識や明示的な姿勢パラメータ化を一切用いずに、入力と出力の拡張とペアごとの姿勢推定を組み合わせることで、カメラ姿勢とシーン内容を分離し、異なる 3D シーン間での姿勢表現の転移を可能にする初の自己教師あり新規視点合成モデル「XFactor」を提案し、その転移性を新たな指標で実証したものである。

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

本論文は、狭いドメインでのファインチューニングがモデルの活性化値に明確なバイアスを残し、これを用いてファインチューニングの内容を解釈できることを示すとともに、そのバイアスが過学習に起因する可能性や、AI 安全性研究における狭いドメインモデルの代理利用の限界を指摘しています。

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

本論文は、強化学習の訓練段階に制御バリア関数（CBF）を組み込むことで、安全制約を方策自体に内包させ、実世界での展開時にオンラインの安全フィルタを不要としつつ、より安全かつ効率的な学習を実現する「CBF-RL」という枠組みを提案し、ヒューマノイドロボットなどでの実証を通じてその有効性を示したものである。

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

本論文は、2D 中心の事前学習に起因する 3D 理解の不足と冗長な情報による推論失敗という課題を解決するため、専門モデルからの 3D 知覚結果を最小かつ十分な情報集合（MSS）として選択的に抽出・洗練する双エージェントフレームワーク「MSSR」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

← 前へ次へ →