VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

この論文は、大規模言語モデル(LLM)を構造化された意味教師として活用して医療用ビジョントランスフォーマー(ViT)を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

既存の言語駆動型ナビゲーション手法が機能性建物における類似特徴や事前空間知識の活用不足に直面する課題を解決するため、環境マップを意味事前マップに変換し、階層的な思考連鎖プロンプトとマルチモデル協調メカニズムを導入した「PM-Nav」を提案し、シミュレーションおよび実世界での大幅な性能向上を実証した。

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

この論文は、複雑な指先操作における視覚言語行動モデルの信頼性と適応性を向上させるため、腕と手の協調介入を可能にする初のヒト・イン・ザ・ループフレームワーク「DexHiL」を提案し、実機実験でオフライン微調整のベースラインを平均 25% 上回る成功率を達成したことを報告しています。

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成(UNG)」モジュールと、マルチモーダル大規模言語モデル(MLLM)を用いた「品質認識事前知識(QAP)」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

この論文は、クラスインクリメンタル学習における特徴の衝突を因果的観点から解決するため、内タスクおよび間タスクの因果的完全性と分離性を定量化する拡張 PNS(CPNS)に基づく正則化手法を提案し、双方向のカウンターファクトル生成器を用いて特徴の衝突を効果的に抑制することを示しています。

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

この論文は、非構造化テーブルにおける複雑な長期的分析タスクを「Deep Tabular Research」として定式化し、階層的メタグラフ、期待値認識型選択ポリシー、および継続的学習を可能にするシアン構造メモリを備えた閉ループ型エージェントフレームワークを提案することで、戦略的計画と低レベル実行を分離した効率的な推論を実現することを示しています。

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

この論文は、文脈長の制約や幻覚、単一エージェントの限界といった既存の表質問応答(TableQA)の課題を克服するため、データリーダー、データベースチーム、知識グラフチームによる協調と自動知識変換を導入したマルチエージェントフレームワーク「DataFactory」を提案し、複数のベンチマークで大幅な精度向上を実証したものである。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準(ルブリック)に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

この論文は、大規模なロボット遠隔操作データ収集を不要とし、人間の一人称視点動画から直接学習することで、自然で多様な全身動作を可能にする新しいヒューマノイド制御フレームワーク「ZeroWBC」を提案し、Unitree G1 による実験でその有効性を示したものである。

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

この論文は、LLM ベースのコード変異エージェント「AlphaEvolve」を用いて、5 つの古典的ラムゼー数(R(3,13)R(3,13)R(3,18)R(3,18)R(4,13)R(4,13)R(4,14)R(4,14)R(4,15)R(4,15))の既知の下限値をそれぞれ 1 ずつ引き上げる新たな結果を達成し、従来の個別の検索アルゴリズムに代わる単一のメタアルゴリズムとして機能したことを報告しています。

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

本論文は、従来の VAD 依存型パイプラインの制約を克服し、LLM の高度な対話能力を維持しながら双方向のリアルタイム音声対話を可能にする「DuplexCascade」という、マイクロターン最適化と制御トークンを活用した VAD 不要のストリーミング型音声対話システムを提案し、オープンソースの音声対話システムにおいて最先端の性能を達成したことを示しています。

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

この論文は、計画能力に優れた離散拡散言語モデルと流暢なテキスト生成が得意な自己回帰モデルを潜在空間で連携させる「Latent-DARM」を提案し、多様な推論タスクにおいて既存のテキストベースのインターフェースを凌駕する精度向上と、最先端の推論モデルに匹敵する性能を極めて少ないトークン数で実現することを示しています。

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

この論文は、テキストチャンクを「手法ノード」に置き換え、二重の木構造(方法の由来ツリーと階層的クラスタリングツリー)と戦略的エージェント、検証層を組み合わせることで、多段階の推論プロセスを制御可能かつ説明可能、検証可能なものにする「説明可能なイノベーションエンジン」を提案し、その有効性を示したものです。

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

この論文は、LLM の論理的推論能力の向上が、推論、帰納、仮説形成を通じて AI の状況認識(自己認識や戦略的欺瞞など)を機械的に促進する「RAISE」フレームワークを提示し、現在の安全対策の限界を指摘するとともに、論理推論研究コミュニティに対し、この危険な軌道に対する具体的な安全策と責任を問うている。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

この論文は、検索品質評価を明示的な行動に変換し、評価スコアに基づいて利得を再スケーリングする新しい最適化手法(PCAR)を組み合わせることで、複雑な多段推論タスクにおける検索拡張エージェントの信頼性と精度を大幅に向上させる「EvalAct」を提案しています。

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI