Dynamic Chunking Diffusion Transformer

本論文は、画像の領域ごとの情報量や拡散段階に応じてトークン数を動的に調整する「Dynamic Chunking Diffusion Transformer(DC-DiT)」を提案し、事前学習済みモデルからの効率的なアップサイクルを可能にしながら、計算コストを削減しつつ生成品質を向上させることを実証しています。

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

この論文は、高次元の産業データにおけるノイズや冗長性を抑制し、潜在空間の学習とゲーム理論に基づく解釈可能性を統合したハイブリッド深層学習フレームワーク「CLAIRE」を提案し、スマート製造における高精度な故障検出と説明可能な AI の実現を示しています。

Mohammadhossein Ghahramani, Mengchu Zhou2026-03-09🤖 cs.AI

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows

この論文は、大規模言語モデルによる自然言語での柔軟な指示と科学的ワークフローに必要な厳密な実行の両立を可能にするため、実行前にスキーマによる検証を義務付ける「スキーマゲート型オーケストレーション」を提案し、その有効性を多モデル評価を通じて実証しています。

Joel Strickland, Arjun Vijeta, Chris Moores, Oliwia Bodek, Bogdan Nenchev, Thomas Whitehead, Charles Phillips, Karl Tassenberg, Gareth Conduit, Ben Pellegrini2026-03-09🤖 cs.AI

Physical Simulator In-the-Loop Video Generation

この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

Abductive Reasoning with Syllogistic Forms in Large Language Models

本論文は、大規模言語モデル(LLM)が演繹だけでなく帰納的推論(アブダクション)においても人間と同様のバイアスを示すかどうかを、三段論法形式のデータセットを変換して検証し、文脈に即した推論の重要性を明らかにするものである。

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

本論文は、事前学習済み LLM 音声合成モデルを弱時間整合データで適応させ、限定的な未来テキストに基づいて内容境界で早期停止を学習するプロソディ境界認識型ポストトレーニング戦略とスライディングウィンドウ推論を提案し、ストリーミングテキスト入力における不自然なプロソディと長文生成の崩壊を解決し、CosyVoice 型ベースラインを短・長文両面で上回る性能を実現したものである。

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong Chng2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

この論文は、ユーザーの専門性や目標に応じた信頼性の高い説明を生成するために、LLM のハルシネーションを防ぎつつフィードバックループで個人化を実現する XAI 枠組み「PONTE」を提案し、医療・金融分野での評価でその有効性を示したものである。

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

本論文は、多様なデバイスや環境、質問意図に対応するため、音声エンコーダと言語生成モデルを条件付きで専門的に切り替える階層的な専門化メカニズムを導入した呼吸音質問応答システム「RAMoEA-QA」を提案し、既存モデルを上回る精度と汎化性能を達成したことを報告しています。

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia Mascolo2026-03-09🤖 cs.AI

LiveSense: A Real-Time Wi-Fi Sensing Platform for Range-Doppler on COTS Laptop

本論文は、市販の Wi-Fi 対応ノートパソコン(Intel AX211/BE201 チップセット搭載)を、通信機能を維持したままリアルタイムでセンチメートル単位の距離・ドップラーセンシングを可能にする「LiveSense」というプラットフォームを提案し、限られた帯域幅(160MHz)にもかかわらず商用 Wi-Fi からの高精度な距離推定を初めて実現したことを示しています。

Jessica Sanson, Rahul C. Shah, Maximilian Pinaroc, Cagri Tanriover, Valerio Frascolla2026-03-09🤖 cs.AI

Boosting deep Reinforcement Learning using pretraining with Logical Options

この論文では、深層強化学習エージェントが早期の報酬信号に過剰に依存する問題を解決するため、記号的な構造をニューラルネットワークに注入する「ハイブリッド階層強化学習(H^2RL)」という 2 段階のフレームワークを提案し、論理的なオプションを用いた事前学習により長期目標指向の行動を促進し、既存の手法を上回る性能を実証しています。

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting2026-03-09🤖 cs.AI

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

本論文は、外科手術の意図や判断根拠を解説する学術動画から大規模なデータセット「SUREON」を構築し、これを用いてトレーニングされた視覚言語モデルが、従来の一般領域モデルを上回る手術推論能力を有することを示したものです。

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI