A Text-Native Interface for Generative Video Authoring

この論文は、テキスト作成の自然なプロセスに合わせ、アセット定義から編集・音声追加まで単一のドキュメント内で完結させる「Doki」というテキストネイティブな生成動画制作インターフェースを提案し、その設計原理と多様な専門性を持つユーザーを対象とした実証研究を通じて、視覚的ストーリーテリングの新たな可能性を示しています。

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li2026-03-11🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

この論文は、Qwen3 微調整モデルを用いて英語と中国語のニュースから抽出したセンチメントデータを、LSTM モデルに統合することで、特に市場変動が激しい時期においてアルミニウム価格の予測精度と経済的有用性が大幅に向上することを示しています。

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

この論文は、大規模言語モデル(LLM)を構造化された意味教師として活用して医療用ビジョントランスフォーマー(ViT)を事前学習させる「VIVID-Med」フレームワークを提案し、LLM を学習後に破棄することで軽量かつ展開可能なモデルを実現しつつ、BiomedCLIP を上回る高性能な医療画像分析を達成したことを報告しています。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

既存の言語駆動型ナビゲーション手法が機能性建物における類似特徴や事前空間知識の活用不足に直面する課題を解決するため、環境マップを意味事前マップに変換し、階層的な思考連鎖プロンプトとマルチモデル協調メカニズムを導入した「PM-Nav」を提案し、シミュレーションおよび実世界での大幅な性能向上を実証した。

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

この論文は、複雑な指先操作における視覚言語行動モデルの信頼性と適応性を向上させるため、腕と手の協調介入を可能にする初のヒト・イン・ザ・ループフレームワーク「DexHiL」を提案し、実機実験でオフライン微調整のベースラインを平均 25% 上回る成功率を達成したことを報告しています。

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

この論文は、未知かつ非一様な劣化に直面する実世界環境において、不確実性に基づいてノイズ注入強度を適応的に調整する「不確実性誘導ノイズ生成(UNG)」モジュールと、マルチモーダル大規模言語モデル(MLLM)を用いた「品質認識事前知識(QAP)」を統合した新しい拡散モデル「QUSR」を提案し、高忠実度かつ高現実的な画像超解像を実現するものです。

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

この論文は、クラスインクリメンタル学習における特徴の衝突を因果的観点から解決するため、内タスクおよび間タスクの因果的完全性と分離性を定量化する拡張 PNS(CPNS)に基づく正則化手法を提案し、双方向のカウンターファクトル生成器を用いて特徴の衝突を効果的に抑制することを示しています。

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

この論文は、非構造化テーブルにおける複雑な長期的分析タスクを「Deep Tabular Research」として定式化し、階層的メタグラフ、期待値認識型選択ポリシー、および継続的学習を可能にするシアン構造メモリを備えた閉ループ型エージェントフレームワークを提案することで、戦略的計画と低レベル実行を分離した効率的な推論を実現することを示しています。

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

この論文は、文脈長の制約や幻覚、単一エージェントの限界といった既存の表質問応答(TableQA)の課題を克服するため、データリーダー、データベースチーム、知識グラフチームによる協調と自動知識変換を導入したマルチエージェントフレームワーク「DataFactory」を提案し、複数のベンチマークで大幅な精度向上を実証したものである。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap は、LLM が作成した評価基準(ルブリック)に基づいて報酬信号を生成する強化学習フレームワークを導入し、高密度画像キャプション生成において既存の教師あり蒸留や RL 手法、さらには人間専門家やプロプライエタリモデルを上回る性能と効率を実現しました。

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

本論文は、機能的に不完全でも構造的なパターンが機能意図を反映する LLM 生成 RTL を活用して合成ネットリストの表現学習を行う新たなフレームワークを提案し、実世界の回路設計におけるデータ不足というボトルネックを解消することを示しています。

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

この論文は、大規模なロボット遠隔操作データ収集を不要とし、人間の一人称視点動画から直接学習することで、自然で多様な全身動作を可能にする新しいヒューマノイド制御フレームワーク「ZeroWBC」を提案し、Unitree G1 による実験でその有効性を示したものである。

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

この論文は、LLM ベースのコード変異エージェント「AlphaEvolve」を用いて、5 つの古典的ラムゼー数(R(3,13)R(3,13)R(3,18)R(3,18)R(4,13)R(4,13)R(4,14)R(4,14)R(4,15)R(4,15))の既知の下限値をそれぞれ 1 ずつ引き上げる新たな結果を達成し、従来の個別の検索アルゴリズムに代わる単一のメタアルゴリズムとして機能したことを報告しています。

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI