cs.AI 件の論文 | Gist.Science

AEX: Non-Intrusive Multi-Hop Attestation and Provenance for LLM APIs

本論文は、ホスト型大規模言語モデル（LLM）の API 境界において、クライアントからのリクエストと返答の対応関係を非侵襲的に証明し、信頼できる仲介者による変換やストリーミング処理の完全性を保証する新しいアテステーション拡張「AEX」を提案するものである。

Yongjie Guan2026-03-17🤖 cs.AI

High-Fidelity Compression of Seismic Velocity Models via SIREN Auto-Decoders

この論文は、SIREN オートデコーダーを用いた潜在ベクトル表現により、地震速度モデルを高忠実度で圧縮・復元し、滑らかな補間や追加学習なしの超解像といった利点を示す新しいフレームワークを提案しています。

Caiyun Liu, Xiaoxue Luo, Jie Xiong2026-03-17🤖 cs.LG

Seeking Physics in Diffusion Noise

この論文は、事前学習済み拡散トランスフォーマーの中間特徴量に物理的妥当性を予測する信号が埋め込まれていることを発見し、これを活用した推論時の軌道選択手法により、物理的整合性を向上させつつ推論コストを削減できることを示しています。

Chujun Tang, Lei Zhong, Fangqiang Ding2026-03-17🤖 cs.LG

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

本論文は、幾何学・運動・意味情報を単一の表現で構造的に結合し、オブジェクト単位で分解された運動とキネマティクス条件付きの言語フィールドを同時学習することで、可解釈な運動プリミティブと時間的根拠を持つ言語クエリを可能にする「4D Synchronized Fields」を提案し、既存手法を大幅に上回る性能を達成したことを報告しています。

Mohamed Rayan Barhdadi, Samir Abdaljalil, Rasul Khanbayov + 2 more2026-03-17🤖 cs.AI

Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

この論文は、300 以上の相互運用可能な科学スキル、計算の完全な系譜を記録する DAG 型のアーティファクト層、およびプロベナンスを考慮したガバナンスを備えた「ScienceClaw + Infinite」という自律的科学調査フレームワークを提案し、中央集権的な調整なしに自律エージェントが分散的に発見を協調し、多様な科学分野における自律的な研究サイクルと traceable な推論を実現することを示しています。

Fiona Y. Wang, Lee Marom, Subhadeep Pal, Rachel K. Luu, Wei Lu, Jaime A. Berkovich, Markus J. Buehler2026-03-17🧬 q-bio

How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images

この論文は、医療画像の解釈において最先端のマルチモーダル大規模言語モデル（MLLM）が臨床的に重要な領域への視覚的グラウンディングに失敗していることを初めて体系的に実証し、追加学習なしに推論時の注意分布を最適化する「VGRefine」という手法を提案することで、複数の医療 VQA ベンチマークで最先端の性能を達成したことを報告しています。

Guimeng Liu, Tianze Yu, Somayeh Ebrahimkhani + 3 more2026-03-17🤖 cs.AI

ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation

この論文は、多モーダル大規模言語モデルが心電図解釈において表面的な視覚的手がかりに依存し、実際の視覚的証拠に基づいた段階的な臨床推論を行うことができていないことを示す新たな評価基準「ECG-Reasoning-Benchmark」を提案し、医療 AI の推論中心のトレーニングの必要性を浮き彫りにしています。

Jungwoo Oh, Hyunseung Chung, Junhee Lee, Min-Gyu Kim, Hangyul Yoon, Ki Seong Lee, Youngchae Lee, Muhan Yeo, Edward Choi2026-03-17💬 cs.CL

AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models

本論文は、多視点農業画像におけるスケール混乱や論理の偏りを解消するため、大規模な多視点データセット「AgroOmni」を構築し、視覚的知覚と推論を分離する新アーキテクチャ「AgroNVILA」を提案することで、高度な農業空間計画を実現したことを報告しています。

Jiarui Zhang, Junqi Hu, Zurong Mai + 8 more2026-03-17🤖 cs.AI

Deconfounded Lifelong Learning for Autonomous Driving via Dynamic Knowledge Spaces

この論文は、自動運転の生涯学習における忘却や偽相関を解決するため、ディリクレ過程混合モデルと因果推論のフロントドア調整を組み合わせて動的知識空間を構築し、適応的な知識拡張と因果表現の強化を実現する「DeLL」フレームワークを提案しています。

Jiayuan Du, Yuebing Song, Yiming Zhao, Xianghui Pan, Jiawei Lian, Yuchu Lu, Liuyi Wang, Chengju Liu, Qijun Chen2026-03-17🤖 cs.LG

M $^2$ RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

本論文は、Transformer の計算複雑性の限界を克服し、行列値状態を持つ非線形 RNN である M²RNN を提案することで、大規模言語モデルにおいて効率的な長期依存関係の追跡と高い性能を実現することを示しています。

Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao2026-03-17🤖 cs.LG

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control

本論文は、複雑な階層的アプローチに依存せず、生視覚データと曖昧な言語指示を直接連続制御信号にマッピングするミニマリストなエンドツーエンドモデル「AerialVLA」を提案し、既存の手法に比べて未見環境での成功率が約 3 倍となるなど、UAV の自律航行において最先端の性能と優れた汎化能力を実現したことを示しています。

Peng Xu, Zhengnan Deng, Jiayan Deng + 2 more2026-03-17🤖 cs.AI

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

本論文は、視覚言語行動モデルにおけるマルチタスク並列実行の効率化を目的とし、共有観測の重複計算を排除し可変長言語デコードと固定レート動作生成を分離する「統一 KV キャッシュ管理」を提案することで、デバイス上での高速かつ高品質な推論を実現する OxyGen システムを提示しています。

Xiangyu Li, Huaizhi Tang, Xin Ding + 3 more2026-03-17🤖 cs.AI

Contests with Spillovers: Incentivizing Content Creation with GenAI

生成 AI によるコンテンツの再利用・再構成がもたらす正の外部性（スピルオーバー）がクリエイターのインセンティブを損なう問題を解決するため、均衡の存在を保証し社会的厚生を最大化するメカニズム設計と近似アルゴリズムを提案する研究です。

Sagi Ohayon, Boaz Taitler, Omer Ben-Porat2026-03-17🤖 cs.AI

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

この論文は、生成動画モデルが持つ物理的な時間スケールの不整合（クロノメトリック・ハルシネーション）を解決するため、動画の視覚的ダイナミクスから物理的なフレームレート（PhyFPS）を推定する「Visual Chronometer」を提案し、その有効性をベンチマークと人間の評価を通じて実証したものです。

Xiangbo Gao, Mingyang Wu, Siyuan Yang + 4 more2026-03-17🤖 cs.AI

SPARQ: Spiking Early-Exit Neural Networks for Energy-Efficient Edge AI

この論文は、スパイクニューラルネットワークに量子化感知学習と強化学習に基づく早期退出を組み合わせた統合フレームワーク「SPARQ」を提案し、エッジ AI 向けに高精度かつ極めて低消費電力な推論を実現することを示しています。

Parth Patne, Mahdi Taheri, Ali Mahani, Maksim Jenihhin, Reza Mahani, Christian Herglotz2026-03-17🤖 cs.LG

From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$ : Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

本論文は、強化学習における発散問題を解決し、安定性と探索の両立を実現するために、対数確率勾配に代わって確率勾配を最適化の基礎とした「Decoupled Gradient Policy Optimization (DGPO)」を提案し、DeepSeek-R1-Distill-Qwen シリーズでの実験で既存手法を上回る性能を実証しています。

Xiaoliang Fu, Jiaye Lin, Yangyi Fang, Chaowen Hu, Cong Qin, Zekai Shao, Binbin Zheng, Lu Pan, Ke Zeng2026-03-17🤖 cs.LG

← 前へ次へ →

cs.AI

AEX: Non-Intrusive Multi-Hop Attestation and Provenance for LLM APIs

High-Fidelity Compression of Seismic Velocity Models via SIREN Auto-Decoders

Seeking Physics in Diffusion Noise

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images

ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation

AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models

Deconfounded Lifelong Learning for Autonomous Driving via Dynamic Knowledge Spaces

M $^2$ RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Contests with Spillovers: Incentivizing Content Creation with GenAI

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

SPARQ: Spiking Early-Exit Neural Networks for Energy-Efficient Edge AI

From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$ : Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

ES-Merging: Biological MLLM Merging via Embedding Space Signals

PGcGAN: Pathological Gait-Conditioned GAN for Human Gait Synthesis

Questionnaire Responses Do not Capture the Safety of AI Agents

cs.AI

AEX: Non-Intrusive Multi-Hop Attestation and Provenance for LLM APIs

High-Fidelity Compression of Seismic Velocity Models via SIREN Auto-Decoders

Seeking Physics in Diffusion Noise

4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding

Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images

ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation

AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models

Deconfounded Lifelong Learning for Autonomous Driving via Dynamic Knowledge Spaces

M2^22RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Contests with Spillovers: Incentivizing Content Creation with GenAI

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

SPARQ: Spiking Early-Exit Neural Networks for Energy-Efficient Edge AI

From log⁡π\boldsymbol{\log\pi}logπ to π\boldsymbol{\pi}π: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

ES-Merging: Biological MLLM Merging via Embedding Space Signals

PGcGAN: Pathological Gait-Conditioned GAN for Human Gait Synthesis

Questionnaire Responses Do not Capture the Safety of AI Agents

M $^2$ RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$ : Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight