cs.AI 件の論文 | Gist.Science

Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes

この論文は、離散的な事象マークと連続的な時間的ダイナミクスを双方向に相互作用させる「NEXTPP」という二経路フレームワークを提案し、不規則な事象シーケンスの予測精度を飛躍的に向上させることを示しています。

Yuxiang Liu, Qiao Liu, Tong Luo, Yanglei Gan, Peng He, Yao LIu2026-03-13🤖 cs.LG

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

本論文は、リアルワールド環境における音声・視覚信号の信頼性が相互作用の段階によって変動する課題に対処するため、各段階でモダリティごとの信頼性を推定・較正し、適応的に融合を行う「SAGE」と呼ばれるフレームワークを提案し、Aff-Wild2 ベンチマークにおいて既存手法を上回る連続的な感情推定性能を実証したものである。

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil Park2026-03-13🤖 cs.AI

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

この論文は、自然言語で記述されたイベント定義を少量またはゼロの学習データで多変量時系列信号にマッピングする「知識誘導型時系列イベント検出」という新たな課題に対し、言語記述と物理的データを橋渡しする「イベント論理木（ELT）」を導入し、神経記号的 VLM エージェントと組み合わせて高精度な検出と説明可能な推論を実現する手法を提案し、実世界データに基づくベンチマークでその有効性を示したものです。

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

本論文は、動画大規模言語モデル（Video-LLM）の「忠実性」と「事実性」に関するハルシネーションを包括的に診断し、視覚劣化や証拠改ざんなどの誘発条件下でのモデルの信頼性を評価する新しいベンチマーク「INFACT」を提案し、ベースモードでの高精度が誘発モードでの安定性を保証しないことを実証しています。

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen2026-03-13🤖 cs.AI

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation

本論文は、ドメインシフト下でのノイズ耐性を高める意味プロンプト機能強化メカニズムと、最適輸送問題として再定式化した微分可能グラフクラスタリングソルバーを導入することで、医療画像セグメンテーションにおける継続的テスト時適応の信頼性と性能を向上させる手法「SPEGC」を提案しています。

Xiaogang Du, Jiawei Zhang, Tongfei Liu, Tao Lei, Yingbo Wang2026-03-13🤖 cs.AI

OrthoEraser: Coupled-Neuron Orthogonal Projection for Concept Erasure

この論文は、テキストから画像を生成するモデルにおける安全リスクに対処するため、スパースオートエンコーダを用いて敏感な概念と良性の属性を高精度に分離し、結合ニューロンの部分空間への直交射影によって有害な内容を除去しつつ良性の生成能力を維持する「OrthoEraser」という新たな概念消去手法を提案するものである。

Chuancheng Shi, Wenhua Wu, Fei Shen, Xiaogang Zhu, Kun Hu, Zhiyong Wang2026-03-13🤖 cs.AI

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

本論文は、既存の攻撃手法では防御されるグラフベースの RAG（GraphRAG）の脆弱性を突くため、知識の進化経路を偽造して知識グラフを汚染し、LLM を意図的な有害な回答に誘導する新たな攻撃手法「KEPo」を提案し、その有効性を実証したものである。

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

本論文は、ナノフォトニックデバイスの製造ばらつきを予測し不確実性をモデル化するため、設計レイアウトから走査型電子顕微鏡画像に似た多様な高解像度予測を生成する条件付き生成敵対ネットワーク「Gen-Fab」を提案し、既存の手法を上回る精度と汎化性能を実証したものである。

Rambod Azimi, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur2026-03-13🤖 cs.AI

Multi-Agent Collaboration for Automated Design Exploration on High Performance Computing Systems

この論文は、LLM 駆動のマルチエージェントシステム「MADA」を提案し、HPC 環境や機械学習サロゲートモデルを活用して Richtmyer-Meshkov 不安定性の抑制など複雑な科学設計空間を自動探索・最適化する手法を示しています。

Harshitha Menon, Charles F. Jekel, Kevin Korner, Brian Gunnarson, Nathan K. Brown, Michael Stees, M. Giselle Fernandez-Godino, Walter Nissen, Meir H. Shachar, Dane M. Sterbentz, William J. Schill, Yue Hao, Robert Rieben, William Quadros, Steve Owen, Scott Mitchell, Ismael D. Boureima, Jonathan L. Belof2026-03-13🤖 cs.AI

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

本論文は、構成画像検索（CIR）モデルが難易度の高い負例において片方のモダリティに偏って注目する「焦点の偏り」を特定する解釈手法 FBCIR を提案し、これに基づいてバランスの取れた推論を促すデータ拡張ワークフローを開発することで、モデルの頑健性を向上させることを示しています。

Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu2026-03-13🤖 cs.AI

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

本論文は、擬似ラベルの信頼性と特徴の忠実度を同時に向上させるため、多様な視覚手がかりを統合したモジュールと擬似ラベルの進化融合手法を提案し、教師なし擬装物体検出において最先端の性能を達成する「EReCu」という統一的なフレームワークを提示しています。

Shuo Jiang, Gaojia Zhang, Min Tan, Yufei Yin, Gang Pan2026-03-13🤖 cs.AI

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

この論文は、バッチ内の他のトークンに依存せず動的な計算割り当てと負荷分散を実現する「Expert Threshold」ルーティング手法を提案し、従来の Token-choice MoE よりも優れた性能と効率的な学習を達成したことを示しています。

Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun2026-03-13🤖 cs.AI

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

本論文は、CLIP などの大規模視覚言語モデルのワンショット適応における安定性と可塑性のジレンマを解決するため、ゼロショット知識と視覚プロトタイプの融合、サポートセットの拡張、分布の補正、マルチスケール RBF カーネルの Ensemble といった多段階のトレーニングフリー手法「ReHARK」を提案し、11 のベンチマークで既存手法を大幅に上回る SOTA 性能を達成したことを報告しています。

Md Jahidul Islam2026-03-13🤖 cs.AI

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

この論文は、テキスト、画像、音声、動画、文書など多様なモダリティに特化したツールを中央のスーパーバイザーが動的に調整・統合する自律型 AI フレームワークを提案し、既存の階層型ベースラインと比較して回答までの時間を 72%、会話のやり直しを 85%、コストを 67% 削減しながら精度を維持できることを実証しています。

Mayank Saini Arit Kumar Bishwas2026-03-13💬 cs.CL

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

この論文は、現実世界の複雑な長期的タスクに対応するため、垂直構造を考慮した言語駆動型の多階層 3D 環境生成フレームワーク「MANSION」と、1,000 棟以上の多様な建物を収録したデータセット「MansionWorld」を提案し、既存のエージェントが空間推論において顕著な性能低下を示すことを実証しています。

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

本論文は、データ収集、学習、実行を単一の VLM 駆動コントローラーで統合し、自己リセットループを可能にする「絡み合った行動ペア（EAP）」を導入することで、長期的なロボットタスクの成功率を 25% 向上させ、人間の介入を 53.7% 削減するアジェンティックフレームワーク「RoboClaw」を提案するものである。

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

この論文は、臨床診断や投資判断など検証が困難な高リスクな意思決定において、最先端の LLM が「問題の特定はできるが修正ができず、誤ったパターンを高度化しながら繰り返す」という「ヘリコイド動力学」と呼ばれる失敗様式を示すことを明らかにし、信頼性の高い AI 連携に向けた仮説と対策を提案しています。

Alejandro R Jadad2026-03-13🤖 cs.AI

How Intelligence Emerges: A Minimal Theory of Dynamic Adaptive Coordination

この論文は、最適化や学習に依存せず、持続的な環境記憶とインセンティブ場を介した適応的相互作用の動的構造そのものとして、多エージェントシステムにおける協調的知性の出現を説明する理論的枠組みを提示しています。

Stefano Grassi2026-03-13📈 econ

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

本論文は、自然言語の曖昧さを克服し、複数の目的を同時に満たす大規模言語モデルのタスクを形式数学言語とインフルエンス図を用いて定義し、期待効用最大化を指示する「UtilityMax Prompting」フレームワークを提案し、映画推薦タスクにおいて自然言語ベースラインを上回る精度と NDCG の改善を実証したものである。

Ofir Marom2026-03-13💬 cs.CL

Toward Complex-Valued Neural Networks for Waveform Generation

本論文は、複素数演算をネイティブに活用して複素スペクトログラムの構造を捉え、位相量子化とブロック行列計算を導入した複素数値ニューラルボコーダ「ComVo」を提案し、合成音質の向上と学習時間の短縮を実現したことを報告しています。

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee2026-03-13🤖 cs.AI

← 前へ次へ →