cs.AI 件の論文 | Gist.Science

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

本論文は、構成画像検索（CIR）モデルが難易度の高い負例において片方のモダリティに偏って注目する「焦点の偏り」を特定する解釈手法 FBCIR を提案し、これに基づいてバランスの取れた推論を促すデータ拡張ワークフローを開発することで、モデルの頑健性を向上させることを示しています。

Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu2026-03-13🤖 cs.AI

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

本論文は、擬似ラベルの信頼性と特徴の忠実度を同時に向上させるため、多様な視覚手がかりを統合したモジュールと擬似ラベルの進化融合手法を提案し、教師なし擬装物体検出において最先端の性能を達成する「EReCu」という統一的なフレームワークを提示しています。

Shuo Jiang, Gaojia Zhang, Min Tan, Yufei Yin, Gang Pan2026-03-13🤖 cs.AI

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

この論文は、バッチ内の他のトークンに依存せず動的な計算割り当てと負荷分散を実現する「Expert Threshold」ルーティング手法を提案し、従来の Token-choice MoE よりも優れた性能と効率的な学習を達成したことを示しています。

Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun2026-03-13🤖 cs.AI

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

本論文は、CLIP などの大規模視覚言語モデルのワンショット適応における安定性と可塑性のジレンマを解決するため、ゼロショット知識と視覚プロトタイプの融合、サポートセットの拡張、分布の補正、マルチスケール RBF カーネルの Ensemble といった多段階のトレーニングフリー手法「ReHARK」を提案し、11 のベンチマークで既存手法を大幅に上回る SOTA 性能を達成したことを報告しています。

Md Jahidul Islam2026-03-13🤖 cs.AI

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

この論文は、テキスト、画像、音声、動画、文書など多様なモダリティに特化したツールを中央のスーパーバイザーが動的に調整・統合する自律型 AI フレームワークを提案し、既存の階層型ベースラインと比較して回答までの時間を 72%、会話のやり直しを 85%、コストを 67% 削減しながら精度を維持できることを実証しています。

Mayank Saini Arit Kumar Bishwas2026-03-13💬 cs.CL

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

この論文は、現実世界の複雑な長期的タスクに対応するため、垂直構造を考慮した言語駆動型の多階層 3D 環境生成フレームワーク「MANSION」と、1,000 棟以上の多様な建物を収録したデータセット「MansionWorld」を提案し、既存のエージェントが空間推論において顕著な性能低下を示すことを実証しています。

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

本論文は、データ収集、学習、実行を単一の VLM 駆動コントローラーで統合し、自己リセットループを可能にする「絡み合った行動ペア（EAP）」を導入することで、長期的なロボットタスクの成功率を 25% 向上させ、人間の介入を 53.7% 削減するアジェンティックフレームワーク「RoboClaw」を提案するものである。

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

この論文は、臨床診断や投資判断など検証が困難な高リスクな意思決定において、最先端の LLM が「問題の特定はできるが修正ができず、誤ったパターンを高度化しながら繰り返す」という「ヘリコイド動力学」と呼ばれる失敗様式を示すことを明らかにし、信頼性の高い AI 連携に向けた仮説と対策を提案しています。

Alejandro R Jadad2026-03-13🤖 cs.AI

How Intelligence Emerges: A Minimal Theory of Dynamic Adaptive Coordination

この論文は、最適化や学習に依存せず、持続的な環境記憶とインセンティブ場を介した適応的相互作用の動的構造そのものとして、多エージェントシステムにおける協調的知性の出現を説明する理論的枠組みを提示しています。

Stefano Grassi2026-03-13📈 econ

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

本論文は、自然言語の曖昧さを克服し、複数の目的を同時に満たす大規模言語モデルのタスクを形式数学言語とインフルエンス図を用いて定義し、期待効用最大化を指示する「UtilityMax Prompting」フレームワークを提案し、映画推薦タスクにおいて自然言語ベースラインを上回る精度と NDCG の改善を実証したものである。

Ofir Marom2026-03-13💬 cs.CL

Toward Complex-Valued Neural Networks for Waveform Generation

本論文は、複素数演算をネイティブに活用して複素スペクトログラムの構造を捉え、位相量子化とブロック行列計算を導入した複素数値ニューラルボコーダ「ComVo」を提案し、合成音質の向上と学習時間の短縮を実現したことを報告しています。

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee2026-03-13🤖 cs.AI

Leveraging Large Language Models and Survival Analysis for Early Prediction of Chemotherapy Outcomes

この論文は、大規模言語モデルとオントロジー技術を用いて乳がんなどの化学療法データから臨床表現型や治療転帰を抽出し、生存分析モデルを構築することで、治療結果の早期予測精度を向上させ、個別化医療の実現に貢献する手法を提案しています。

Muhammad Faisal Shahid, Asad Afzal, Abdullah Faiz, Muhammad Siddiqui, Arbaz Khan Shehzad, Fatima Aftab, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.AI

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

この論文は、7 つのオープンソース大規模言語モデルを評価し、推論や誤字修正などの構造化タスクでは有用である一方、説明テキストの好みは評価者によって大きく異なるものの、限定的な臨床的シナリオにおいて日本語の病理報告書作成を支援できる可能性を示した。

Masataka Kawai, Singo Sakashita, Shumpei Ishikawa, Shogo Watanabe, Anna Matsuoka, Mikio Sakurai, Yasuto Fujimoto, Yoshiyuki Takahara, Atsushi Ohara, Hirohiko Miyake, Genichiro Ishii2026-03-13💬 cs.CL

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

この論文は、電子カルテのビッグデータを用いて、生存分析を分類タスクに再構築する新たなフレームワークを提案し、糖尿病や高血圧などの 5 つの慢性疾患のリスク予測において、LightGBM や XGBoost などの既存モデルと同等かそれ以上の性能を発揮し、さらに医師による臨床検証を受けた説明可能性を有することを示しています。

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

この論文は、視覚言語モデル（VLM）のゲームプレイ性能向上において、正確な記号情報が不可欠であり、モデル自身が視覚入力から記号を抽出する際の精度がボトルネックとなることを示しています。

Ashish Baghel, Paras Chopra2026-03-13🤖 cs.AI

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

本論文は、自律型 LLM エージェント「OpenClaw」のセキュリティ脅威を、初期化から実行までの 5 層のライフサイクル枠組みを用いて包括的に分析し、既存の防御手法の限界を指摘するとともに、各段階における包括的な防御戦略を提案しています。

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi Li2026-03-13🤖 cs.AI

The Density of Cross-Persistence Diagrams and Its Applications

本論文は、2 つの点雲間の関係性を捉えるクロス・パーシステンス図の密度を初めて体系的に研究し、その存在証明と統計的基盤の確立、点雲座標からの直接予測を行う機械学習フレームワークの設計、およびノイズ導入による識別精度向上などの発見を通じて、トポロジカル・データ分析の新たな応用可能性を開拓したものである。

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

MedPruner は、スライスレベルの冗長性を除去し、累積アテンション重みに基づく動的なトークン選択を行うトレーニング不要の階層的トークン剪定フレームワークであり、3D 医療画像理解における計算コストを大幅に削減しながらモデルの性能を維持または向上させることを可能にします。

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

本論文は、グラフ知覚理論に基づいた人間の視覚的解釈を模倣し、視覚知覚と論理推論を段階的に分離する「VisDoT」フレームワークを提案することで、チャート理解や視覚推論の性能を大幅に向上させ、GPT-4o を凌駕する最先端の結果を達成したことを報告しています。

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

本論文は、離散化されたルームインスタンストークンを用いてレイアウトと記号推論を統合し、テキスト指示から一貫性があり制御可能な建築平面図の理解・生成・編集を可能にするマルチモーダル大規模言語モデル「HouseMind」を提案するものである。

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

← 前へ次へ →