cs.AI 件の論文 | Gist.Science

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

この論文は、金融分野における大規模言語モデルのエージェント評価のために、760 個の実行可能な金融ツールと 295 個の厳密なクエリを備えた世界初のリアルワールドベンチマーク「FinToolBench」と、それに伴う評価フレームワークおよびベースライン手法「FATR」を提案するものである。

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

この論文は、大規模な金融言語モデルのバイアス検出における計算コストを削減するため、異なるモデル間でバイアス検出入力に共通パターンが存在することを実証し、他モデルの出力をガイドとして活用することで検出効率を大幅に向上させる手法を提案しています。

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

本論文は、VLM（視覚言語モデル）とモンテカルロ木探索を活用してテスト時の計算リソースを拡張し、文脈に応じた軌道の反復的洗練を通じてロボットの模倣学習の成功率を大幅に向上させる「SAIL」というフレームワークを提案しています。

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

この論文は、グラフニューラルネットワーク（GNN）が学習データにおけるノイズとなる統計的相関（偽の相関）に依存して一般化性能が低下する問題を解決するため、ヒルベルト・シュミット独立基準（HSIC）を用いてこれらの相関を特定・抑制し、分布外（OOD）を含む様々な条件下で高い汎化性能を実現する新しいフレームワーク「SCL-GNN」を提案しています。

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

この論文は、RIKER 評価手法を用いた大規模な実証研究により、ドキュメント Q&A における LLM の幻覚発生率が文脈長とともに急増し、モデル選択が最も重要な要因である一方、ハードウェアプラットフォームには依存しないことを明らかにした。

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

本論文は、文化的安全性と文化的知識の相関が低いという発見に基づき、両者を統合的にモデル化し、専門的な知識を生成プロセスに組み込むことで大規模言語モデルの文化的安全性を向上させる新しいフレームワーク「AdaCultureSafe」を提案しています。

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

本論文は、電子カルテの不規則な時間構造と複雑な疾患経過を考慮し、SNOMED 基準の医学概念と階層的注意機構を組み合わせた「TA-RNN-Medical-Hybrid」という新しい深層学習フレームワークを提案し、集中治療室における死亡率予測の精度向上と臨床的に意味のある解釈可能性の両立を実現したことを報告しています。

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

EPSRC の助成金申請書 6 件を用いた構造的摂動評価により、LLM による審査はセクション別分析が最も有効である一方、現状では完全な代替ではなく補完的な役割に留まり、明瞭さの欠陥の検出や評価の優先順位に課題があることを明らかにしました。

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

本論文は、航空機エンジンブレードの検査記録の改ざん防止と監査可能性を確保するため、Hyperledger Fabric 基盤のブロックチェーンシステム「BladeChain」を提案し、AI による欠陥検出モデルのトレーサビリティ、自動検査スケジューリング、およびマルチステークホルダー間の改ざん耐性のあるライフサイクル追跡を実現したことを示しています。

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

この論文は、線形対角ネットワークにおけるシャープネス感知最小化（SAM）の暗黙的バイアスを研究し、特に深さ $L=2$ のケースにおいて、初期値依存性や「逐次特徴増幅」と呼ばれる現象を通じて、無限時間収束の分析だけでは捉えられない動的な振る舞いが生じることを明らかにしています。

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

本論文は、視覚とテキストの両方を含む数学的問題解決における既存モデルの課題を踏まえ、構造化された知覚、明示的なアライメント、検証可能な推論を統合した新たなパラダイムを提案し、多モーダル数学推論の手法を「抽出」「表現とアライメント」「推論」「評価」の 4 つの観点から体系的に分析するとともに、今後の研究課題と展望を論じています。

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

この論文は、境界条件が変化するパラメータ依存の偏微分方程式に対して、従来のモデル順序縮約法の限界を克服し、計算領域のパラメータ記述から解への効率的なマッピングを学習する「グラフ指示ニューラルネットワーク（GINN）」という新たな手法を提案し、その有効性を示すものである。

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

本論文は、放射線レポートに基づいて 3D 視覚言語エンコーダで関連する臨床事例を検索し、その解剖学的注釈を ControlNet を介して注入することで、テキスト条件付き潜在拡散モデルを用いた CT 画像生成において、意味的な制御と解剖学的な整合性を両立させる新しい手法を提案するものです。

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

本論文は、大規模言語モデルと視覚言語モデルを用いて自動生成された概念マスクに基づき、ビジョン・トランスフォーマーの内部関連性マップを最適化することで、背景などの偽相関への依存を減らし、分布外データに対する頑健性と解釈可能性を向上させる新しいファインチューニング手法を提案し、その有効性を複数のベンチマークで実証したものである。

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

この論文は、Epic Kitchens データセットから作成された最小識別可能領域（MIRCs）を用いた大規模な人間と AI の比較研究を通じて、人間が空間的・時間的制約下でも手と物体の相互作用などの重要な視覚的手がかりに依存して行動認識を行うのに対し、AI モデルは文脈や低レベルの特徴に依存し、人間とは異なる認識パターンを示すことを明らかにしています。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

本論文は、構造化された推論トレースと知識グラフに基づく安全性検証を組み合わせたニューロシンボリックフレームワーク「CORE-Acu」を提案し、鍼灸臨床意思決定支援において推論の解釈可能性を高め、幻覚を防止して安全性を厳格に保証する手法を示しています。

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

この論文は、大規模言語モデル、記号計算ツール、人間の戦略的指導を統合した自律型神経記号システムを用いて、組合せ設計理論におけるラテン正方形の不均衡に関する新たな厳密な下限（$4n(n{-}1)/9$）を発見し、Lean 4 で形式的に検証したことを報告しています。

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

EndoSERV: A Vision-based Endoluminal Robot Navigation System

この論文は、組織変形や特徴点の欠如といった課題を克服し、実世界のポーズラベルなしでも臨床データで有効性が実証された、セグメント間オドメトリと実像から仮想空間への転移学習を組み合わせた新しい内視鏡ロボットナビゲーションシステム「EndoSERV」を提案するものである。

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

SPD-RAG は、各ドキュメントを個別に処理する専門エージェントと調整エージェントを階層的に組み合わせ、大規模な多ドキュメント環境における複雑な質問への回答精度を向上させつつ、API コストを大幅に削減する新しい検索拡張生成フレームワークを提案するものです。

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

この論文は、製品・レビュー・レビュアーの関係を統合的にモデル化し、ネットワーク特徴スコアリングと動的グラフ注意機構を組み合わせることで、スパースデータ環境下でも頑健に偽レビューグループを検出する新しいグラフ学習モデル「DS-DGA-GCN」を提案し、実データを用いた実験で既存手法を上回る高い精度を達成したことを報告しています。

Jing Zhang, Ke Huang, Yao Zhang, Bin Guo, Zhiwen Yu2026-03-10💻 cs

← 前へ次へ →