cs.AI 件の論文 | Gist.Science

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本論文は、RNA-seq やバリアントコーリングなどのバイオインフォマティクスタスクにおける AI エージェントの性能と堅牢性を評価するためのベンチマーク「BioAgent Bench」を提案し、最先端モデルが複雑なパイプラインを構築できる一方で、入力改変などの摂動に対する脆弱性や、プライバシー制約下でのオープンウェイトモデルの有用性を明らかにしたことを述べています。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

この論文は、大規模なサイバーセキュリティ特化データとエージェントによる拡張パイプラインを活用して訓練されたオープンソースの一般化サイバーセキュリティアシスタント「RedSage」を開発し、その専門知識と汎用推論能力の向上を実証的に示すとともに、評価用ベンチマーク「RedSage-Bench」を公開したことを報告しています。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

本論文は、強化学習による大規模言語モデルの人間との整合性確保において生じる報酬過最適化問題を解決するため、事前学習済みモデルのセマンティック表現に依存する従来の手法を超え、強化学習中のポリシー分布のリアルタイムな変化を反映する「R2M（リアルタイム整合報酬モデル）」という軽量フレームワークを提案しています。

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

この論文は、ランクとスコアの組み合わせおよび認知的多様性を活用した「組合せ融合分析（CFA）」という新しいモデル融合手法をビットコイン価格予測に応用し、MAPE 0.19% という優れた性能で既存の個別モデルや他の予測手法を上回る結果を示したことを報告しています。

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

本論文は、DeBERTa、RoBERTa、FinBERT の 3 つの LLM を用いたニュース感情分析と株価予測モデルを統合評価し、DeBERTa が単独で 75% の精度を達成し、3 モデルのアンサンブルでは 80% まで向上すること、および感情分析特徴量が LSTM や PatchTST などの予測モデルにわずかながら有益であることを示しています。

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

この論文は、従来の SGD ベースの手法では Adam 最適化器の複雑な動的挙動を捉えられないという課題を解決するため、固定状態仮説に基づく閉形式近似と「線形化ゴースト近似」を導入し、Adam 最適化器に対応した高速かつ高精度なデータ寄与度評価手法「Adam-Aware In-Run Data Shapley」を提案するものである。

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

シュワルツの高次価値カテゴリーは、単一の文から人間の価値を検出するタスクにおいて、厳密な階層的ゲートリングやスタンドアロンのコンパクト LLM としてよりも、閾値調整やアンサンブルによる校正、あるいは帰納的バイアスとして活用する方が、限られた計算資源下でより効果的であることが示されました。

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

本論文は、人間の学習プロセスに着想を得た「厚み化から薄み化（T2T）」という動的報酬枠組みを提案し、誤答時には探索を促す「厚み化」、正解時には冗長性を抑制する「薄み化」を段階的に適用することで、大規模言語モデルの推論能力を大幅に向上させることを示しています。

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

本論文は、LLM 生成コードの構造的な脆弱性がフロントエンド特徴から予測可能であることを示す「FSTab」フレームワークを提案し、ブラックボックス環境下での攻撃成功率 94% などの高い転移性を確認することで、コード生成における新たなセキュリティリスクを明らかにした。

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

この論文は、arXiv などの 920 万件の定理を網羅する大規模コーパスを用いて、自然言語記述による意味検索が数学者による専門的な定理検索において既存手法を大幅に上回る有効性を有することを示しています。

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

この論文は、大規模言語モデルを活用してレビューテキストなどからユーザーとアイテムの動機を抽出・統合し、ノイズや意味のズレを抑制する新たな推薦フレームワーク「LMMRec」を提案し、既存手法を最大 4.98% 上回る性能向上を実証したものです。

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

本論文は、Doob の h 変換とマルティンゲール理論に基づき、事前学習済み拡散モデルのスコアネットワークを変更することなく、確率 1 で制約を満たす硬制約付き条件生成を実現するガイダンス手法と、その誤差解析およびオフポリシー学習アルゴリズムを提案するものである。

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

本論文は、従来の静的ベンチマークや手動レッドチームの限界を克服し、遺伝的プロンプト変異と階層的コーパス探索を統合した自律エージェントによるフィードバック駆動型最適化フレームワーク「NAAMSE」を提案し、大規模言語モデルの適応的な脅威に対する堅牢性をより現実的かつスケーラブルに評価する方法を示しています。

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

本論文は、脳グラフのセマンティクスを損なう既存のデータ拡張手法や構造情報の欠如といった課題を解決するため、拡散モデルを用いて構造認識型のドロップ・マスク戦略とトポロジーを考慮した再構成を可能にする統合的な事前学習フレームワーク「Diffusion-Guided Pretraining」を提案し、大規模な神経画像データセットにおける一貫した性能向上を実証したものである。

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

この論文は、LLM の内部層間の不一致を検出するメトリクスを用いて推論時にハルシネーションを抑制する新しいデコーディングアルゴリズム「CoCoA」を提案し、モデルの再学習なしに事実性の高い出力を実現することを示しています。

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

本論文は、自律走行におけるマルチモーダル大規模言語モデルの計算コストを最大 30 倍削減しつつ、全トークンを使用した場合と同等の性能を維持する初の教師ありトークン削減フレームワーク「SToRM」を提案し、LangAuto ベンチマークで最先端の手法を上回る結果を示したものである。

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

本論文は、人間の介入に依存せずマルチモーダルエージェントを「意味的世界モデル」として活用し、物理的探索を構造化することでサンプル効率を大幅に向上させ、ロボット強化学習の自動化とスケーラビリティを実現する「エージェント誘導方策探索（AGPS）」フレームワークを提案しています。

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

本論文は、数学やコーディングなど複数のドメインにおける大規模言語モデルの強化学習（RLVR）において、混合マルチタスク学習と個別学習後のモデル結合の 2 つの手法を比較・分析し、ドメイン間の干渉が少なく相乗効果が得られることを示すとともに、その内部メカニズムを多角的に解明した研究です。

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

本論文は、LLM エージェントの推論時に知識を付与する「スキル」の効果を測定する新しいベンチマーク「SkillsBench」を提案し、手動で選定されたスキルがタスクの成功率を大幅に向上させる一方で、モデルが自律的に生成したスキルは平均的に効果がないことを示した。

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

本論文は、LLM のハルシネーションを埋め込み空間の幾何学的特性に基づいて「不忠実性」「虚構」「事実誤認」の 3 種類に分類し、それぞれに対応する検出指標（SGI と DGI）を提案するとともに、TruthfulQA における分類性能の限界が事実誤認の検出ではなくスタイルの偏りに起因することを明らかにしています。

Javier Marín2026-03-10💬 cs.CL

← 前へ次へ →