cs.AI 件の論文 | Gist.Science

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

本論文は、Kaggle 風のタスクにおけるデータサイエンスエージェントの性能を評価するベンチマーク「TML-Bench」を提案し、10 のオープンソース LLM を複数の時間制約下で評価した結果、MiniMax-M2.1 モデルが最も優れた総合性能を示したことを報告しています。

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

この論文は、異なるドメインで微調整されたモデルの合併時に生じる特異部分空間の競合を、すべてのモデルの主要特異ベクトルを結合して共通直交基底を求め、競合する特異方向を剪除する「SCORE」という手法で解決し、ドメイン一般化性能を向上させることを提案しています。

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

本論文は、大規模言語モデルのより深い層にある注意ヘッドの脆弱性を特定し、そのアブレーション影響に基づくヘッド選択戦略と境界認識摂動法を組み合わせた新しい脱獄フレームワーク「SAHA」を提案し、既存手法を大幅に上回る成功率を達成したことを示しています。

Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

本論文は、LLM の安全性メカニズムが「危険性の認識」と「拒絶の実行」という二つの独立したサブ空間に分離しているという仮説を提唱し、これを検証して「拒絶を消去する攻撃」を開発するとともに、モデル間のアーキテクチャ的差異を明らかにした。

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

この論文は、患者が生成したテキストから構造化された患者の声（生活経験や社会的要因など）を抽出するためのベンチマーク「PVminer」と、それを用いた教師あり微調整大規模言語モデル「PVminerLLM」を提案し、小規模モデルでも高い精度で非臨床的な健康要因を大規模に分析可能であることを示しています。

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

この論文は、ニュースの地域性（国内・世界）に関する多様性を高めることを目的とした「双方向較正アルゴリズム的ナッジ」と「LLM ベースの提示ナッジ」を 120 名の米国人読者を対象に 5 週間にわたり実証研究した結果、アルゴリズム的ナッジが多様なニュースの接触と消費を成功裡に増加させたこと、および長期的な較正されたニュースへの曝露が読者の習慣を国内と世界のニュースのバランスを重視する方向へ変容させる可能性を示したことを報告しています。

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

この論文は、ビジョントランスフォーマーのパッチ特徴から学習したスパースオートエンコーダの視覚単語活性化に BM25 スコアリングを適用した「BM25-V」を提案し、その高い解釈性と効率的な 2 段階検索パイプラインにより、密なリランキングと同等の精度を維持しつつ大規模画像検索を可能にすることを示しています。

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

この論文は、AI エージェントの安全性対策が虚偽で広告されていないことを検証可能にするため、信頼実行環境（TEE）を用いて特定のオープンソースガードルールの実行を暗号的に証明する「Proof-of-Guardrail」というシステムを提案し、その実装と評価、および悪意ある開発者によるガードルールの回避という新たなリスクについても論じています。

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

本論文は、大規模なマルチモーダル生成ワークロードのリアルタイム配信を可能にする適応型モジュールシステム「StreamWise」を提案し、ハードウェアの多様性や品質・リソースの動的調整を通じて、低遅延・低コストかつ高品質なポッドキャスト動画生成を実現しています。

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

本論文は、LLM が多義的な概念を単一の解釈に収束させる「曖昧性の収束」という現象を定義し、そのプロセス・出力・生態系における認識論的リスクを分類し、曖昧性を維持・管理するための多層的な緩和策を提案するものである。

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

本論文は、対話型可視分析（CVA）における大規模言語モデルの評価課題を解決するため、開発者やエンドユーザーからのインタビューに基づき、実世界シナリオに対応するテストケース、解釈可能な評価指標、そしてプログラミング不要の対話型ツールキット「Lexara」を提案し、その有効性を実証したものである。

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

この論文は、対比プロンプティングを用いたホワイトボックス分析により、大規模言語モデル（GPT-J-6B）の内部における信頼の表現が、人間の信頼モデル（特にカステルフランキの社会認知モデル）と高い整合性を示すことを明らかにし、人間-AI 協働システムの設計や社会認知理論の発展に貢献する知見を提供しています。

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

この論文は、CNN と Vision Transformer の長所を組み合わせつつ、冗長な特徴表現によるボトルネックを回避するために 4 つの独立した融合モデルを最終予測段階でアンサンブルする手法を提案し、リモートセンシング画像分類において既存のアーキテクチャを上回る高い精度と計算効率を達成したことを示しています。

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

この論文は、検証済みの実行軌跡から自律的に有効なツールシーケンスを特定・合成し、新しい高レベルのプリミティブとして登録することで、静的なツール構成から経験駆動型の自己進化型医療エージェント「MACRO」を提案し、多様な医療画像タスクにおけるオーケストレーション精度とドメイン間汎化性能を向上させる手法を報告しています。

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

本論文は、基盤モデルやエージェント AI の進歩に伴う計算病理学の臨床応用における技術的・経済的・規制上の課題を国際的な専門家の視点から分析し、患者ケアへの責任ある統合と実用化に向けた現状と障壁を評価するレビューです。

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

本論文は、自己教師あり表現再構成損失（SSRR）を導入することで、低遅延のストリーミング型ニューラルオーディオコーデックにおいて、高知覚性を実現しつつ単一 GPU での効率的な学習を可能にする「JHCodec」を提案し、最先端の性能を達成したことを示しています。

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI

← 前へ次へ →

cs.AI