cs.AI 件の論文 | Gist.Science

Routing without Forgetting

本論文は、オンライン継続学習の課題に対処するため、現代ホップフィールドネットワークに着想を得たエネルギーベースの連想検索層をトランスフォーマーに統合し、反復的な勾配最適化なしに動的にタスク固有の表現部分空間を選択する「Routing without Forgetting（RwF）」という新しいアーキテクチャを提案し、クラス増加ベンチマークにおいて既存のプロンプトベース手法を大幅に上回る性能を示したことを報告しています。

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto SpampinatoWed, 11 Ma🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

この論文は、エネルギー保存と作用の極値の原理に基づき、時間連続的な神経ネットワークにおける誤差伝播を生物学的に妥当な局所学習則として導出する「変分潜在平衡」の一般形式を提案し、逆伝播法（BPTT）の生物学的実装と物理回路の設計指針を提供するものである。

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. PetroviciWed, 11 Ma🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

この論文は、単なるプロンプト設計を超えて、エージェントの意思決定環境を設計・管理する「コンテキストエンジニアリング」を中核とし、意図設計や仕様設計と統合した新たな成熟度モデルを提案し、大規模マルチエージェントシステムの展開における課題を解決する枠組みを提示しています。

Vera V. VishnyakovaWed, 11 Ma🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

LLM エージェントが知識の検索劣化やルール合成の困難さ、古くなった知識の検出に直面する課題に対し、確定的なルール検索、ベイズ推論に基づく矛盾認識メモリ、そしてパレート最適化を用いたプロンプト進化ループ「COMPASS」を統合した PRECEPT 枠組みが、テスト時適応において大幅な性能向上と頑健性を達成することを示しています。

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

本論文は、顧客体験管理におけるパーソナ適応を考慮した双制御環境下でのマルチモーダルエージェントの堅牢性を評価するため、FOCAL の成果を踏まえて 12 の新規指標を提案し、GPT-5 や GPT-4.1 などの最先端モデルを用いた電信・小売分野での評価結果を示す MM-tau-p $^2$ ベンチマークを提案するものです。

Anupam Purwar, Aditya ChoudharyWed, 11 Ma🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

LLM による静的テキストから動的 HTML アプリケーション（MiniApp）への生成シフトを評価するため、実世界データに基づくベンチマーク「MiniAppBench」と、ブラウザ自動化を用いたエージェント評価フレームワーク「MiniAppEval」を提案し、現在の LLM が高品質な MiniApp 生成において依然として課題を抱えていることを明らかにした論文です。

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai LiWed, 11 Ma🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

この論文は、動画編集における背景の整合性と前景の品質向上という課題に対し、拡散モデルの「ハルシネーション（幻覚）」を検知して動的にキー・バリューの融合比率と CFG スケールを調整する学習不要なフレームワーク「KV-Lock」を提案し、既存手法を上回る結果を示しています。

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

この論文は、時系列異常検出におけるグラフニューラルネットワーク（GNN）の応用を促進し、再現性のある実験と評価を可能にするオープンソースフレームワークを提案するとともに、その有効性と解釈性の向上、および評価手法に関する重要な課題を明らかにしています。

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico LarrocaWed, 11 Ma🤖 cs.AI

Logics-Parsing-Omni Technical Report

この論文は、ドキュメント、画像、音声・映像ストリームを統一的に扱う「Omni Parsing」フレームワークを提案し、検出・認識・解釈の 3 段階のプロセスと証拠に基づく論理的推論を通じて、非構造化データを追跡可能な構造化知識へ変換する「Logics-Parsing-Omni」モデルとベンチマーク「OmniParsingBench」を開発したことを報告しています。

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin QuWed, 11 Ma🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

LLM が既存のコード生成ベンチマークで示す高い性能が単なる暗記に過ぎない可能性を指摘し、学習データとして希少なエソテリック言語を用いた新規ベンチマーク「EsoLang-Bench」を提案し、先行モデルが真の推論能力において著しく劣ることを実証した。

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

本研究は、高齢者の心血管リスク管理における手動コーディングの限界を克服するため、3,482 人の患者の非構造化電子健康記録を用いて、従来の機械学習や生成 LLM、および構造化データとの融合手法を比較評価し、長距離依存性を捉えることに特化したカスタム Transformer 構造が最も高い性能を示したことを明らかにしました。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

この論文は、PhoBERT や Vision Transformer などの事前学習済みトランスフォーマーを活用し、大規模な自動構築データセット「AutoViVQA」を提案するとともに、多言語環境における自動評価指標と人間の判断との整合性を検証するベトナム語の視覚的質問応答（VQA）研究について述べています。

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本論文は、既存のタスク指向対話モデルが特定のデータセットに依存する課題を解決するため、LLM のフルパラメータ微細化と指示・スキーマの両方のアライメント機構を導入し、低リソース環境やノイズに対する頑健性と汎用性を大幅に向上させた統合エンドツーエンドフレームワーク「ESAinsTOD」を提案するものである。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

RLHF における高コストな選好データ収集の課題を解決するため、不確実性推定と新しい探索手法を用いて最も有益な回答を動的に特定するアクティブラーニングパイプライン「ActiveUltraFeedback」を提案し、従来の手法の 6 分の 1 のデータ量で同等以上の性能向上を実現したことを示しています。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本論文は、Muon 最適化アルゴリズムが抱く等方的な制約の限界を克服し、Shampoo 由来の統計量を用いた曲率感知の事前条件付けを導入することで、大規模言語モデルの学習効率を大幅に向上させる新しい最適化手法「Mousse」を提案する。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

本論文は、マルチモーダル大規模言語モデルの安全性評価を「有害な意図」から「隠れた結果」へと転換し、因果的盲点を克服するために新しいベンチマーク「OOD-MMSafe」と、動的な自己蒸留報酬を用いた「CASPO」フレームワークを提案するものである。

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun MaWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

本論文は、質問の有無による回答妥当性の評価変化を測定することで、高品質なマルチモーダルデータをトレーニングなしで選別し、視覚言語大規模モデルの学習効率と性能を向上させる「CVS」という手法を提案しています。

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang LiWed, 11 Ma🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

この論文は、進化する認知、オンザフライの文脈判断、弾力的なメモリ編成の 3 つの主要コンポーネントを統合し、外部再学習なしに経験から学習しながら動的環境で適応的な意思決定を可能にする自律型エージェントフレームワーク「AutoAgent」を提案し、その有効性を示したものです。

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu XiongWed, 11 Ma🤖 cs.AI

← 前へ次へ →

cs.AI