cs.AI 件の論文 | Gist.Science

mAVE: A Watermark for Joint Audio-Visual Generation Models

本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

この論文は、Unity 環境における構造的制約下でゴールプレイパターンに基づいた実行可能ゲームを生成する際、LLM の直接生成よりも人間が作成した中間表現（IR）を用いたパイプラインの方が、コンパイル成功率の向上や構造的な接地性の問題の軽減に有効であることを、26 種類のゴールパターンを用いた実証実験を通じて示しています。

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

この論文は、生成モデルの推論遅延とユーザー・アイテム間の相互作用不足という課題を解決するため、半自己回帰生成とオンライン知識蒸留を組み合わせた効率的なパーソナライズド再ランク付けフレームワーク「PSAD」を提案し、大規模データセットでの実験によりその高性能と高効率を実証したものである。

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

この論文は、物理的変換下での物理量の不変性を評価するベンチマーク「ConservationBench」を用いた大規模実験により、現在のビジョン言語モデル（VLM）が動的なシーンにおける物理的変換に関する推論能力を欠き、視覚情報よりもテキストの事前知識に依存して性能が低下することを示しています。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

本論文は、LLM による対話要約と手動設計されたペルソナ情報を活用することで、AIWolfDial 2024 向けに開発された狼人間ゲーム AI エージェントの発言の一貫性とキャラクターの維持を向上させたことを報告しています。

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

この論文は、人間、スクリプト、AI エージェントを区別するために、認知と処理の非対称的な難易度を利用した時間制約付き検証ゲーム「aCAPTCHA」を提案し、自律型 AI エージェントの存在がもたらす新たなセキュリティ課題に対する解決策を提示しています。

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本論文は、一般目的の視覚エンコーダの限界と言語モデルのハルシネーションという 2 つの課題を解決するため、専門家の知識を深層に注入し、網膜画像の微細な病変信号を強化して推論を視覚証拠に厳密に固定するデータ効率型フレームワーク「EyExIn」を提案し、眼科 VQA において最先端の精度を達成したことを報告しています。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

既存の感情認識手法が捉えきれない複雑な感情ニュアンスを自然言語で記述する新たなタスク「会話における感情書き起こし（ETC）」を提案し、日本語の対話データセットとベンチマークを構築して、明示的・暗黙的な感情状態の理解を促進する研究基盤を提供しています。

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

この論文は、複雑な自然言語クエリに対するオープンドメインの質問応答を可能にするため、細粒度の型付きクエリ分解とグローバルな接続性認識を組み合わせたテーブル検索手法「DCTR」を提案し、その有効性を検証したものです。

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Improving reasoning at inference time via uncertainty minimisation

この論文は、推論の各ステップでモデルの内部確信度を最大化する「思考レベルの確信最大化」アプローチを提案し、既存の推論時拡張手法よりも少ない計算コストで数学的推論タスクの精度を向上させることを実証しています。

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

Learning to Rank the Initial Branching Order of SAT Solvers

この論文は、グラフニューラルネットワークを用いて SAT ソルバの初期分岐順序を学習・予測する手法を提案し、ランダムおよび疑似産業ベンチマークで大幅な高速化を実現したが、動的ヒューリスティックが初期値を上書きしやすく予測が困難な複雑な産業インスタンスでは効果が限定的であることを示しています。

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

この論文は、GenAI ツール、可視化作成、プログラミング環境といった創造的ドメインにおいて、単なる状態変化の記録を超えて意図や高次な創造的動きを捉えるための、それぞれ異なるアプローチ（ノードベースのインターフェース、視覚的キューの語彙、意味的履歴の埋め込み）を提示するものである。

Xiaohan Peng, Sotiris Piliouras, Carl Abou Saada Nujaim2026-03-10💻 cs

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

本論文は、大規模言語モデル駆動の自律エージェントが抱える実行層の脆弱性に対処するため、4 層からなるガバナンスアーキテクチャ「LGA」を提案し、独自のバイリンガルベンチマークと広範な実験を通じて、その高い脅威検出率と低遅延な実用性を実証しています。

Yuxu Ge2026-03-10💻 cs

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

この論文は、推論経路が非生産的になった際に解決をやり直すことを学習させる「Re²（Reinforcement Learning with Re-solving）」という手法を提案し、事前教師あり学習なしに純粋な強化学習のみで LLM の推論効率と精度を大幅に向上させることを示しています。

Pinzheng Wang, Shuli Xu, Juntao Li, Yu Luo, Dong Li, Jianye Hao, Min Zhang2026-03-10💻 cs

A Miniature Brain Transformer: Thalamic Gating, Hippocampal Lateralization, Amygdaloid Salience, and Prefrontal Working Memory in Attention-Coupled Latent Memory

この論文は、前頭前野のワーキングメモリが対称性の破れを引き起こし、抑制性結合と相乗的に海馬の機能的側性化を急激に誘発するという、脳神経生物学的に動機付けられたミニチュア・ブレイントランスフォーマーの発見と、その検証結果を報告しています。

Hong Jeong2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

VINO は、教師・学生フレームワークと構造的な情報ボトルネックを活用して、動画の自己教師あり学習において背景の文脈に依存しない頑健な物体特徴表現を学習し、PASCAL VOC における物体発見タスクで既存手法を大幅に上回る性能を達成する手法です。

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

この論文は、Stack Overflow のソーシャルコンテキスト埋め込みを活用した学習順序付け（LTR）ベースのハイブリッドシステムを提案し、開発者がソフトウェアバグの解決策を効率的に見つけられるよう、10 件の回答で約 78% の精度で最適な解決策を推薦する手法を確立したことを報告しています。

Fouzi Harrag, Mokdad Khemliche2026-03-10💻 cs

← 前へ次へ →

cs.AI

mAVE: A Watermark for Joint Audio-Visual Generation Models

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Vision Language Models Cannot Reason About Physical Transformation

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Improving reasoning at inference time via uncertainty minimisation

Learning to Rank the Initial Branching Order of SAT Solvers

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

A Miniature Brain Transformer: Thalamic Gating, Hippocampal Lateralization, Amygdaloid Salience, and Prefrontal Working Memory in Attention-Coupled Latent Memory

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Learning When to Cooperate Under Heterogeneous Goals

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

cs.AI

mAVE: A Watermark for Joint Audio-Visual Generation Models

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Vision Language Models Cannot Reason About Physical Transformation

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Improving reasoning at inference time via uncertainty minimisation

Learning to Rank the Initial Branching Order of SAT Solvers

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

Re2\textbf{Re}^{2}Re2: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

A Miniature Brain Transformer: Thalamic Gating, Hippocampal Lateralization, Amygdaloid Salience, and Prefrontal Working Memory in Attention-Coupled Latent Memory

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Learning When to Cooperate Under Heterogeneous Goals

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

$\textbf{Re}^{2}$ : Unlocking LLM Reasoning via Reinforcement Learning with Re-solving