mAVE: A Watermark for Joint Audio-Visual Generation Models

本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

この論文は、Unity 環境における構造的制約下でゴールプレイパターンに基づいた実行可能ゲームを生成する際、LLM の直接生成よりも人間が作成した中間表現(IR)を用いたパイプラインの方が、コンパイル成功率の向上や構造的な接地性の問題の軽減に有効であることを、26 種類のゴールパターンを用いた実証実験を通じて示しています。

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

この論文は、生成モデルの推論遅延とユーザー・アイテム間の相互作用不足という課題を解決するため、半自己回帰生成とオンライン知識蒸留を組み合わせた効率的なパーソナライズド再ランク付けフレームワーク「PSAD」を提案し、大規模データセットでの実験によりその高性能と高効率を実証したものである。

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

この論文は、物理的変換下での物理量の不変性を評価するベンチマーク「ConservationBench」を用いた大規模実験により、現在のビジョン言語モデル(VLM)が動的なシーンにおける物理的変換に関する推論能力を欠き、視覚情報よりもテキストの事前知識に依存して性能が低下することを示しています。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

本論文は、LLM による対話要約と手動設計されたペルソナ情報を活用することで、AIWolfDial 2024 向けに開発された狼人間ゲーム AI エージェントの発言の一貫性とキャラクターの維持を向上させたことを報告しています。

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

この論文は、人間、スクリプト、AI エージェントを区別するために、認知と処理の非対称的な難易度を利用した時間制約付き検証ゲーム「aCAPTCHA」を提案し、自律型 AI エージェントの存在がもたらす新たなセキュリティ課題に対する解決策を提示しています。

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本論文は、一般目的の視覚エンコーダの限界と言語モデルのハルシネーションという 2 つの課題を解決するため、専門家の知識を深層に注入し、網膜画像の微細な病変信号を強化して推論を視覚証拠に厳密に固定するデータ効率型フレームワーク「EyExIn」を提案し、眼科 VQA において最先端の精度を達成したことを報告しています。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

既存の感情認識手法が捉えきれない複雑な感情ニュアンスを自然言語で記述する新たなタスク「会話における感情書き起こし(ETC)」を提案し、日本語の対話データセットとベンチマークを構築して、明示的・暗黙的な感情状態の理解を促進する研究基盤を提供しています。

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Learning to Rank the Initial Branching Order of SAT Solvers

この論文は、グラフニューラルネットワークを用いて SAT ソルバの初期分岐順序を学習・予測する手法を提案し、ランダムおよび疑似産業ベンチマークで大幅な高速化を実現したが、動的ヒューリスティックが初期値を上書きしやすく予測が困難な複雑な産業インスタンスでは効果が限定的であることを示しています。

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

この論文は、GenAI ツール、可視化作成、プログラミング環境といった創造的ドメインにおいて、単なる状態変化の記録を超えて意図や高次な創造的動きを捉えるための、それぞれ異なるアプローチ(ノードベースのインターフェース、視覚的キューの語彙、意味的履歴の埋め込み)を提示するものである。

Xiaohan Peng, Sotiris Piliouras, Carl Abou Saada Nujaim2026-03-10💻 cs

Re2\textbf{Re}^{2}: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

この論文は、推論経路が非生産的になった際に解決をやり直すことを学習させる「Re²(Reinforcement Learning with Re-solving)」という手法を提案し、事前教師あり学習なしに純粋な強化学習のみで LLM の推論効率と精度を大幅に向上させることを示しています。

Pinzheng Wang, Shuli Xu, Juntao Li, Yu Luo, Dong Li, Jianye Hao, Min Zhang2026-03-10💻 cs

A Miniature Brain Transformer: Thalamic Gating, Hippocampal Lateralization, Amygdaloid Salience, and Prefrontal Working Memory in Attention-Coupled Latent Memory

この論文は、前頭前野のワーキングメモリが対称性の破れを引き起こし、抑制性結合と相乗的に海馬の機能的側性化を急激に誘発するという、脳神経生物学的に動機付けられたミニチュア・ブレイントランスフォーマーの発見と、その検証結果を報告しています。

Hong Jeong2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

VINO は、教師・学生フレームワークと構造的な情報ボトルネックを活用して、動画の自己教師あり学習において背景の文脈に依存しない頑健な物体特徴表現を学習し、PASCAL VOC における物体発見タスクで既存手法を大幅に上回る性能を達成する手法です。

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

この論文は、Stack Overflow のソーシャルコンテキスト埋め込みを活用した学習順序付け(LTR)ベースのハイブリッドシステムを提案し、開発者がソフトウェアバグの解決策を効率的に見つけられるよう、10 件の回答で約 78% の精度で最適な解決策を推薦する手法を確立したことを報告しています。

Fouzi Harrag, Mokdad Khemliche2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

本論文は、衛星リモートセンシングデータにおける幾何学的な不整合を解決するため、従来の潜空間補間ではなく、幾何学的な拡張条件に基づいて変換された埋め込みを直接予測する「LEPA」という新しいアーキテクチャを提案し、その精度が大幅に向上することを示しています。

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Learning When to Cooperate Under Heterogeneous Goals

この論文は、異質な目標を持つエージェントが協調するか単独で行動するかを判断するメタレベルの課題に焦点を当て、模倣学習と強化学習の階層的組み合わせを用いた新しいアプローチを提案し、その有効性を示すとともに、チームメイトの行動予測という補助コンポーネントの効果が観測可能な目標情報の量に反比例することを明らかにしています。

Max Taylor-Davies, Neil Bramley, Christopher G. Lucas2026-03-10💻 cs

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

この論文は、自律走行のデータ効率を向上させるため、車両の運動学情報を観測エンコーダに統合し、幾何学的な制約を潜在状態に課すことで、RSSM ベースの世界モデルの物理的整合性と長期予測精度を高める新しい枠組みを提案し、シミュレーション環境においてモデルフリーおよびピクセルベースの手法を上回る性能を実証したものです。

Jiazhuo Li, Linjiang Cao, Qi Liu, Xi Xiong2026-03-10💻 cs