cs.AI 件の論文 | Gist.Science

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

本研究は、化学文献の多様な図表やテキストから構造データへの変換を可能にするマルチエージェントシステムを開発し、従来の最先端モデルを大幅に上回る精度で化学反応情報の自動抽出を実現したことを報告しています。

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

この論文は、大規模視覚言語モデルの幻覚を軽減するため、モデルの隠れ状態を 2 次元セマンティックマップとして捉え、層内・層間両方のトークンを集約する「レイヤワイズ・クリスス・クロス・アテンション」と「グローバル・ローカル・ログイット融合」を組み合わせたトレーニング不要のデコーディング手法「MAP」を提案し、事実性の向上を実証しています。

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本論文は、視覚言語モデル（VLM）の活性化における「視覚トークンの過剰性」と「モダリティ間の分布ギャップ」という 2 つの課題を特定し、勾配駆動の重要度因子を用いて重要なトークンを優先的に保持するポストトレーニング量子化フレームワーク「VLMQ」を提案し、低ビット設定でも最先端の性能を実現したことを示しています。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

本論文は、セグメンテーションモデル（SAM）が生成する高品質なセマンティックマスクを条件として拡散モデルに組み込むことで、赤外線画像と可視光画像の融合において、重要なターゲットの保持と高忠実度の両立を実現する「SGDFuse」という手法を提案し、主観的・客観的評価および下流タスクにおける最先端性能を達成したことを示しています。

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

この論文は、制御パラメータを探索空間内の真の意思決定点として明示的に扱い、遅延部分展開の概念を活用して無限決定空間上で動作する最良優先探索アルゴリズムを提案し、その限界における完全性を証明するとともに、既存手法に対する競争力のある代替案であることを示しています。

Ángel Aso-Mollar, Diego Aineto, Enrico Scala + 1 more2026-03-09⚡ eess

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

この論文は、悪意のあるプロンプトに対する防御を強化するため、回答生成前に思考内で安全性を評価する「Answer-Then-Check」という新しいアライメント手法と、それを学習させる 8 万サンプルのデータセット「ReSA」を提案し、安全性の向上と過剰な拒絶の削減を両立させたことを示しています。

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

本論文は、同時通訳システムにおける遅延評価の課題を解決するため、セグメンテーションに起因するバイアスを克服し、短形・長形両方の音声翻訳システムをより正確に評価できる新たな指標（YAAL、LongYAAL）と再セグメンテーションツール（SoftSegmenter）を提案し、これらを OmniSTEval ツールキットとして実装したことを報告しています。

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

本論文は、動画生成モデルの直感的な物理理解を評価する新しいトレーニング不要な手法「LikePhys」を提案し、人間の嗜好と高い相関を持つ指標「PPE」を用いて、モデル容量や推論設定の拡大に伴う物理理解能力の向上傾向を実証的に明らかにしています。

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

本論文は、視覚言語モデル（VLM）による物理パラメータの推定と不確実性を考慮したインタラクティブなオンライン適応を融合させた「Phys2Real」というフレームワークを提案し、シミュレーションで学習したロボット操作ポリシーの現実世界への転移成功率と効率を大幅に向上させることを示しています。

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

本論文は、ぼやけたグローバルな予測「キャンバス」を非一様マスクとして導入し、動きに応じたサンプリング順序やコンポジション型の Classifier-Free Guidance を組み合わせることで、少ないサンプリングステップで高品質な動画生成を実現する新しい自己回帰モデル「CanvasMAR」を提案するものです。

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

この論文は、ユーザーの行動を受動的に観察してその瞬間の目的を推論し、大規模言語モデル（LLM）をその目的に即座に最適化する「Just-In-Time 目的」アプローチを提案し、これにより汎用的な LLM よりもはるかに高品質で個別化されたツールや応答を生成できることを示しています。

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

この論文は、3D 事前知識や明示的な 3D 学習データなしに、画像から抽出した幾何学的情報を活用して推論中に 3D 的な想像（メンタルモデル）を可能にする新しいフレームワーク「3DThinker」を提案し、限られた視点からの 3D 空間推論において既存の手法を上回る性能を示したことを報告しています。

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

この論文は、チャットボットを用いたコミュニケーションデータの自動コーディングが、性別や人種・民族といった異なるサブグループ間でも人間の評価者と一貫した結果を示すことを実証し、大規模な協働・コミュニケーション評価への応用可能性を明らかにしたものである。

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

この論文は、Collaborative Battleship や Guess Who? などのタスクを通じて言語モデルの戦略的情報探索能力を評価し、ベイズ実験設計に着想を得たモンテカルロ推論手法を導入することで、人間のプレイヤーや最先端モデルを凌駕する高効率な自律エージェントの実現とコスト削減を達成したことを示しています。

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

この論文は、プライバシーとセキュリティが重要な閉鎖環境向けに、x86 アセンブリ言語の逆解析を支援するローカル大規模言語モデル「REx86」を開発し、ドメイン固有のファインチューニングにより精度を大幅に向上させ、逆解析タスクにおける実用性を示したことを報告しています。

Darrin Lea, James Ghawaly, Golden Richard + 2 more2026-03-09🤖 cs.AI

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

LA-MARRVEL は、構造化された表現型に基づくプロンプト設計と知識基盤型 LLM を活用し、既存の希少疾患遺伝子優先順位付けワークフローを改変することなく、臨床的に堅牢で説明可能な診断精度を大幅に向上させる新しいフレームワークを提案しています。

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong Liu2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

この論文は、拡散モデルにおける文化的記憶の定着と一般化の曖昧さを「多モーダル象徴性」として定義し、文化的参照の認識と実現を分離評価する新たなフレームワーク「Cultural Reference Transformation (CRT)」を提案することで、単なる画像複製を超えた文脈理解に基づくモデル評価の重要性を明らかにしています。

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

この論文は、拡散モデルの微調整における報酬過最適化と多様性の低下を解決するため、再パラメータ化されたソフト Q 関数の方策勾配を用いた KL 正則化強化学習手法「SQDF」を提案し、割引因子や一貫性モデル、オフポリシー再生バッファなどの革新により、高報酬と自然な多様性の両立を実現したことを述べています。

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

XR-DT: Extended Reality-Enhanced Digital Twin for Safe Motion Planning via Human-Aware Model Predictive Path Integral Control

本論文は、拡張現実（XR）とデジタルツインを統合した XR-DT 枠組みと、XR ヘッドセットによる人間の視線予測を統合した新しい人間意識型モデル予測経路積分制御（HA-MPPI）を提案し、人間とロボットの安全かつ効率的で解釈可能な協調動作を実現する実証実験結果を示しています。

Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Yiming Xu, Jihyung Park, Tianyi Zeng, Sikai Chen, Ziran Wang, Junfeng Jiao, Christian Claudel2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

本論文は、強化学習による推論モデルの多様性欠如を解決するため、正解を保持した目標分布を $\alpha$ -ダイバージェンスで近似し、精度と多様性のトレードオフを制御する新しい手法を提案し、Lean 定理証明ベンチマークでcoverage 軸において既存手法を上回る性能を達成したことを示しています。

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

← 前へ次へ →