The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

本論文は、現実世界の動的な変化を反映したエージェントの適応性を評価するため、環境・データ・スキーマを統一的なグラフとして表現し、その変換を通じてスケーラブルかつ制御可能な環境進化を実現するフレームワーク「ProEvolve」を提案するものである。

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song2026-03-09🤖 cs.AI

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

本論文は、複雑な病変のセグメンテーションにおいて従来の視覚パターンマッチングから推論分析へパラダイムを転換し、Chain-of-Thought 推論とセグメンテーションを統合した新しいフレームワーク「CORE-Seg」と、そのための推論駆動型ベンチマーク「ComLesion-14K」を提案し、強化学習による適応的報酬メカニズムで最先端の性能を達成したことを報告しています。

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

この論文は、静的なベンチマークの限界を克服し、検証エージェントと専門家の監査による反復的な改善プロセス(AtS)を通じて事実性の評価精度を向上させる「DeepFact」という新しいフレームワークとベンチマークを提案するものです。

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

この論文は、BERT による感情分析とノード・トランスフォーマー・アーキテクチャを統合し、株式間の依存関係や市場のノイズを考慮することで、従来の ARIMA や LSTM などのモデルを上回る精度で株式価格を予測する新しい枠組みを提案し、その有効性を実証したものである。

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

この論文は、画像レベルの類似性に依存せず、指示と生成画像の間の意味的乖離とその安定性を分析することで、多様なバックドア攻撃を検出可能な新しいブラックボックス検出フレームワーク「BlackMirror」を提案するものです。

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

この論文は、大規模言語モデル(8B Llama)において、同じ著者の他のテキストを文脈として扱う「HuLM」タスクや「HuFT」手法を用いて生態学的誤謬に対処することで、標準的な微調整よりも下流タスクの性能を向上させられることを示しています。

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

この論文は、LLM ベースのコーディングエージェントの失敗を、ドメイン固有の分類体系と自動注釈、ハイブリッド説明生成器を用いて構造化された可視化や自然言語による実用的な洞察に変換する XAI 手法を提案し、ユーザーが失敗の根本原因を特定する速度と修正の精度を大幅に向上させることを実証しています。

Arun Joshi2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

この論文は、個人の特性と状況的要素を統合した理論に基づく解釈可能なモデルを開発し、ソーシャルメディアデータから精神的健康を予測・分析することで、計算機モデルと心理学的理論の融合が文脈に敏感で人間に理解しやすい動的な精神状態の評価に有効であることを示しています。

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

本論文は、3 次元人体骨格データを視覚的セマンティクスに基づいて画像形式に変換する「Skeleton-to-Image Encoding (S2I)」を提案し、これにより大規模視覚事前学習モデルを骨格表現学習に適用可能にし、多様なデータソースからの骨格データを統一的に扱えるようにすることで自己教師あり学習の効果を高めたことを示しています。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

この論文は、R&D やマーケティングなどの専門分野を担う 8 つの仮想エージェントからなる大規模言語モデル(LLM)ベースのマルチエージェントシステムを提案し、技術的・市場的実現可能性の観点から新製品コンセプトを客観的に評価することで、従来の専門家主導アプローチの課題を克服し、意思決定を支援できることを実証したものである。

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

この技術報告書は、パキスタン製医療器具の製造欠陥を特定・修正し、患者の安全を確保するために、YOLOv8 や ResNet-152 などの深層学習アーキテクチャを活用した 4,414 枚の画像データセットを用いた自動光学検査(AOI)システムの開発と産業への応用を提案するものである。

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

この論文は、オフロード走行という長期的かつ報酬信号が希薄な課題に対処するため、教師あり軌道と探索軌道を組み合わせた新しい方策勾配手法「TADPO」を提案し、シミュレーションから実車へのゼロショット転移に成功した RL ベースの全スケールオフロード走行システムを世界で初めて実装したことを報告しています。

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

本論文は、非同期かつ不均等な間隔で観測される時系列データ(ISTS)の予測精度を向上させるため、視覚・言語・時系列の各モダリティを統合し、大規模言語モデルを活用して文脈的意味や微細な時間的パターンを学習するマルチモーダルフレームワーク「MM-ISTS」を提案するものである。

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

本論文は、視覚的バイアスにより言語指示を無視する「言語的盲目性」という VLA モデルの欠陥を特定し、再学習なしで推論時に注意機構を再調整する IGAR 手法を提案することで、矛盾する指示下でのロボットの誤作動を効果的に防止することを示しています。

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

この論文は、CNN の構造的効率と KAN の非線形表現力を統合した「RepKAN」と呼ばれる新しいアーキテクチャを提案し、EuroSAT や NWPU-RESISC45 などのデータセットを用いた実験で、最先端モデルを上回る性能を維持しつつ、リモートセンシング画像分類において物理的に解釈可能な推論を実現したことを示しています。

Minjong Cheon2026-03-09🤖 cs.AI