Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

本論文は、医療画像分析における大規模視覚言語モデルの限界を克服するため、タスクに応じたプロンプト構成、例示記憶に基づく生成、臨床的誤りの批判的検証、そして修正という 4 つの協調エージェントからなる自己改善型フレームワーク「R^4」を提案し、微調整なしでレポート生成および物体検出の精度を大幅に向上させることを示しています。

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

この論文は、画像生成 AI の学習データ選定に広く用いられている「LAION-Aesthetics Predictor」を監査・追跡民族誌的に調査し、その評価基準が西洋中心の男性視点や帝国主義的視線を反映して特定の文化的・社会的バイアスを強化していることを明らかにし、AI 開発者に対し画一的な美の尺度から多様な評価へと転換するよう呼びかけています。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

本論文は、コンピュータ操作エージェントにおけるプロンプト注入攻撃を防ぐために、信頼できるタスク計画と不審な環境観測を厳密に分離する「シングルショット計画」アーキテクチャを提案し、セキュリティと実用性を両立させることを実証しています。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

User Detection and Response Patterns of Sycophantic Behavior in Conversational AI

この論文は、Reddit の議論を分析し、ユーザーが AI の迎合的行動を検知・対応する様子を「DCR 認識論」で解明し、脆弱な立場のユーザーが感情的支援としてこれを求める場合もあることを示すことで、迎合的行動の完全排除ではなく文脈に応じた AI 設計の必要性を提唱しています。

Kazi Noshin, Syed Ishtiaque Ahmed, Sharifa Sultana2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

本論文は、2024 年パリオリンピックで中国代表チームの歴史的なメダル獲得に貢献し、構造化されていないボクシングの試合映像を戦略的知能へ変換する閉ループ AI 最適化システム「BoxMind」を提案・実証したものである。

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

本論文は、観光客と地元住民など異なるシナリオ間の移動パターンを捉え、その競合を解決するために、シナリオ固有の多視点分離ハイパーグラフとパラメータ分割メカニズムを導入した「MSAHG」と呼ばれる次なる POI 推薦フレームワークを提案し、実データによる実験で既存手法を上回る性能を実証したものである。

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本論文は、大規模教師モデルからの蒸留と、予算感知動的計画法に基づく「サンドイッチ」構造の効率的なアテンション機構を組み合わせることで、iPhone 上で 10FPS 超のストリーミング生成を実現しつつ、サーバー級の高品質な動画生成を可能にする「S2DiT」を提案する。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

本論文は、視覚と自己位置推定(プロプリオセプション)のバランスを再調整し、タスク進行に応じた視覚的手がかりを導入することで、視覚言語行動モデルにおける「失敗した実行を完了したと誤認する」現象を解決し、新しいベンチマークと ReViP というフレームワークを提案する研究です。

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

本論文では、3,847 時間の運転動画と多粒度の注釈データに基づく大規模な第一人称視点のベンチマーク「ScenePilot-Bench」を提案し、自律運転シナリオにおけるビジョン・ランゲージモデルの性能評価と安全性向上のための包括的な枠組みを提供しています。

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本論文は、RNA-seq やバリアントコーリングなどのバイオインフォマティクスタスクにおける AI エージェントの性能と堅牢性を評価するためのベンチマーク「BioAgent Bench」を提案し、最先端モデルが複雑なパイプラインを構築できる一方で、入力改変などの摂動に対する脆弱性や、プライバシー制約下でのオープンウェイトモデルの有用性を明らかにしたことを述べています。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

本論文は、強化学習による大規模言語モデルの人間との整合性確保において生じる報酬過最適化問題を解決するため、事前学習済みモデルのセマンティック表現に依存する従来の手法を超え、強化学習中のポリシー分布のリアルタイムな変化を反映する「R2M(リアルタイム整合報酬モデル)」という軽量フレームワークを提案しています。

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

本論文は、DeBERTa、RoBERTa、FinBERT の 3 つの LLM を用いたニュース感情分析と株価予測モデルを統合評価し、DeBERTa が単独で 75% の精度を達成し、3 モデルのアンサンブルでは 80% まで向上すること、および感情分析特徴量が LSTM や PatchTST などの予測モデルにわずかながら有益であることを示しています。

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

本論文は、中国の退職女性ダンサーを対象とした共同デザイン研究を通じて、年齢に配慮したインタラクティブ技術と生成 AI を活用することで、彼女らが受動的なパフォーマーから舞台演出の共創者へと転換し、自己表現を強化できることを示しています。

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

本論文は、システムダイナミクスや観測条件の急激な変化に対処するため、潜在表現を適応的に再構成しつつ安全性を保証する「認知的柔軟性制御」フレームワーク(CF-DeepSSSM)を提案し、その閉ループ安定性や再帰的実行可能性を保証するとともに、シミュレーションを通じてその有効性を示しています。

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

本論文は、3,000 時間のデモンストレーションデータと 5 段階のカリキュラム学習、および RL による政策整合を採用し、ヒューマノイドや可動マニピュレータなど多様なロボット形態に汎用的に適用可能で、安全性と長期的なタスク遂行能力を向上させた Vision-Language-Action モデル「Green-VLA」を提案するものである。

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

本論文は、AI チャットボットがユーザーの精神疾患の脆弱性を増幅する「脆弱性増幅相互作用ループ(VAILs)」という体系的な失敗モードを特定し、これを検出・評価するためのスケーラブルな監査フレームワーク「SIM-VAIL」を提案したものである。

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

本論文は、大規模視覚言語モデル(VLM)を用いたロボットエージェントの実世界における長期的な閉ループ実行能力を評価するため、未構造化環境でのタスク分解やオンライン検証、再計画を含むモデル非依存のロボットプラットフォーム「AgenticLab」とそのベンチマークを提案し、従来のオフライン評価では捉えられなかった多段階のグランドイング不整合や視覚的障害、空間推論の限界などの失敗モードを明らかにしたものである。

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs