cs 件の論文 | Gist.Science

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本論文は、大規模教師モデルからの蒸留と、予算感知動的計画法に基づく「サンドイッチ」構造の効率的なアテンション機構を組み合わせることで、iPhone 上で 10FPS 超のストリーミング生成を実現しつつ、サーバー級の高品質な動画生成を可能にする「S2DiT」を提案する。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

本論文は、報酬が均等である制約付き契約設計の問題を研究し、多様な報酬関数に対する近似アルゴリズムと計算量的困難性の結果を示すとともに、公平性による効用損失（価格の均等性）の厳密な評価を提供し、制約なしの契約設計における未解決問題も解決したものである。

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

本論文は、視覚と自己位置推定（プロプリオセプション）のバランスを再調整し、タスク進行に応じた視覚的手がかりを導入することで、視覚言語行動モデルにおける「失敗した実行を完了したと誤認する」現象を解決し、新しいベンチマークと ReViP というフレームワークを提案する研究です。

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

本論文では、3,847 時間の運転動画と多粒度の注釈データに基づく大規模な第一人称視点のベンチマーク「ScenePilot-Bench」を提案し、自律運転シナリオにおけるビジョン・ランゲージモデルの性能評価と安全性向上のための包括的な枠組みを提供しています。

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

この論文は、音声の周波数特性と質問文の文脈を空間・時間・周波数領域で統合的に相互作用させる「QSTar」手法と「QCR」ブロックを提案し、既存の手法よりも優れた音楽音声・視覚質問応答（AVQA）の性能達成を実現したことを示しています。

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

この論文は、固定定数 $k$ に対して、Nagamochi-Ibaraki 疎性証明書とリンク・カット木を組み合わせることで辺の挿入を、最大流計算を用いることで辺の削除をそれぞれ効率的に処理し、 $O(kn)$ 本の辺を維持しながら $k$ -辺連結性を動的に保守するフレームワークを提案するものである。

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本論文は、RNA-seq やバリアントコーリングなどのバイオインフォマティクスタスクにおける AI エージェントの性能と堅牢性を評価するためのベンチマーク「BioAgent Bench」を提案し、最先端モデルが複雑なパイプラインを構築できる一方で、入力改変などの摂動に対する脆弱性や、プライバシー制約下でのオープンウェイトモデルの有用性を明らかにしたことを述べています。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

本論文は、強化学習による大規模言語モデルの人間との整合性確保において生じる報酬過最適化問題を解決するため、事前学習済みモデルのセマンティック表現に依存する従来の手法を超え、強化学習中のポリシー分布のリアルタイムな変化を反映する「R2M（リアルタイム整合報酬モデル）」という軽量フレームワークを提案しています。

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

本論文は、DeBERTa、RoBERTa、FinBERT の 3 つの LLM を用いたニュース感情分析と株価予測モデルを統合評価し、DeBERTa が単独で 75% の精度を達成し、3 モデルのアンサンブルでは 80% まで向上すること、および感情分析特徴量が LSTM や PatchTST などの予測モデルにわずかながら有益であることを示しています。

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

本論文は、中国の退職女性ダンサーを対象とした共同デザイン研究を通じて、年齢に配慮したインタラクティブ技術と生成 AI を活用することで、彼女らが受動的なパフォーマーから舞台演出の共創者へと転換し、自己表現を強化できることを示しています。

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

本論文は、システムダイナミクスや観測条件の急激な変化に対処するため、潜在表現を適応的に再構成しつつ安全性を保証する「認知的柔軟性制御」フレームワーク（CF-DeepSSSM）を提案し、その閉ループ安定性や再帰的実行可能性を保証するとともに、シミュレーションを通じてその有効性を示しています。

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

本論文は、3,000 時間のデモンストレーションデータと 5 段階のカリキュラム学習、および RL による政策整合を採用し、ヒューマノイドや可動マニピュレータなど多様なロボット形態に汎用的に適用可能で、安全性と長期的なタスク遂行能力を向上させた Vision-Language-Action モデル「Green-VLA」を提案するものである。

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

← 前へ次へ →

cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Equal-Pay Contracts

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Dynamic framework for edge-connectivity maintenance of simple graphs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Real-Time Aligned Reward Model beyond Semantics

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health