Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

本論文は、連続環境における視覚言語ナビゲーション(VLN-CE)において、SFT の累積誤差や RFT のスパースな報酬という課題を解決するため、不完全な軌道から密な教師信号を抽出し、ステップごとの進捗評価と動的なバッチ処理を行う「ステップ認識型対照的アライメント(SACA)」を提案し、SOTA 性能を達成したことを示しています。

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本論文は、産業現場における人間の行動理解を促進するため、現実の環境で同期された 180 組の egocentric(主観的)および exocentric(客観的)360 度動画を収集し、時間的・空間的注釈を付与した新しいデータセット「ENIGMA-360」とそのベンチマーク結果を公開するものである。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

この論文は、2 つのパスの同時幾何学的埋め込みにおける最長辺の長さの最小化が NP 困難であることを示し、一方のパスが x 単調でもう一方が y 単調である場合、その埋め込みを含む整数グリッドの周長を O(n3/2)O(n^{3/2}) 時間で最小化できることを証明しています。

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

この論文は、認知科学の理論的枠組みを用いることで、人間とコンピュータの相互作用(HCI)およびゲームデザインの観点から商業用ビデオゲームを研究環境として再評価し、実験室環境の限界を補完する新たなアプローチを提案するものである。

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

この論文は、LLM の物理的仮定を見落とすという課題を解決し、数値シミュレーションにおいて支配方程式の欠落メカニズムを自律的に推論・補完して物理的に整合的な結果を導き出す「認識的閉鎖」を実現するニューロ記号的生成エージェントを提案するものである。

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

この論文は、マルチモーダル拡散トランスフォーマーを用いて、テキストプロンプトの代わりに文字画像を入力し、注意メカニズムを制御することで追加学習なしに多言語ロゴを生成・様式化できる「LogoDiffuser」を提案し、その有効性を示しています。

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

本論文は、チェッカーボードパターンによる空間多重化と深層学習に基づく再構成フレームワークを活用し、単一カメラで事前接触時の外部視覚情報と接触時の触覚信号を同時に高忠実度で取得する新たな視触覚センサー「MuxGel」を提案し、既存の GelSight 型センサーへのプラグアンドプレイ統合と双モダリティフィードバックによる把持タスクの向上を実証しています。

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

本論文は、既存のバックドア防御がトリガーの除去に依存しているが、実際には訓練トリガーとは異なる「代替トリガー」が同じバックドアを確実に活性化し、防御を回避できることを理論的・実証的に示し、入力空間のトリガー除去ではなく表現空間におけるバックドア方向そのものを標的とした防御の必要性を提唱している。

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

CLIOPATRA: Extracting Private Information from LLM Insights

この論文は、Anthropic の Clio などのプライバシー保護を謳った LLM 分析システムに対し、敵対者が悪意のあるチャットを注入することで標的ユーザーの医療履歴などの機密情報を漏洩させる「CLIOPATRA」という新たな攻撃手法を提案し、既存のヒューリスティックな保護策や LLM による監査が不十分であることを実証しています。

Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

この論文は、高レベルタスクにおける時間依存性のミスを検出するために、弱教師あり学習とシミュレーションデータを活用した新しいビデオ異常検出アーキテクチャ「TIMID」を提案し、既存の VLM では困難な時間的推論を可能にすることを示しています。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本論文は、テスト時にエゴセントリック視点からエクセントリック視点への行動予測を可能にする新たなタスクを提案し、マルチラベルプロトタイプ成長モジュールとテキスト・視覚の二重の手がかり整合性を活用した新しいネットワーク「DCPGN」により、既存の手法を大幅に上回る性能を実現したことを報告しています。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

この論文は、粗粒度のタスクから脱却し、領域を考慮した音源のセグメンテーションと詳細な記述を同時に実現する新たな細粒度タスク「RA-SSU」を定義し、対応する大規模データセットと SOTA 性能を達成するモデル「SSUFormer」を提案しています。

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

本論文は、2 枚の画像からの大角度視点変化に対する新規視点合成の課題に対し、投影された点雲の信頼度に基づいて拡散モデルを制御し、見えない領域の補完とカメラ軌跡の追従を両立させる「ConfCtrl」というフレームワークを提案するものです。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

本論文は、従来の評価指標の限界を克服し、音声信号に基づいて感情音声キャプションの細部を原子単位で検証する新しい評価フレームワーク「EmoSURA」と、それを用いたベンチマーク「SURABench」を提案し、人間による評価との高い相関を示した研究です。

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

本論文は、診断に有用な脳状態の時間的変化と空間的パターンを特定し、解釈可能な動的脳ネットワークモデルを構築するために、適応的な位相分割、アテンション機構、およびスパースなグラフ構造生成を組み合わせた時空間対照学習フレームワーク「BrainSTR」を提案し、自閉症スペクトラム障害、双極性障害、うつ病のデータを用いた実験でその有効性と既存の神経画像所見との整合性を検証したものである。

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

この論文は、大規模視覚言語モデル(VLM)の空間推論能力を活用し、点群を鳥瞰図とシーングラフに変換して自然言語からの位置特定精度を向上させる「VLM-Loc」フレームワークと、その評価用ベンチマーク「CityLoc」を提案するものです。

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs