PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

本論文は、従来のトレーニング不要アプローチが抱える計算コストの課題を解決し、パッチベースの推論を低ステップ数で実行可能にする「PixelRush」を提案することで、4K 画像を約 20 秒で生成する超高速かつ高品質なテキスト画像生成フレームワークを実現したことを報告しています。

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

本論文は、拡散モデルの推論時にトランスフォーマーブロックとノイズ除去の各段階に応じてテキストと画像の相互作用を適応的に調整する軽量プラグイン「Diff-Aid」を提案し、複雑なプロンプトへの追従性や視覚的品質の向上、および生成プロセスの解釈可能性を実現するものです。

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

One2Scene は、単一画像から没入型の探索可能な 3D 空間を生成するために、パノラマ生成、3D 幾何学的足場へのアップリフト、および新規視点生成という 3 つの段階的なタスクに問題を分解し、大規模なマルチビューデータセットで学習された幾何学的事前知識を活用して、既存の手法が抱える幾何学的歪みやノイズを克服する革新的なフレームワークです。

Pengfei Wang, Liyi Chen, Zhiyuan Ma + 3 more2026-03-02💻 cs

Test-Time Training with KV Binding Is Secretly Linear Attention

本論文は、テスト時トレーニング(TTT)における KV バインディングが単なる記憶メカニズムではなく、学習された線形アテンション演算子として再解釈できることを示し、これによりモデルの挙動を説明するだけでなく、アーキテクチャの簡素化や並列化による効率化を実現することを提案しています。

Junchen Liu, Sven Elflein, Or Litany + 2 more2026-03-02🤖 cs.AI

SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

本論文は、静的なアノテーション、運動指向のナラティブ、包括的な要約という3段階の階層的な意味情報を用いてfMRI信号から一貫性のある動画を再構築する新手法「SemVideo」を提案し、CC2017およびHCPデータセットにおいて既存手法を上回る性能を達成したことを報告しています。

Minghan Yang, Lan Yang, Ke Li + 3 more2026-03-02🤖 cs.AI

GFRRN: Explore the Gaps in Single Image Reflection Removal

本論文は、事前学習モデルと反射除去モデル間の意味的ギャップやデータラベルの不一致といった課題を克服するため、パラメータ効率型微調整やラベル生成、適応的周波数学習、動的エージェントアテンションを組み合わせた「GFRRN」を提案し、単一画像からの反射除去において最先端の性能を達成したことを示しています。

Yu Chen, Zewei He, Xingyu Liu + 2 more2026-03-02💻 cs

WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

本論文は、テスト時に分布シフトに対処し、教師なしデータからテキストおよび視覚モダリティの知識を蓄積してマルチモーダルプロトタイプを適応的に更新する「WARM-CAT」という手法を提案し、新しいデータセット C-Fashion の導入と既存データセットの整備を通じて、構成ゼロショット学習において最先端の性能を達成したことを報告しています。

Xudong Yan, Songhe Feng, Jiaxin Wang + 2 more2026-03-02💻 cs

Motion-aware Event Suppression for Event Cameras

本論文は、IMU や自己運動によって引き起こされるイベントをリアルタイムで予測・抑制する初のフレームワークを提案し、セグメンテーション精度の大幅な向上と軽量な推論速度を実現するとともに、ビジョントランスフォーマーの推論加速や視覚オドメトリの精度向上など、下流タスクへの顕著な効果を実証しています。

Roberto Pellerito, Nico Messikommer, Giovanni Cioffi + 2 more2026-03-02💻 cs

Analytical Expression for Spherically Symmetric Photoacoustic Sources: A Unified General Solution (Theoretical Analysis and Derivation)

本論文では、球対称な初期圧力分布を持つ光音響源から発生する音圧の空間時間的分布を記述する統一的な解析解を導出するとともに、代表的な分布に対する具体的な式や遠方近似を提示し、その実装コードを公開して光音響イメージングシステムの設計と信号解析に貢献しています。

Shuang Li, Yibing Wang, Yu Zhang + 1 more2026-03-02🔬 physics.optics

Demystifying Action Space Design for Robotic Manipulation Policies

本論文は、13,000 回以上の実世界ロボット操作データに基づく大規模な実証研究により、ロボットの模倣学習における行動空間設計が学習性能に決定的な影響を与えることを明らかにし、デルタ動作の予測や関節空間・タスク空間の適切な組み合わせが、制御の安定性と汎化性能の向上に寄与することを示しています。

Yuchun Feng, Jinliang Zheng, Zhihao Wang + 5 more2026-03-02💻 cs