cs.CV 件の論文 | Gist.Science

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

本論文は、ニューラルクラッシュに起因するプロトタイプの崩壊を抑制し、解釈可能性を向上させるため、Stiefel 多様体上のリーマン幾何学を用いて直交基底としてクラスプロトタイプを表現する「適応的多様体プロトタイプ（AMP）」フレームワークを提案し、微細な分類タスクにおいて最先端の精度と因果的な忠実さを同時に達成することを示しています。

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

この論文は、グリオーマ患者の術前 MRI と放射線線量マップを条件として Rectified Flow モデルを用いてリアルタイムで治療後の脳 MRI を高精度に予測する AI 手法を提案し、治療計画の最適化や個別化された予後予測への応用可能性を示したものである。

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

本論文は、イベントカメラの非均一サンプリング特性に適合する非均一離散フーリエ変換（NDFT）を用いた「Drone Detection via Harmonic Fingerprinting（DDHF）」を提案し、従来の YOLO 検出器と比較して、ドローンの高速移動や遠距離といった困難な条件下でも、より高い精度と極めて低い遅延（平均 2.39ms）でリアルタイム検出を実現することを示しています。

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

本論文は、視覚的特徴を意味的推論の前提として取り込み、証拠構築・構造モデリング・推論の 3 段階でマイクロ表情の行動単位（AU）を検出する LLM ベースのフレームワーク「AULLM++」を提案し、標準ベンチマークおよびクロスドメイン汎化性能において最先端の結果を達成したことを報告しています。

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

本論文は、長期の二手間の手と物体の相互作用生成において、時間的な関節計画とフレーム単位の微細な操作を構造的に分離し、Mamba に基づく拡散モデルを用いて長期依存関係を効率的にモデル化する「StructBiHOI」を提案し、一貫性のある協調動作と物理的な妥当性を達成することを示しています。

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

SPIRAL は、高レベルのセマンティックな動作を条件とした制御可能な長距離動画生成を実現するため、計画・実行・反省の閉ループプロセスを通じて自己改善を行うアクション世界モデルのフレームワークを提案し、その有効性を検証した研究です。

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

この論文は、カテゴリー逐次学習における忘却と学習のバランスを最適化し、モデルの拡張と圧縮を動的に制御する「GRACE」戦略を提案することで、最先端の性能を維持しつつメモリ使用量を最大 73% 削減する手法を提案しています。

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

この論文は、ラベル付きデータが不足し長尾分布が実在する現実的な半教師ありドメイン一般化の課題に対し、ラベル付きサンプルの監督下で学習特徴と潜在ラベル間の相互情報を最大化し、クラスバランスの偏りを緩和するαエントロピー項を統合した「IMaX」と呼ばれる簡易かつ効果的な手法を提案し、既存の最先端手法の性能を向上させることを示しています。

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Can Vision-Language Models Solve the Shell Game?

この論文は、視覚的ショートカットに依存せず時空間的連続性のみで物体を追跡する必要がある「VET-Bench」という新たなベンチマークを導入し、既存の視覚言語モデルがその課題で失敗する根本的な限界を明らかにするとともに、物体の軌跡を明示的な中間状態として生成する「Spatiotemporal Grounded Chain-of-Thought（SGCoT）」手法を提案することで、90% 超の精度でこの「殻割りゲーム」タスクを解決可能であることを示しています。

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

本論文は、事前学習済みフィルタの構造を最大限に活用し、少数のラベルなしサンプルを用いて注意機構と特異値分解により既存の空間特徴を再重み付けする「Alfa」手法を提案し、クロスドメインの視線推定タスクにおいて既存のテスト時個人化手法や LoRA 派生手法を上回る精度を達成するとともに、拡散言語モデルなど他の応用分野への汎用性も示したものである。

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

本論文は、生成モデル内部の音声・映像クロスアテンション機構が持つ微細な整合性情報を DDIM 逆変換を通じて抽出する「X-AVDT」という堅牢なディープフェイク検出器と、多様な生成手法を網羅する新たなデータセット「MMDF」を提案し、既存手法を大幅に上回る汎化性能を実証したものである。

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

この論文は、安全ラベルを必要とせず、脅威に関連する画像を用いた中立な VQA タスクへの微調整を通じて、視覚的入力に対する有害な出力を抑制し、安全性に配慮したモデルの振る舞いを誘発する「視覚的自己実現型アライメント（VSFA）」という新たな手法を提案し、その有効性を検証したものである。

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

本論文は、パノラマ画像の歪みと幾何学的矛盾を解決し、3D 空間再構成の品質と安定性を大幅に向上させるため、球面レイ空間上で直接サンプリングを行う新しい「Spherical-GOF」フレームワークと、実世界ロボットデータセット「OmniRob」を提案するものです。

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

本論文は、周囲の魚眼カメラからの 4 次元パンオプティック占有追跡のための新しいベンチマーク「OccTrack360」と、魚眼画像の歪みやボクセル空間の局所化の課題に対処する強固なベースライン手法「FoSOcc」を提案し、自律走行における動的 3 次元環境理解の進展に貢献するものです。

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

本論文は、一貫性モデルを活用して物理的に整合性のある長期的な相互作用を高速にシミュレートする「Interactive World Simulator」を提案し、これにより実世界データと同等の性能を持つロボット政策の学習と、シミュレーションと実世界で高い相関を示す信頼性の高い評価が可能になることを示しています。

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

本論文は、ドローン搭載の合成開口レーダー（SAR）におけるメモリと計算資源の制約を克服するため、全データを保存せず逐次的に画像を復元する「オンライン FISTA」アルゴリズムを提案し、これにより自動目標認識（ATR）などの下流タスクをリアルタイムかつ効率的に実行可能にする枠組みを構築したものである。

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

本論文は、MLP の固定された活性化関数の限界と KAN のパラメータ爆発という課題を解決するため、入力変換と出力活性化を独立に制御するデュアルステージ機構を導入し、高精度かつパラメータ効率に優れた DualFlexKAN を提案するものである。

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM は、関節ごとの潜在分解とノイズのない条件注入を導入することで、テキストからモーションへの生成、ポーズ条件付き生成、および長期のストリーミング合成を単一のモデルで統合し、最先端の性能を実現する新しい動画生成フレームワークです。

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

この論文は、病理医による限られた注釈と指数移動平均で安定化された教師ネットワークを活用して段階的に擬似マスクを精緻化する弱教師あり教師・学生フレームワークを提案し、大腸がん組織画像の腺構造セグメンテーションにおいて注釈コストを削減しつつ高い精度と汎化性能を実現したことを示しています。

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

本論文は、単一人物のデータから学習したテンプレート不要の頭部アバターが表現の一般化に直面する課題に対し、学習中に外部の表現データバンクから類似表現を检索して特徴を置換する「RAF」という簡易なデータ拡張手法を提案し、追加の注釈やアーキテクチャ変更なしに表現の多様性とロバスト性を向上させることを示しています。

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

← 前へ次へ →