cs.CV 件の論文 | Gist.Science

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

本論文は、低照度画像増強におけるイベントカメラのノイズと画像の低信号対雑音比という二重の劣化課題を解決するため、画像とイベントの勾配相関を活用した事前知識と、増強タスクを制約条件としたバイレベル最適化を組み合わせた「BiEvLight」という階層的タスク対応フレームワークを提案し、実世界データセットで最先端の性能を達成したことを報告しています。

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

本論文は、評価指標を直接最適化対象とする強化学習（RLVR）を動画ベースの 3D 空間理解に初めて適用し、より大規模なモデルを上回る最先端の性能を達成する「3D-RFT」という新たなフレームワークを提案するものである。

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

本論文は、長動画理解における意味の偏りや誤った相関を抑制し、解釈性と論理的整合性を向上させるため、回答候補を仮説として再定義し、それを動画の細部に基づいて検証する多エージェントフレームワーク「VideoHV-Agent」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

本論文は、次のトークン予測という単純な自己回帰ベースラインを用いて、マルチモーダル理解、画像生成、画像編集を統合し、多解像度対応と中英バイリンガル機能を備えた「Wallaroo」と呼ばれるモデルを提案し、その競争力のある性能を示しています。

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

本論文は、フレームとイベントストリームの非同期融合を可能にする「Transient Asynchronous Fusion」メカニズムと適応的な重み付けモジュールを導入し、照明条件やモダリティの欠損に強いロバストな任意点追跡を実現する TAPFormer を提案し、実世界データセットおよび標準ベンチマークにおいて既存手法を大幅に上回る性能を達成したことを報告しています。

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

本論文は、単一画像から高品質な 3D 衣装着人体を再構築する新たなフレームワーク「MultiGO++」を提案し、大規模なテクスチャデータセットの構築、領域意識形状抽出モジュール、および幾何学とテクスチャの協働による双重建前 U-Net によって、既存手法が抱えるテクスチャ、幾何学、およびシステム的な限界を克服したことを示しています。

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

本論文は、単一のぼやけた画像から物理的に整合性のある光学パラメータ（ゼルニケ係数）を盲推定し、それを用いて安定した非盲デコンボリューションを実現する深層学習フレームワーク「Lens2Zernike」を提案し、従来の手法や黒箱モデルを上回る性能を証明したものである。

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

本論文は、拡散モデルや GAN など多様な生成画像復元モデルを対象とした大規模な評価研究を通じて、詳細の欠如から過生成や意味的制御の難しさへの課題の転換を明らかにし、人間の知覚に合致した新たな評価指標とモデルの構築により、この分野の現状と将来の方向性を再定義するものである。

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

この論文は、臨床現場での汎用性を高めるため、ビジョン基盤モデルの知識を活用して高品質な擬似ラベル生成と視覚的妥当性検証を行うことで、単一のフレームワークで多様な医療画像セグメンテーションのドメイン適応を達成する「Tell2Adapt」を提案し、広範な実験で既存手法を上回る性能を実証しています。

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

この論文は、多様な歴史的地図コレクションを対象とした汎用セマンティックセグメンテーションを実現するため、新規ベンチマークデータセット「Semap」とプロシージャル合成およびマルチスケール統合を組み合わせたフレームワークを提案し、地図のスタイルやスケール、地域を超えた高い頑健性を示したことを報告しています。

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

本論文は、光干渉断層撮影（OCT）の中間再構成情報を活用し、テスト時に再構成の時間スケールに応じたモジュレーターネットワークで下流セグメンテーションモデルのパラメータを適応させる手法「IRTTA」を提案し、再構成プロセスや下流モデルを変更することなくセグメンテーション性能の向上と不確実性の推定を実現するものである。

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

本論文は、異なるカメラ構成間での空間的事前知識の不一致が汎化を阻害する要因であることを特定し、空間認識型特徴変調とカメラ認識型データ拡張を導入することで、未知のマルチカメラ構成への強力な転移性能を実現する汎用的な 3D 物体検出フレームワーク「CoIn3D」を提案しています。

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

本論文は、現実世界の曖昧なラベル問題に対処するため、CLIP を活用してインスタンスとラベルの特徴を融合し、部分的なラベルを逐次的に特定・洗練させる新たなゼロショット学習フレームワーク「CLIP-PZSL」を提案し、その有効性を複数のデータセットで実証したものである。

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

本論文は、ABL データセットと 4 台の魚眼カメラを用いた 360 度マルチカメラシステムを構築し、カラー注意機構を統合した RT-DETR により救急車の青色警光灯を検出・方位推定することで、ADAS や道路安全性の向上に寄与する手法を提案しています。

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

本論文は、生体視覚の仕組み（網膜細胞の仕組み）に着想を得て、追加の運動ラベルや位置合わせモジュールを必要とせず、単一のフレーム入力から運動情報を明示的に統合し、赤外線微小目標検出において既存の多フレーム手法を大幅に上回る性能を達成する「MI-DETR」という強固なベースラインモデルを提案するものである。

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

本論文は、テキスト、画像、音声など 7 つのモダリティを任意に組み合わせる「任意から任意の相互交差型マルチモーダル」タスクを評価するための初の統一ベンチマーク「UniM」と、それを評価する suite、および基線モデル「UniMA」を提案し、統合されたマルチモーダル知能の進展に向けた課題と方向性を明らかにしています。

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

本論文は、単眼動画から動的な 3D シーンを効率的に復元する新しいフォワードネットワーク「MoRe」を提案し、アテンション強制戦略とグループ化因果アテンションを用いて動的物体によるカメラ姿勢推定の誤りを回避しつつ、リアルタイム性と高品質な時空間幾何復元を実現することを示しています。

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

本論文は、大規模な 4D データセットの不足という課題に対し、既存の 3D および動画拡散モデルから空間的・時間的事前知識を直交分布転移メカニズムを用いて転送し、ST-HexPlane と組み合わせて高品質な 4D 生成を実現する新たなフレームワークを提案しています。

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

この論文は、オントマニフォールドの制約下で効率的かつ幾何学的に整合的なアトリビューションを可能にするため、最適生成フローとワッサーシュタイン測度を用いた公理的なシャプロリー値の理論を確立し、既存手法の課題を解決する手法を提案しています。

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

本論文は、EM 法に基づく潜在属性推定、トレーニング不要の時間的一貫性 refine、および提案間の関係をモデル化するグラフベースの refine モジュールを統合した GEM-TFL を提案し、動画偽造の弱教師あり検出における訓練と推論の乖離を解消し、完全教師あり手法に匹敵する高精度な局所化を実現するものである。

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

← 前へ次へ →