cs.CV 件の論文 | Gist.Science

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

本論文は、機械学習を用いた米国選挙システムにおいて、デジタル空間と物理空間（印刷・スキャン）で有効な敵対的サンプル攻撃の種類が異なることを実証し、選挙結果を転覆させるために必要な敵対的投票用紙の数を確率的に評価する枠組みを提示しています。

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

本論文は、高解像度と低解像度の画像を処理するデュアル視覚トークナイザー、バイラテラル注意ネットワーク、そして KAN ベースのモダリティプロジェクターを導入することで、視覚言語モデルのトークン粒度やアライメントの課題を解決し、マルチモーダルかつマルチタスクなトークン通信システムの性能を飛躍的に向上させた「TaiChi」という新フレームワークを提案しています。

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

RAISE は、複雑なプロンプトに対する画像生成の整合性を高めるため、プロンプトの書き換えやノイズ再サンプリングなどの多様なリファインメント行動を用いて推論時に候補を進化させ、要件の達成状況に応じて計算リソースを動的に配分するトレーニング不要の適応的フレームワークを提案するものである。

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

本論文は、Vision Transformer におけるトークングループ化戦略について、複雑に設計された手法ではなく、単なるランダムなグループ化の方が位置情報や多様性などの条件を満たす限り、より高性能かつ汎用的であることを示し、その有効性を視覚、点群、視覚言語モデルなど多様なタスクで実証しています。

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

本論文は、既存の観測と整合性を保ちつつ未観測領域を拡張する双方向生成モデルを、一貫性のある数百フレームを単一パスで生成する自己回帰モデルに蒸留する二段階パイプライン「ArtiFixer」を提案し、3D 再構築の品質とスケーラビリティを大幅に向上させることを示しています。

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

本論文は、オクルージョンや視点変化、外れ値に頑健な 6 自由度姿勢推定を実現するため、点ごとの信頼度をオプティマルトランスポートの周辺分布として注入し、視覚基盤モデルのセマンティック事前知識を活用して教師なし学習を可能にする「COG（信頼度感知型最適幾何対応）」を提案するものである。

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

本論文は、長期的な Web タスクにおける推論能力と計算効率の課題を解決するため、動的な軌道要約と外部インサイト検索を組み合わせたトレーニング不要の双層メモリ機構「M $^2$ 」を提案し、複数のベンチマークで既存手法を上回る性能向上とトークン削減を実現したことを報告しています。

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

本論文は、病理画像の階層的な関係を考慮し、双方向特徴統合と専用の損失関数を導入した階層分類フレームワーク「HiClass」を提案することで、胃生検画像の粗粒度・細粒度両方の分類性能を向上させたことを示しています。

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

本論文は、マルチモーダル大規模言語モデルにおける視覚トークンの分析手法「EmbedLens」を提案し、入力段階で画像固有の意味を担う「生トークン」のみが重要であり、内部視覚計算の大半は冗長であることを明らかにすることで、トークン剪定や中層への直接注入による効率的なモデル設計の指針を示しています。

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

本論文は、視覚的質問応答におけるハルシネーションを軽減するため、モデル内部の知識への信頼度を動的に評価して外部情報の利用を制御する「MMA-RAG」という新しいマルチモーダル適応型 RAG 手法を提案し、複数のデータセットで性能向上を実証したものである。

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

本論文は、既存のステレオ動画データを活用した大規模な学習データ構築と、アーキテクチャ変更なしに GRPO と時空推論チェーン（ST-CoT）を組み合わせた効率的な後学習戦略により、純粋な 2D 画像入力から 4 次元時空の理解と推論を可能にする MLLM-4D を提案し、最先端の性能を達成したことを示しています。

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

この論文は、従来の Vision Transformer が抱える二次的な計算量の問題を解決し、自己教師あり学習によるトークン圧縮や双方向スキャン戦略を導入することで、ImageNet 分類で高い精度を維持しつつ、DeiT-T と比較して計算量やメモリ使用量を大幅に削減した新しい効率的かつ表現力豊かな視覚表現学習モデル「Vision-TTT」を提案するものです。

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

この論文は、拡散過程における領域ごとの収束パターンの不均一性を活用し、学習不要の適応的トークンスケジューリングにより生成品質を維持しつつ最大 2.4 倍の高速化を実現するフレームワーク「Jano」を提案するものです。

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

本論文は、非同期オンライン強化学習フレームワークと利得に基づくランキング選好最適化（ARPO）アルゴリズム、および対角線認識混合トークン化と光線ベースの報酬を組み合わせた Mesh-Pro を提案し、3D メッシュ生成における訓練効率と生成品質を大幅に向上させたことを示しています。

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

本論文は、スパイキングトランスフォーマーの計算および記憶オーバーヘッドを削減しつつ性能を維持するために、トークンの重要度に基づくヒューリスティックな時空間情報保持基準とブロックレベルの早期停止戦略を採用した「TP-Spikformer」というトークンプルーニング手法を提案し、多様なアーキテクチャやタスクにおいてその有効性を示すものである。

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

この論文は、画像のわずか 1.2%（7 パッチ）を変更するだけで、最先端の画像キャプション生成モデルを任意のテキスト（差別的な内容やフィルタ回避用語を含む）に誘導できる汎用的な敵対的攻撃「CaptionFool」を提案し、視覚言語モデルの深刻な脆弱性を明らかにしています。

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

本論文は、小規模な医療データセットにおける非対 CBCT-CT 変換の安定性と精度を向上させるため、DINOv3 エンコーダとグローバル CT メモリバンクを用いて検索ガイド擬似ペアを構築する「検索拡張フローマッチング（RAFM）」を提案し、SynthRAD2023 ベンチマークで既存手法を上回る性能を実証したものである。

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

本論文は、従来の 2D 解析や単一データ源の限界を克服し、連続スライスの 3D 空間情報と多様な臨床データを統合する「MIMD-3DVT」という新たな 3D ビジョン・トランスフォーマー手法を提案し、アルツハイマー病の分類において 97.14% の高い精度を達成したことを報告している。

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

本論文は、既存の評価手法の限界を克服するため、10 次元の能力指向ベンチマーク「M-JudgeBench」を提案し、MCTS を駆使したデータ生成フレームワーク「Judge-MCTS」を用いて高品質な判断モデル「M-Judger」を構築・検証することで、マルチモーダル大規模言語モデルの判断能力評価とトレーニングの新たな基盤を確立したものである。

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

この論文は、動画レベルの教師信号のみを用いた弱教師あり動画異常検出の課題を解決するため、異常のセマンティクスを学習し、類似する正常・異常行動を区別する「LAS-VAD」という新しいフレームワークを提案し、XD-Violence および UCF-Crime データセットにおいて最先端の性能を達成したことを報告しています。

Yu Wang, Shengjie Zhao2026-03-03💻 cs

← 前へ次へ →

cs.CV