cs.CV 件の論文 | Gist.Science

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

本論文は、HTML の階層構造の理解と UI 画像とコードの対照的整合性を向上させる新たなファインチューニング手法「WAFFLE」を提案し、UI デザインから Web ページを自動生成するタスクにおいて既存手法を大幅に上回る性能を達成したことを示しています。

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

本論文は、現実世界の劣化を考慮しつつ、潜在空間での勾配整合経路（LaGAR）モジュールを導入して拡散モデルの推論速度を 200 倍以上高速化し、画質も向上させた新しい全天球画像超解像フレームワーク「RealOSR」を提案するものです。

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

本論文は、手術動画における長期的な時間的整合性を保ちつつ、計算コストを抑えて物体中心の表現を学習し、ゼロショットドメイン適応も可能にする自己教師あり物体発見モデル「Slot-BERT」を提案し、実世界の手術データセットにおいて最先端の手法を上回る性能を実証したものである。

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

本論文は、MLP、トリプレーン、ハッシュテーブルなど多様なアーキテクチャを持つ NeRF を、事前学習されたグラフメタネットワークと対照的学習を用いてアーキテクチャに依存しない潜在空間へ変換し、分類や検索、言語タスクにおいて既知・未知のアーキテクチャにわたって頑健な推論を可能にする初のフレームワークを提案するものである。

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

本論文は、サイクル整合性を損失関数として用いた自己教師ありマルチグラフマッチング手法を提案し、教師データなしで線虫（C. elegans）の 3D 顕微鏡画像における細胞核のセマンティック注釈を可能にする初のアトラスを構築し、最先端の教師あり手法と同等の精度を達成したことを報告しています。

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

本論文は、自動運転車の交通標識認識システムに対する敵対的パッチ攻撃に対し、事前知識や多段階処理を必要とせず、モデル非依存かつリアルタイム処理に適した生成敵対ネットワーク（GAN）ベースの単一段階防御手法を提案し、攻撃下での分類精度を大幅に向上させることを示しています。

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

この論文は、自然言語による指示で異常の定義を動的に変更可能な新しいオープンワールド型動画異常検出パラダイムを提案し、その学習に必要な大規模な事前学習用データセット「PreVAD」と、弱教師あり学習と対照学習を組み合わせたモデル「LaGoVAD」を開発して、ゼロショット設定で最先端の性能を達成したことを示しています。

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

本論文は、拡散モデルの効率的な生成を実現するため、中間ステップの冗長計算を回避する「スケーリング・ワイス・ディストーション（SwD）」フレームワークと、分布一致を促進する新しいパッチレベルの MMD 目的関数を提案し、既存手法を大幅に上回る生成速度と品質を達成したことを報告しています。

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

本論文は、投影法と特徴量選択を組み合わせたハイブリッドな差分プライバシーフレームワークを提案し、MPII データセット上で非公開モデルに迫る精度（ε=0.8 で PCKh@0.5 が 82.61%）を維持しつつ、2 次元人体ポーズ推定におけるプライバシー保護を実現した世界初の包括的な研究である。

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

この論文は、ビデオ拡散モデル内の注意機構に基づく不確実性を定量化することで、生成の品質と一貫性を向上させる新しいノイズ選択フレームワーク「ANSE」を提案しています。

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

本論文は、自律走行車の BEV 3D 物体検出器の脆弱性を暴露するため、対象車両自体を改変せず環境に配置可能な、視覚的・時間的に一貫性のあるユニバーサルな敵対的オブジェクト生成フレームワーク「SABER」を提案するものである。

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

本論文は、静電場モデルの課題を解決し、クォークと反クォークの強い相互作用に着想を得た「相互作用場マッチング（IFM）」という新しいデータ生成・転送手法を提案し、その有効性を示したものである。

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

本論文は、STEM 分野に偏重した既存の評価基準では見落とされがちな人文社会科学（HSS）領域の多言語・学際的推論能力を評価するため、専門家と自動エージェントが協働して生成した 1 万 3000 件以上のデータセット「HSSBench」を提案し、最先端のマルチモーダル大規模言語モデルが依然としてこの分野において大きな課題に直面していることを示しています。

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

本論文は、大規模な動画モデルの微調整を必要とせず、キーフレームやスタイル画像などのフレームレベル信号を用いて高品質な制御動画生成を実現する「Frame Guidance」というトレーニング不要の手法を提案し、メモリ効率と一貫性を向上させる新しい潜在空間処理法を開発したことを示しています。

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

本論文は、既存の強化学習手法が多モーダル知覚能力の向上に不十分であることを指摘し、視覚注釈の整合性を報酬として与える「Perception-R1」を提案することで、少量のデータで多モーダル推論能力を大幅に向上させる新たなアプローチを提示しています。

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

本論文は、校正されていない動画ストリームからリアルタイムかつオンラインで動的な 3D 場を復元し、最適化ベースの手法に比べて 1200 倍の高速化を実現する、新しい完全フォワード型のフレームワーク「StreamSplat」を提案するものです。

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

この論文は、拡散モデルの推論速度を向上させるために、ネットワークパラメータや参照画像の変更を必要とせず、遺伝的アルゴリズムを用いてモデル固有の効率的なキャッシュスケジュールを学習する「ECAD」という手法を提案し、既存の手法を上回る高速化と画質の両立を実現したことを報告しています。

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

本論文は、テキストから生成された画像を「合成知覚」として活用することで、テキスト中心の推論タスクにおいて潜在的な視覚的事前知識を解放し、大規模言語モデルの性能を向上させる可能性とその条件を体系的に検証したものである。

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

自律運転システムの訓練・評価に不可欠なリアルタイムかつインタラクティブな交通シミュレーションを実現するため、トランスフォーマーモデルを用いてシーンをトークン列として連続的に生成する新しいフレームワーク「SceneStreamer」を提案し、その高忠実度と汎用性を検証した論文です。

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

本論文は、拡散モデルのサンプリング過程において、条件付きノイズ信号に基づいてガイダンススケールを動的に調整する「アニーリングガイダンススケジューラ」を提案し、追加の計算コストやメモリ消費なしに画像の品質とテキストとの整合性を大幅に向上させる手法を報告しています。

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

← 前へ次へ →