cs.CV 件の論文 | Gist.Science

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

本論文は、HDR UGC 動画の品質評価を目的とした大規模主観的データセット「Beyond8Bits」と、HDR 感知型ビジョンエンコーダと強化学習に基づく最適化フレームワーク「HAPO」を採用した初のマルチモーダル大規模言語モデル「HDR-Q」を提案し、既存の SDR 向けモデルを超えた最先端の性能を達成したことを報告するものである。

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

本論文は、Instant-NGP のハッシュ符号化関数を鍵制御型のシーン切り替え機構として活用し、外部デコーダやアーキテクチャ変更を必要とせずに、単一のモデルに隠し 3D 場面を完全に埋め込み、高い容量と不可視性を実現するパラメータフリーの 3D 暗号ステガノグラフィ手法「StegoNGP」を提案するものである。

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

本論文は、Contrastive Forward-Forward 学習における正のペアマージンのクリッピング実装が、CIFAR-10 などの特定のデータセットにおいてバッチ内の正ペア密度やタスクの難易度に依存して学習のばらつきを著しく増大させることを実証し、勾配中立な代替手法による解決策を提案しています。

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

本論文は、ガウシアンの運動と幾何学的属性を分離し、時間変化する速度を明示的に取り入れたガリレイせん断行列と幾何学的変形ネットワークを導入することで、複雑な非線形運動を高精度にモデル化する新しい 4D ガウシアンスプラッティング手法「VeGaS」を提案し、公開データセットにおいて最先端の性能を達成したことを示しています。

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

本論文は、フローマッチングに基づく次世代拡散モデル（画像・動画）における概念消去と生成品質の両立を課題とし、制約付き多目的最適化と効率的な勾配手術、そして時空間一貫性を確保するアノカー＆プロパゲート機構を統合した「EraseAnything++」を提案し、既存手法を凌駕する性能を達成したことを報告するものである。

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

本論文は、合成データを用いた教師あり前学習において、匿名化された実データからの形状バンクと解剖学的な配置戦略を導入することで、医療画像セグメンテーションの精度とスケーラビリティを大幅に向上させる新しいフレームワークを提案しています。

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

本論文は、自己教師あり DINO 埋め込みを用いて動画を意味的なイベント単位に分割し、各イベントからクエリ関連性の高いフレームを「アンカー」として選択・最適化する「イベントアンカーフレーム選択（EFS）」手法を提案し、これにより既存の大型視覚言語モデルを学習不要でプラグイン可能にすることで、長動画理解の性能を大幅に向上させることを示しています。

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

本論文は、医療画像のテクスチャと形状の学習を両立させるため、境界領域を保護しつつ物理モデルに基づくテクスチャを生成する新しい合成フレームワークを提案し、これにより実データを用いない教師あり学習で最先端の性能を達成することを示しています。

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

本論文は、リモートセンシング分野における基盤モデルの単一モーダルからマルチモーダルへの進化を包括的に調査し、その定義と必要性を解説するとともに、初学者向けの実践的なトレーニングガイドを提供する技術調査である。

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

本論文は、ビジョンファウンデーションモデルと粗から細への姿勢推定ネットワークを活用し、安価な RGB-D カメラのみでドリフトに強く高精度なマーカーレス自由手動 3D 超音波再構成を実現する「MLRecon」を提案するものである。

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

本論文は、拡散モデルの事前学習済み確率密度から導出された測地線補間を用いてフロー経路を制約する「確率密度測地線フローマッチング（PDG-FM）」を提案し、拡散ベースの手法よりも視点間の一貫性と幾何学的整合性を向上させた新規視点合成フレームワークを確立しています。

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

この論文は、車両数の急増に伴う需要の高まりを背景に、電子駐車料金システムや高速道路の料金収受、交通監視、警察の取り締まりなど多様な分野での応用が期待される、車両のナンバープレート認識システムの技術的実装とノイズ除去について論じています。

Yiquan Gao2026-03-03⚡ eess

RaUF: Learning the Spatial Uncertainty Field of Radar

本論文は、ミリ波レーダーの物理的な異方性に基づいて空間的不確実性場を学習し、双方向ドメイン注意機構を用いてノイズを抑制することで、低解像度や曖昧性といった課題を克服し、信頼性の高い空間検出を実現する「RaUF」というフレームワークを提案するものである。

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

この論文は、Implicit Neural Representations（INRs）の周波数バイアス問題を解決するため、フーリエ特徴とチェビシェフ特徴を組み合わせ、タスクに応じた周波数基底を効率的に合成・選択する「Content-Aware Frequency Encoding（CAFE）」およびその拡張版「CAFE+」を提案し、既存手法を上回る性能を実証したものです。

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

既存のアプローチが抱える誤検知や見落としの問題を解決するため、事前学習済みビジョン・言語モデルのセマンティックな事前知識を活用し、視覚特徴と言語特徴を整合させることで道路の異常検知精度を大幅に向上させる新しいフレームワーク「VL-Anomaly」を提案する論文です。

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

本論文は、複雑な環境下でのロボット組立におけるスナップ接合の検出精度と効率を向上させるため、専用センサーと自己注意機構に基づくマルチスケール特徴融合ネットワーク「SMR-Net」を提案し、従来の手法と比較して IoU や mAP を有意に改善したことを報告しています。

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

本論文は、直感的な推論と外部視覚ツールの適応的な呼び出しを組み合わせる「TAR-FAS」フレームワークを提案し、多様なツール利用推論データセットと学習手法を通じて、顔生体認証におけるスプーフィング検出の汎化性能と信頼性を大幅に向上させることを示しています。

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

本論文は、検索集約的なマルチモーダル QA データの不足、効果的な検索軌跡の欠如、オンライン検索 API の高コストという 3 つの課題に対処するため、ハイパーグラフに基づくデータ生成法「Hyper-Search」、ツール特化型エキスパートを木探索で再構成する「DR-TTS」、およびオフライン検索エンジンを組み合わせた「MM-DeepResearch」を提案し、複雑な深層検索タスクにおいて優れた性能を実証したものである。

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

本論文は、強化学習における報酬の曖昧さを解消し、失敗の根本原因を特定する構造化された診断フィードバックを導入することで、自律運転における Vision-Language-Action モデルの性能を飛躍的に向上させ、NAVSIM ベンチマークで最先端の成果を達成する「ELF-VLA」というフレームワークを提案しています。

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

本論文は、テキスト理解と画像生成を統合し、柔軟な長さをサポートする新しいマルチモーダル拡散モデル「LLaDA-o」を提案し、その有効性を示すものです。

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

← 前へ次へ →