cs.CV 件の論文 | Gist.Science

RBF Weighted Hyper-Involution for RGB-D Object Detection

この論文は、深度画像とカラー画像の特性差を克服し、リアルタイムかつ高精度な物体検出を実現するために、動的な RBF 重み付きハイパー・インボリューションと学習可能なアップサンプリング融合層を導入した新しい 2 ストリーム RGB-D 物体検出モデルを提案し、NYU Depth V2 および SUN RGB-D ベンチマークで最先端の性能を達成したことを示しています。

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

この論文は、ポーズ情報を活用した文脈内視覚学習（PA-ICVL）を視覚言語モデルに組み込むことで、アニメーションキャラクター画像における構造的な視覚的幻覚の検出精度を大幅に向上させる新しい手法を提案し、その有効性を示しています。

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

この論文は、医療画像分割タスクの性能向上を目的として、下流のセグメンテーション結果から得られるセマンティック勾配によって融合プロセスを最適化する「Fuse4Seg」という二階層最適化フレームワークを提案し、従来の視覚重視の手法を凌駕する高精度な分割と臨床的な解釈可能性を両立させることを示しています。

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

本論文は、パラメータ効率型微調整（PEFT）における汎化性能の向上と事前学習モデルの知識保持を両立させるため、アダプタ学習特徴への乗法的ノイズ付加による一貫性正則化を導入した「PACE」という手法を提案し、理論的・実験的にその有効性を示しています。

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

本論文は、UAV 映像における背景ノイズの影響を排除し、物体中心の未来予測とマスク付きオートエンコーディングを統合した自己教師あり事前学習手法「FALCON」を提案し、UAV 行動認識タスクにおいて既存の教師あり手法を凌ぐ精度と推論速度を実現したことを報告しています。

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

AuthFace は、プロの撮影による高解像度データセットを用いた顔特化の拡散モデル事前学習と、写真家の指導による注釈付け、そして時間意識型潜在顔特徴損失の導入を通じて、非顔部分の誤生成や細部の不足を解消し、実世界で実用的な高品質な盲目顔復元を実現する新しいフレームワークを提案しています。

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

本論文は、追加データなしで地震波データの不規則な欠損を高精度に復元するよう、自己整合性学習戦略と軽量ネットワークを組み合わせた効率的な自己教師あり手法を提案し、公開データセットによる検証でその有効性を示しています。

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

この論文は、動画コンテンツの冗長性を解決し、ユーザーの指示に基づいて視覚トークンを最大18倍圧縮しながらも高性能を維持する「PPLLaVA」という新しいプーリング戦略を提案し、動画理解タスクにおける推論効率と精度の両方を大幅に向上させたことを報告しています。

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

この論文は、生成速度と制御性の課題を解決し、細かな制御とリアルタイム推論を可能にする拡散トランスフォーマーに基づく新しい話者合成フレームワーク「Ditto」を提案し、AI アシスタントなどの双方向アプリケーションに不可欠な性能を実現したことを示しています。

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

本論文は、マルチモーダル大規模言語モデルにおける視覚理解を強化するため、複数の視覚エンコーダを効率的に統合する軽量なアーキテクチャ「LEO」を提案し、多様なベンチマークおよび自律走行分野において既存の手法を上回る性能と汎用性を示すことを実証しています。

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

3D ガウススプラッティングの幾何学的精度向上と浮遊アーティファクトの削減、およびメモリ効率の改善を実現するため、ガウスの固有値に基づく幾何学的損失項を導入した「FeatureGS」を提案し、DTU ベンチマークで高い精度と効率性を示した。

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

本論文は、NeRF や 3DGS による新規視点合成の欠点を拡散モデルで補完しつつ、再投影誤差に基づく段階的なフィルタリングで信頼性の高い画素のみを抽出する「PoI」フレームワークを提案し、これによりシーンスケード回帰（SCR）に基づく視覚的局所化の精度を大幅に向上させることを示しています。

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

この論文は、大規模言語モデルが科学文献の検索からアイデア生成、実験、コンテンツ作成、マルチモーダルな図表の作成、そして査読に至るまで、科学者の研究ライフサイクル全体を支援する新たなエコシステムを包括的に調査し、手法や評価、倫理的課題を概説するものである。

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

← 前へ次へ →

cs.CV

RBF Weighted Hyper-Involution for RGB-D Object Detection

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection