cs.CV 件の論文 | Gist.Science

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

本論文は、家庭廃棄物の自動分別を促進するために開発され、10 種類の廃棄物カテゴリからなる 12,259 枚の画像を含む大規模な公開データセット「Garbage Dataset (GD)」を提案し、最先端の深層学習モデルによる性能評価と環境負荷の分析を通じて、実世界での廃棄物分類研究における重要な課題と可能性を明らかにしたものです。

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

本論文は、多様なセンサー仕様と可変スペクトルチャネルに対応するため、動的ハイパーネットワークを用いて単一モデルで柔軟なチャネル組み合わせを符号化・再構成する地球観測データ向けの基盤トークナイザー「EO-VAE」を提案し、TerraMesh データセットにおける実験で既存の TerraMind トークナイザーを上回る再構成忠実度を実証したものです。

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

本論文は、多様な医療ベンチマークで最先端の性能を達成し、閉源の最先端マルチモーダルシステムを上回る医療用マルチモーダル大規模言語モデル「MedXIAOHE」を、エンティティ意識型継続的事前学習、強化学習およびツール拡張エージェント訓練による推論、そして低ハルシネーションのレポート生成などの技術的アプローチを通じて構築・評価したことを報告するものである。

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

この論文は、音声合成（TTS）と音声から顔表情生成（A2F）の独立したモデルを統合し、中間表現の再利用による両者の整合性向上と感情制御の拡張を実証するモジュール化フレームワーク「UniTAF」を提案し、生成品質ではなくシステム設計の観点から音声と表情の共設計の工学的実践指針を提供するものである。

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

本論文は、低ランク投影残差による内容とスタイルの分離学習、プロンプト誘導型エキスパートエンコーダによる精密な制御、および追加学習不要の時間依存クラスフリーガイダンスを組み合わせた「CRAFT-LoRA」を提案し、高品質なパーソナライズ画像生成を実現する手法を提示しています。

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

この論文は、20 以上の STEM 分野の大学試験問題から構成される多モーダルベンチマーク「CFE-Bench」を提案し、最先端の言語モデルが中間段階の推論を維持する点やステップ効率の面で依然として課題を抱えていることを示しています。

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

本論文は、画像ペアではなく画像シーケンスを直接対象とした強化学習フレームワーク「TraqPoint」を提案し、軌跡の質を最適化する報酬機構を通じて、従来の手法よりも優れたキーポイント検出と記述を実現することを示しています。

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

本論文は、事前学習済み LoRA アダプターと動的な重み付けメカニズムを統合した「概念蒸留サンプリング（CDS）」を提案し、参照サンプルや追加学習なしに、複数の視覚概念を忠実に維持しながら画像を編集する初の統一フレームワークを実現するものである。

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

本論文は、インスタンスパッチ埋め込みによる視覚参照の強化、物理的特徴を用いた詳細の補強、スケッチに基づく動的 RoPE エンコーディングによる時空間依存性の適応的モデリングを導入した Diffusion Transformer ベースのフレームワーク「Uni-Animator」を提案し、画像および動画のスケッチ彩色において、既存のタスク固有の手法と同等の性能を維持しつつ、高精度な詳細再現性と堅牢な時間的一貫性を兼ね備えた統合的な解決を実現しています。

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

本研究は、12 の MRI モダリティと 9 種類の異常を含む大規模な 3D MRI データセット「MedMoM-MRI3D」を構築し、モダリティを考慮した事前学習フレームワーク「MedMAP」を提案することで、3D MRI における多臓器異常検出タスクにおいて既存の視覚言語モデルを大幅に上回る性能を実現したことを示しています。

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

本論文は、高価な細粒度アノテーションなしで推論能力を活用してモデルの知覚能力を向上させるため、トークンレベルの密な報酬を用いて重要な動画フレームに注目するトークンを最適化する「APPO（Attention-guided Perception Policy Optimization）」アルゴリズムを提案し、GRPO や DAPO を上回る性能を実証しています。

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

この論文は、16〜17 世紀の造船学 treatise 画像のセグメンテーションに SAM2 を、ラベリングに Florence2 と ChatGPT を活用し、専門オントロジーと用語集を組み合わせることで、歴史的文書の自動化された整理・検索を可能にする GenAI の応用と課題について報告しています。

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

本論文は、軟組織の厚さの個人差を 3 次元コーン表現でモデル化し、差分進化アルゴリズムを用いて最適化することで、頭蓋顔面重ね合わせの精度と堅牢性を向上させた「Lilium」と呼ばれる新しい進化手法を提案しています。

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

GLIDE-Reg は、学習可能な次元削減モジュールを介して最適化された VFM 埋め込みと MIND 記述子を融合させることで、空間解像度や解剖学的カバレッジの違いに頑健であり、既存の最先端手法を上回る精度で医療画像の非剛体登録を実現する手法です。

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

本論文は、継続的学習における忘却問題と予測の信頼性向上を同時に解決するため、モデルの出力を再処理して元の出力との距離を最小化する「IDempotent Experience Replay（IDER）」という新たな手法を提案し、既存のリプレイ手法との互換性を保ちながら精度と信頼性を同時に向上させることを示しています。

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

この論文は、バングラ語の手書き文字分類の課題に対し、従来のモデルよりもはるかに軽量で計算効率に優れた新しいビジョントランスフォーマーモデル「BornoViT」を提案し、既存の最先端手法を上回る精度と効率性を示したことを述べています。

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

本論文は、学習可能な空間シフトモジュール、非対称双ブランチアーキテクチャ、および誤差許容適応サンプリングによる LUT 圧縮の 3 つの要素を組み合わせることで、エッジデバイス向けに高い効率性を維持しつつ、既存の LUT 手法を凌駕する広大な受容野と優れた画像復元性能を実現する「ShiftLUT」を提案する。

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

本論文は、RGB 画像と物理的メタデータを融合するマルチモーダル学習フレームワークと大規模データセット「Waste-Weight-10K」を提案し、商業・産業廃棄物の重量を高精度に推定するとともに、SHAP と大規模言語モデルを用いた予測の解釈性を向上させることを目指しています。

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

本論文は、高周波成分の重要性を見極め低周波差分に基づいて冗長な計算を精密に特定・スキップする「PreciseCache」というプラグアンドプレイフレームワークを提案し、画質を損なうことなく動画生成モデルの推論を大幅に高速化することを可能にします。

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

本論文は、事前学習モデルを必要とせず、ウォームアップ・リフロー学習と初期推定値戦略を採用することで、わずか 2 段階の推論で心臓 MR 画像の非教師登録を高精度かつ効率的に実現する「FlowReg」というフローマッチングフレームワークを提案し、既存手法を上回る性能と左室機能推定の精度向上を実証したものである。

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

← 前へ次へ →