cs.CV 件の論文 | Gist.Science

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

本論文は、不完全なマルチラベル画像認識の課題に対処するため、意味情報とラベル相関を捉える特徴学習と、視覚・意味空間の整合性に基づく特徴強化、そして欠損ラベルの復元を相互に促進させる協調学習フレームワーク「CSL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

本論文は、視覚理解と生成の間の性能トレードオフを解消し、事前学習済み視覚エンコーダの適応とパッチ単位のピクセルフロー復号化を採用することで、両タスクで優れた性能を達成する統合的なピクセルフロートークナイザ「UniFlow」を提案するものです。

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

この論文は、自己教師あり事前学習を用いた新しい 2 段階トレーニングフレームワークを導入し、事前学習された VAE に依存することなくピクセル空間で直接学習する生成モデルを実現し、ImageNet において既存の潜在空間モデルや VAE ベースの手法を凌駕する SOTA 性能と計算効率を達成したことを報告しています。

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

本論文は、ハエの嗅覚回路に着想を得た Fly-CL というフレームワークを提案し、事前学習済みモデルを用いた継続的表現学習において、多共線性の解消とトレーニング時間の大幅な短縮を実現しながら最先端の性能を達成することを示しています。

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

本論文は、露出が切り替わる単眼動画からカメラ姿勢を不要とした 2 段階最適化アプローチにより、初めて可視化可能な 4 次元 HDR シーンを再構成する「Mono4DGS-HDR」を提案し、既存手法を凌駕する画質と速度を実現したことを報告しています。

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

Atkinson-Shiffrin の人間の記憶モデルに着想を得た LightMem は、感覚記憶・短期記憶・長期記憶の 3 段階構造とオフライン更新を導入することで、LLM の対話履歴活用における性能を向上させつつ、トークン数や API 呼び出しを大幅に削減する軽量かつ効率的なメモリシステムを実現します。

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

本論文は、Wikipedia や分類群に特化したフォーマット例を用いた多モーダル大規模言語モデルによる合成説明文を生成し、生物画像とテキストの対照学習を通じて種分類や検索タスクの性能を向上させる生物基礎モデル「BioCAP」を提案しています。

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP は、3D オブジェクトの体積全体にわたってヤング率、ポアソン比、密度などの機械的特性を予測する新しいフードフォワード手法であり、物理的に妥当な材料多様体上で学習されたジオメトリ・トランスフォーマーと、視覚言語モデルを活用した新しいアノテーションパイプラインにより、従来手法を大幅に上回る精度と速度を実現します。

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

この論文は、人間の多感覚統合の概念に着想を得て、2D と 3D の自己教師あり学習を組み合わせる「Concerto」を提案し、これにより単独のモデルや既存の手法を凌駕する優れた空間表現を学習し、3D シーン理解やオープンワールド知覚において最先端の結果を達成したことを示しています。

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

本論文は、視覚トークンの空間的冗長性と機能的異質性という課題に対処するため、条件付きルーティングとプロトタイプに基づくセマンティックなルーティングを組み合わせた明示的ガイダンスを備えた二段階ルーター「ProMoE」を提案し、ImageNet における最先端の拡散トランスフォーマーモデルの性能を向上させることを示しています。

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

本論文は、機能的に類似した脳ボクセルのクラスタ間での相互作用を可能にする「Brain-Interaction Transformer」を採用し、限られた fMRI データから既存の最先端手法を上回る忠実度で画像を再構成する「Brain-IT」を提案しています。

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

この論文は、音声のみから統計的な顔の事前知識や領域強化モジュール、およびトランスフォーマーベースの離散コードブックを活用して、高解像度かつ高品質な話者動画を生成する新規手法を提案し、既存の手法を上回る性能を実証したものです。

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

本論文は、言語と視覚を補完的に活用する「思考の連鎖」を学習させることで、視覚タスクにおいて大幅な性能向上と未習の視覚操作能力などの創発的知能を実現する統合モデル「ThinkMorph」を提案しています。

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

本論文は、医療画像セグメンテーションの性能がデータ量に対してべき乗則に従いつつも解剖学的構造に起因する誤差の下限が存在することを示し、トポロジーを考慮した拡張手法がその下限を低下させてデータ効率を向上させることを実証しています。

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Flow Matching の安定性と生成品質、特に低ステップ数や軽量設定における性能向上を目指し、予測ベクトル場を安定な目標方向に引き寄せると同時にデータ多様体から外れた方向に斥くことで双方向の指導を行う「Velocity Contrastive Regularization (VeCoR)」を提案する研究です。

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

本論文は、動画拡散トランスフォーマーの学習長を超えた外挿における品質劣化と周期性の反復という 2 つの失敗モードが、位置符号に起因するアテンションの分散に統一的に起因することを発見し、学習不要なプラグイン手法「UltraViCo」を提案することで、外挿限界を 2 倍から 4 倍に引き上げ、既存手法を大幅に凌駕する性能を実現した。

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

本論文は、リモートセンシング画像におけるドメインシフトとアノテーション不足の問題を解決するため、点注釈のみを用いて「精緻化・再照会・強化」のループにより SAM を適応させる自己プロンプトフレームワーク「ReSAM」を提案し、複数のベンチマークで既存手法を上回る性能を実証したものである。

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

本論文は、AI エージェントの解決策の正しさだけでなくアプローチの独自性も評価する初のベンチマーク「InnoGym」を提案し、創造性と実用性の間に存在するギャップを明らかにしています。

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

この論文は、人間の能動的視覚に着想を得て、低解像度の画像から必要な領域を動的に選択して追加情報を取得する強化学習ベースの新しい視覚言語モデル「AdaptVision」を提案し、既存の手法よりも少ない視覚トークンで高い精度を達成することを示しています。

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

本論文は、画像の構造的特徴（位相スペクトル）とスタイル特徴（振幅スペクトル）をフーリエ解析を用いて明示的に分離し、双方向のクロスアテンション機構を通じて視覚言語モデルに注入することで、少数ショット汎化性能を向上させる「Fourier-Attentive Representation Learning (FARL)」という新たなフレームワークを提案しています。

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

← 前へ次へ →