cs.CV 件の論文 | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

本論文は、物体検出モデルから得られる明示的な空間的グラウンディング情報を視覚言語モデルに統合する「GroundCount」フレームワークを提案し、これにより数え上げタスクにおけるハルシネーションを軽減し、複数のモデルで精度向上と推論時間の短縮を実現することを示しています。

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

この論文は、現実的な画像生成における過度な鮮やかさを評価・是正するための大規模データセット（CFD）と評価指標（CFM）、そして学習不要な色忠実度改善手法（CFR）を提案し、テキストから画像への生成における色忠実度の向上を目指すものです。

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

この論文は、コンピュータサイエンスと美術史の専門家による共同研究を通じて、ビジョン・ランゲージモデルが芸術様式を認識するメカニズムを解明し、その判断根拠の約 9 割が美術史家の基準と整合していることを示しています。

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

本論文は、自律運転における意思決定の精度向上を目指し、未来の環境変化をコンパクトなトークン列として表現・予測する「ダイナミクス CoT」を導入した新しい VLA モデル「DynVLA」を提案し、既存の手法を上回る性能を実証したものである。

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

既存のテキスト音楽生成モデルが抱える微細な時間制御の課題を、対データなしで動画イベントと音楽イベントの時間的変化構造をそれぞれ独立して捉える「イベント曲線」を用いることで解決し、動画に時間的に同期した音楽を生成するゼロショット手法「V2M-Zero」を提案した。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

この論文は、複雑なレイアウトやページまたぎの構造といった金融ドキュメント特有の課題を解決し、監査レベルの追跡可能性を持つ構造化出力を実現する「Agentar-Fin-OCR」システムと、その評価のために専門家による注釈を備えた新しいベンチマーク「FinDocBench」を提案するものである。

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

この論文は、表面温度の過渡測定から材料特性の定量的な 3 次元再構成を可能にする、微分可能な物理ソルバーを基盤としたニューラル場熱トモグラフィ（NeFTY）という新しいフレームワークを提案し、従来の手法が抱える側方拡散の無視や勾配の剛直性などの課題を克服して内部欠陥の高精度な特定を実現することを示しています。

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

本論文は、RGB 深度画像を表面光場のサンプリングとして捉え、これをコンパクトな潜在ベクトルに符号化することで幾何形状と視点依存の見た目を統合的に表現する「LiTo」を提案し、単一画像から照明や材質を考慮した高品質な 3D 物体を生成する手法を示しています。

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

この論文は、YouTube のコメディ動画から学習した LLM 批評家と制作スタジオの役割を模倣したエージェント群を用いて、 iteratively な競争と評価を通じて SNL などのスケッチショーに匹敵する高品質なコメディ動画を自動生成する AI システム「COMIC」を提案しています。

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

本論文は、従来の一方向生成の限界を克服し、左から右・右から左の双方向フローを単一モデルに密結合させることで、文レベルおよび単語レベルのアンサンブルと自己批判的学習を組み合わせ、MSCOCO ベンチマークにおいて非 VLP ベースラインモデルの中で最高水準の性能を達成する「コンパクト双方向トランスフォーマー」を提案するものである。

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

本論文は、自動運転における複雑な交通環境での歩行者検出精度向上を目指し、視覚モデルではなく座標値の分布から欠損キープイントを学習する自己教師あり敵対学習フレームワーク「SDR-GAIN」を提案し、COCO および JAAD データセットでの実験により、既存手法を上回る高精度な欠損補完とマイクロ秒レベルのリアルタイム推論を両立したことを示しています。

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

本論文は、複数のカメラ角度やフィールドの遮蔽といった課題に対処するため、3D サッカー場モデルとキーポイント、および検出されたラインを活用した非線形最適化パイプライン「PnLCalib」を提案し、既存手法を上回るカメラ較正精度とロバスト性を達成したことを示しています。

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

本論文は、事前学習済みの拡散モデルの強固な画像知覚能力を活用し、軽量な学生モデルへの知識蒸留を通じて汎化性能を維持・向上させることで、野生環境におけるブラインド画像品質評価（IQA）の最先端性能を達成する新たな手法「DP-IQA」を提案するものである。

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散（SGMD）」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

本論文は、因果的相互作用の注入、役割の進化に基づく走査、および局所的なパターン増幅という 3 つの主要な構成要素を導入し、人間の社会的相互作用をより効率的かつ効果的に生成するための新しいフレームワーク「TIMotion」を提案するものである。

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

この論文は、量子化とスパース化の不連続性が勾配伝搬に与える課題を、量子化を付加ノイズとして明示的にモデル化し、リッジ回帰に基づくノイズ除去デ量子化変換を導入することで解決し、任意の精度とスパース性で安定した超効率的なニューラルネットワークの訓練を可能にする統一フレームワークを提案しています。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

本論文は、データセット凝縮において、従来のデータとラベルに加えて特徴量ラベルやアテンションラベルといった「特権情報」を合成して補助的な教師信号として活用する「DCPI」という手法を提案し、既存の手法と組み合わせることで画像認識タスクの性能を大幅に向上させることを示しています。

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

この論文は、潜在変数の変換を回転場とポテンシャル場に分解し、そのスパースな活性化を推論することで、独立した変換プリミティブに基づく新しい形の解離表現を学習する教師なしモデルを提案し、シーケンス変換データにおいてデータ尤度と近似等変性の両面で最先端の性能を達成することを示しています。

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

本論文は、事前のミッション情報とニューラルビュー合成モデルを活用し、勾配降下法で潜在表現を最適化することで、水中 ROV の帯域幅制限下でも高品質な画像伝送を可能にする新たな画像圧縮手法を提案し、人工海洋水槽での実験により既存手法を上回る圧縮率と画質、および新規物体への頑健性を実証したものである。

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

この論文は、視覚言語モデルの事前知識を活用したクラス指向クラスタリングと適応的クラス別閾値に基づく選択的クエリを導入することで、少数のラベル付きデータで高い精度を達成する予算効率的な能動型プロンプト学習フレームワークを提案し、複数のデータセットで既存手法を上回る性能を実証したものである。

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← 前へ次へ →