ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink
本論文は、デジタルインクを固定語彙のトークンに変換する「ScribeTokens」を提案し、生成タスクでのベクトル表現を大幅に上回る性能と、自己教師あり学習による認識タスクでの最優秀な結果を実現したことを示しています。
5561 件の論文
本論文は、デジタルインクを固定語彙のトークンに変換する「ScribeTokens」を提案し、生成タスクでのベクトル表現を大幅に上回る性能と、自己教師あり学習による認識タスクでの最優秀な結果を実現したことを示しています。
本論文は、スケーリング不変性とスケーリング共変性を数学的に保証し、既知のスケールで訓練されたモデルが未知のスケールに対しても高い汎化性能を示すことを実証する「スケーリング不変ガウス微分残差ネットワーク(GaussDerResNets)」を提案し、STL-10、Fashion-MNIST、CIFAR-10 のスケーリング版を用いた実験でその有効性を確認したものである。
大規模視覚言語モデル(LVLM)は、ノードや構造的特徴は視覚エンコーダ内で早期に線形に表現される一方で、エッジ情報は言語モデルのテキストトークン段階まで遅れて現れるため、関係性の理解に課題を抱えていることを、合成図データセットを用いた内部表現の探査により明らかにしました。
本論文は、写真計測残差、セマンティック事前知識、幾何学的事前知識を融合したマルチモーダル事前情報に基づく重要度サンプリングを中核とした階層的 3D ガウススプラッティング手法を提案し、これにより疎なビューからの新規視点合成において過学習やノイズを抑制しつつ、DTU データセットで最大 0.3dB の PSNR 向上を実現する SOTA 性能を達成したことを示しています。
SIGMark は、大規模なメッセージキーの保存を不要とする盲抽出機能と、時系列擾乱に対する頑健性を向上させるモジュールを備えた、拡散モデルによる動画生成向けのスケーラブルかつ歪みのない透かし埋め込みフレームワークを提案するものです。
本論文は、ビデオ生成におけるメモリおよび計算コストの削減と画質の維持を両立させるため、ブロックごとの最適な量子化形式を効率的に選択し、残差誤差の再量子化や意味的相関に基づくトークン共有といった手法を統合した「SemanticDialect」を提案し、Open-Sora 2.0 において FP16 に匹敵する画質を達成したことを示しています。
この論文は、生体認証画像のプライバシーを保護しつつ偽造検出精度を維持するため、自然な画像に顔を隠すステガノグラフィ技術と、低周波成分の干渉を抑制し隠れた特徴を強調する独自のアーキテクチャを組み合わせた「StegaFFD」という新しいフレームワークを提案しています。
LLandMark は、クエリ解析、ランドマーク推論、マルチモーダル検索、回答合成の 4 段階で専門エージェントが協調し、特にベトナムの文化的・空間的ランドマークの検出や OCR 精度向上に特化したモジュール型マルチエージェントフレームワークとして、複雑なマルチモーダル動画検索を可能にするものです。
本論文は、高品質な 3D 人データセットで微調整されたマルチビュー拡散モデルと、カメラ姿勢の共同最適化、および深度に基づく顔歪み補正モジュールを組み合わせることで、単一画像から高忠実度かつ自由視点の 3D 人間再構築を実現する「MVD-HuGaS」を提案し、Thuman2.0 や 2K2K データセットにおいて最先端の性能を達成したことを報告しています。
本論文は、自然言語表現内の構成的な文脈推論を活用し、文レベルだけでなくフレーズレベルでの 3D 物体セグメンテーションを可能にする新たなタスク「3D-DRES」、対応する大規模データセット「DetailRefer」、および効率的なベースラインモデル「DetailBase」を提案し、既存の 3D 視覚言語タスクの性能向上にも寄与することを示しています。
本論文は、残差ベクトル量子化と軽量なバックボーンネットワークを組み合わせることで、低ビットレート環境での柔軟なプログレッシブ伝送と、MS-ILLM 比で 10 倍以上の高速なエンコード・デコードを実現しつつ、高品質な生成画像圧縮を可能にする「ProGIC」を提案するものである。
本論文は、2 次元形状の幾何学的特性を効率的に学習し、既存のセグメンテーションモデルに形状事前情報を組み込むことで性能を向上させる新たな深層学習アーキテクチャ「調和ベトルミシグネチャネットワーク(HBSN)」を提案し、その有効性を検証したものである。
本論文は、事前知識を必要とせず、ユーザーと物体の相互作用動画と初期 3D 走査データから、動的・静的な要素を分離する手法を用いて、可動部品の分解、関節の特定、および高品質なインタラクティブな 3D デジタル複製の再構築を実現する新しいフレームワーク「Articulation in Motion (AiM)」を提案するものである。
HDINO は、手動キュレーションされたデータやリソース集約的な特徴抽出に依存せず、ノイズサンプルを有効活用した二段階の学習戦略により、既存のオープンボキャブラリー検出器を少ないデータ量で上回る性能を実現する効率的な検出器です。
本研究は、14,049 例の腎生検から抽出された 100 万個以上の糸球体で学習したエンティティ中心の基盤モデル「GloPath」を提案し、52 種類のタスクにおいて最先端の手法を上回る病変評価性能と、組織レベルの形態と臨床指標の関連性を発見する能力を実証したものである。
TC-Padé は、有理関数に基づく軌道一貫性のある特徴量予測フレームワークを導入し、拡散モデルの低ステップ数領域における推論速度を大幅に向上させながら高品質な生成を維持する手法です。
この論文は、ラベル割合事前知識に基づく「プロポーション損失」を半教師あり学習の正則化項として初めて導入し、クラス不均衡問題におけるバイアスを軽減して少数クラスの性能を向上させる軽量フレームワークを提案し、Long-tailed CIFAR-10 での実験で既存手法を上回る結果を示したものである。
本論文は、医療画像分野における極少量の教師ありデータでの視覚言語モデル適応において、ラベルなしデータを活用して擬似ラベルを伝播させる半教師ありソルバーを提案し、ラベル付けの負担を 50% 以上削減する手法を提示するものである。
本論文は、ファウンデーションモデルを活用した異常合成パイプラインと、異常の周波数特性を捉えるウェーブレットドメイン注意機構を組み合わせることで、工業用異常検知の精度と効率を大幅に向上させる手法を提案しています。
本論文は、大規模視覚言語モデルのアーキテクチャとナビゲーションタスクのミスマッチを解消するため、トポロジー構造を明示的に注入する「TagaVLM」を提案し、R2R ベンチマークで既存の手法を凌駕する性能を達成したことを報告しています。