EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
この論文は、Diffusion Transformer を基盤とし、文字位置エンコーディングや位置エンコーディング補間などの新技術、さらに大規模な多言語合成データセットを活用することで、高精度かつ制御可能な多言語テキスト描画を実現する「EasyText」というフレームワークを提案するものである。
7777 件の論文
この論文は、Diffusion Transformer を基盤とし、文字位置エンコーディングや位置エンコーディング補間などの新技術、さらに大規模な多言語合成データセットを活用することで、高精度かつ制御可能な多言語テキスト描画を実現する「EasyText」というフレームワークを提案するものである。
この論文は、7 つのプログラミング言語にまたがる 3 万枚以上のパッチを用いた大規模な実証研究を通じて、指示微調整と少数ショットプロンプティングを適用した GPT-4o が、従来の事前学習言語モデル(PLM)を上回る多言語・多粒度(関数レベルおよび行レベル)の脆弱性検出能力を有することを明らかにしています。
本論文は、生物学的なシナプスフィルタリング機構に着想を得たクロススケールゲーティング符号化(CSGC)と軽量残差ブロックを導入し、低消費電力かつ高精度な単眼 3 次元物体検出を実現するスパイクニューラルネットワーク「SpikeSMOKE」を提案するものである。
本論文は、最大次数と耐故障数を用いた故障耐性総支配数問題に対する近似アルゴリズムの構築、および重み付き部分正影響支配集合問題の単純・総・連結版に対する対数近似アルゴリズムの提案(特に連結版では整数値から分数値への一般近似枠組みの拡張を含む)を報告するものである。
この論文は、オーストリアの新聞『デア・シュタント』の 10 年間(2013-2022 年)にわたる 7500 万件以上のコメントと 4 億件以上の投票を含む大規模な縦断データセットを提示し、ユーザーの匿名性を保ちつつドイツ語のオンライン議論の動態やネットワーク構造、意味分析を可能にする前計算済みベクトル表現を公開している。
この論文は、PyPI の 37 万 8,573 個のパッケージを対象とした定量分析を通じて、Python ソフトウェアサプライチェーンにおける依存関係の脆弱性の実態を明らかにし、そのセキュリティリスクに対する意識向上を促す「PyPitfall」という研究を紹介しています。
この論文は、物理場データ(流体力学など)の解釈を強化するため、物理的特徴を構造化されたテキストに変換する手法とデータ圧縮戦略を組み合わせた新しい大規模視覚言語モデル「FieldLVLM」を提案し、既存手法を上回る性能を実証したものです。
本論文は、バルク領域でのストークス流と表面でのビオト・キルヒホフ方程式に基づく多孔質弾性プレートが結合した 3 次元 -2 次元モデルの解析と、安定した仮想要素法による離散化、収束性の証明、およびシリコンナノポーア膜を用いた免疫隔離シミュレーションへの応用を提案するものである。
本論文は、不確実な嵌合タイプと嵌合量を有するバッチ精密組立タスクに対し、力・視覚融合制御駆動のマルチタスク強化学習と教師政策蒸留を用いて、複数のサブタスクに対応する堅牢でコンプライアンス性の高い統合制御戦略を構築する手法を提案し、実機実験で高い成功率と力制御性能を実証している。
この論文は、グラフに基づく決定性多項式時間アルゴリズムと、局所的な非実行可能性の剪定による大域的整合性の維持という手法を用いて、NP 問題を決定性多項式時間で決定可能であると主張し、P=NP の証明を提示するものである。
この論文は、単一の RGB 画像から未見の物体カテゴリの 9 自由度姿勢を推定する新たな単一段階のトランスフォーマーベースの手法「YOPO」を提案し、追加データや深度情報なしで既存の RGB 専用手法を凌駕する性能を達成したことを報告しています。
この論文は、正規化と超系列アプローチの長所を統合し、トラフィックのクラスタリングに基づいてパディングパラメータを動的に調整することで、高いプライバシー保護を保証しつつオーバーヘッドを最大 99% 削減する新しいウェブサイト指紋防御フレームワーク「Adaptive Tamaraw」を提案しています。
LLM と検索ベースのテストを組み合わせることで、バグ修正パッチと関連する課題からバグ再現テストを自動生成するツール「BLAST」を提案し、既存手法を上回る成功率を達成するとともに、GitHub ボットによる実世界での展開を通じて開発者へのフィードバックや課題を明らかにした。
この論文は、ロボティクス応用に不可欠な高速かつ効率的な 3 次元再構成を実現するため、関心領域(POI)に特化した粗から細への最適化フレームワーク「CoRe-GS」を提案し、背景の計算を削減しながら浮遊ノイズを抑制し、再構成品質と訓練速度を同時に向上させる手法を提示しています。
この論文は、静的型付け言語を対象とした大規模な実証研究を通じて、GitHub の公開リポジトリにおける浮動小数点演算の使用状況を初めて包括的に分析し、既存のベンチマークと実世界のコードの類似点と相違点を明らかにするとともに、1000 万個の浮動小数点関数からなるデータセットを公開して将来の技術開発を支援することを目的としています。
この論文は、大規模言語モデルを活用して制約付き進化アルゴリズムの更新則を自動生成・進化させる「AwesomeDE」を提案し、標準化されたプロンプト設計フレームワーク「RTO²H」を通じて、既存手法を上回る計算効率と解の精度、および高い汎用性を実現したことを示しています。
本論文は、通信や中央制御なしに、複数の足型ロボットが物体を物理的接触のみで挟み、持ち上げ、移動させることを可能にする階層的方策と報酬設計を提案し、シミュレーションおよび実機実験でその有効性を示すものである。
この論文は、非西洋の文脈における社会的利益のための AI 開発において、技術的専門性よりも開発者とドメイン専門家との協働が重要であり、6 つの要因と 3 つの影響を踏まえた 12 のガイドラインを提示しています。
この論文は、人手に依存するサンゴの産卵計測の課題を解決し、大規模なサンゴ礁の修復を可能にするため、低コストなカメラと人間によるラベル付けを組み合わせた物体検出技術を用いて、サンゴの産卵と幼生を自動的に検出・分類・計数する「CSLICS」と呼ばれるシステムを提案し、その有効性を検証したものです。
この論文は、深層ビジョンネットワークにおける概念の符号化と復号を担う方向性ペアを、特徴再構成に依存しない教師なし手法で復元し、モデルの解釈性向上や誤り修正などの応用を可能にする新たなアプローチを提案するものである。