A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR
本文提出了一种结合改进版 YOLOv8 目标检测与 ViT+BanglaBERT 视觉语言模型的鲁棒深度学习框架,通过两阶段自适应训练策略,在复杂光照和布局条件下实现了高达 97.83% 的孟加拉语车牌识别准确率。
3447 篇论文
本文提出了一种结合改进版 YOLOv8 目标检测与 ViT+BanglaBERT 视觉语言模型的鲁棒深度学习框架,通过两阶段自适应训练策略,在复杂光照和布局条件下实现了高达 97.83% 的孟加拉语车牌识别准确率。
本文介绍了 SpecOps,一种专为真实世界 GUI 环境设计的完全自动化 AI 代理测试框架,它通过四个由大语言模型专家代理处理的阶段,在成本和时间效率上优于现有基线,并成功检测出大量真实缺陷。
本文提出了 HiFIVE 框架,通过形式化可视化感知瓦片约简问题并设计基于信息论与空间准则的两阶段筛选稀疏化算法,实现了在 TB 级规模下兼顾高保真度与交互性能的可扩展客户端地理空间可视化。
该论文提出了一种面向嵌入式系统的后量子熵即服务(QEaaS)架构,通过将量子随机数生成器与 ESP32 设备经由后量子安全通道连接,并集成 ML-KEM 与 ML-DSA 等算法,实现了在资源受限设备上比传统经典方案更高效的熵注入与密钥交换。
该论文提出了一种名为 UF-OPS 的无需更新策略参数的在线引导方法,通过训练基于初始评估数据的验证器来预测动作成功概率并实时引导策略,从而在不修改基础模型的情况下显著提升了机器人(特别是黑盒扩散策略)在真实任务中的成功率。
本文研究了基于图 metric 偏好的即时 runoff 投票(IRV)机制,证明了在树形图上多项式时间内可求解排除区验证与最小化问题,同时指出满足强强制淘汰性质的通用规则下这些问题是 NP 难的,并进一步分析了 IRV 在此离散设定下的效用扭曲界限。
本文提出了名为 DeepIntuit 的框架,通过结合冷启动监督对齐、基于 GRPO 的强化学习推理优化以及直觉校准阶段,将开放实例视频分类从传统的特征模仿转变为内在推理,从而显著提升了模型在复杂多变数据分布下的泛化能力。
本文提出了名为 ReST-RL 的分层强化学习架构,通过解耦双足步态与负载稳定控制,在仿真与 Unitree G1 人形机器人硬件上实现了高成功率、零样本泛化的平稳托盘运输任务。
该研究利用过渡网络分析(TNA)处理 40 名临床医生在 VR 心脏骤停模拟中的眼动数据,揭示了不同角色(如气道管理、心肺复苏、除颤和团队领导)的视觉注意力如何随临床需求动态调整,从而为理解团队情境意识和优化急救培训提供了新的分析视角。
该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架,通过正交矩阵投影嵌入秘密信息,并引入潜空间优化与反向欧拉反演技术以最小化重构误差,从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率,展现出卓越的鲁棒性与安全性。
该论文通过实证基准测试揭示了生成式 AI 水印中空间域与潜在域存在互斥的数学正交脆弱性,证明了单一域水印无法抵御现代对抗性工具,从而确立了构建多域密码架构的紧迫性。
本文提出了一种名为 FC-4DFS 的频率控制方法,通过引入频率控制 LSTM 网络、时序一致性损失以及基于交叉注意力的多层身份感知位移网络,实现了在 CoMA 和 Florence4D 数据集上具有高度灵活性和平滑度的 SOTA 级 4D 面部表情序列生成。
该论文提出了名为"Fuel Gauge"的首个方法,通过提取隐藏参数在推理前预测大型多模态模型的思维链长度,从而有效解决显存碎片化问题并优化推理精度。
本文提出了一种名为 LM-4DGAN 的生成模型,通过利用中性地标引导、引入身份判别器与地标自编码器以及交叉注意力机制,实现了在保持身份鲁棒性的同时合成 4D 面部表情。
AgentServe 是一种专为消费级 GPU 设计的单卡推理系统,通过算法与系统协同设计(如隔离预填充与解码、动态预算及自适应 CUDA 资源分配),有效解决了多智能体工作负载下的资源争用问题,显著提升了延迟稳定性与吞吐量。
本文提出了 EmoStory,一种通过两阶段框架(包含基于智能体的情感规划与区域感知生成)来实现情感导向、主体一致且视觉连贯的图像故事生成的新方法,并在新构建的数据集上验证了其优于现有技术的性能。
该论文提出了一种基于参数化平衡流形的统一框架,通过结合混合推理策略(触觉 SLAM)与自适应刚度控制,实现了在视觉遮挡和触觉欠定条件下对工具介导交互的鲁棒感知、在线规划及闭环操纵。
该论文针对大语言模型注意力计算中因头间稀疏度差异导致的跨 GPU 资源气泡问题,提出了一种名为 S-HPLB 的稀疏感知头并行负载均衡策略,通过自适应分配稀疏预算,在保持推理质量的同时将平均注意力计算延迟降低了 2.88 倍。
StyleGallery 提出了一种无需训练且具备语义感知能力的个性化风格迁移框架,通过语义区域分割、聚类区域匹配及风格迁移优化三个核心阶段,有效解决了现有方法在语义对齐、额外约束依赖及全局 - 局部特征平衡方面的局限,实现了基于任意参考图像的高质量风格迁移。
该论文提出了一种名为“一符双命”的统一框架,通过协同利用增强视觉令牌与剪枝视觉令牌分别强化视觉表征和构建潜在空间负样本,以训练-free 的方式有效平衡多模态大模型的视语关系并显著抑制幻觉。