研究成果

李岩、李斌阳:基于跨模态相似度学习的端到端不规则文本检索方法

作者:      来源:       发布时间:2023年12月28日
摘要:场景文本检索是指从场景中搜索并定位与给定文本相同或相似的文本实例。通过计算机视觉方法实现文本检索可以辅助用户在指定场景中自动找到感兴趣文本,因此被广泛应用于图像安全性审核、图书检索等领域。然而,在某些场景中文本时常呈现弯曲、压缩和拉伸等不规则形态,文本区域提取与匹配面临极大挑战。为了解决这一问题,建立了一个端到端网络模型,将不规则文本提取和跨模态相似度学习统一到一个框架内,利用学习到的相似度对检测的文本实例排序,从而实现对不规则文本的检索。在SVT,STR和CTR三个数据集的实验结果表明,与现有文本检索方法相比,提出的框架在推理速度保持3.7帧/秒的情况下平均准确率比现有最好方法提升1%~3%。为了进一步验证所提方法对于不规则文本检索的有效性,建立了一个新的不规则文本数据集AIDATA,并与STR-TDSL方法进行对比实验,结果表明,在推理速度降低不到20%的情况下可以将平均准确率提升25%以上。
基金资助:

国家自然科学基金(61976066); 北京市自然科学基金(4212031); 湖南省自然科学基金(2021JJ30870); 国际关系学院国家安全高精尖学科建设科研专项(2019GA43,2021GA07)~~;

  • 专辑:

    信息科技

  • 专题:

    计算机软件及计算机应用

  • 分类号:

    TP391.41