安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

CRAFTS端对端的场景文本检测器

7月27日 霸王亭投稿
  场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用RoIpooling来让这些分支共享一个视觉特征。然而,当采用使用基于注意力的解码器和表示字符区域空间信息的检测器时,仍然有机会在模块之间建立更互补的连接。这是可能的,因为这两个模块共享一个共同的子任务,即查找字符区域的位置。
  在此基础上,构建了一个紧密耦合的单管道模型。该体系结构是通过利用识别器中的检测输出并通过检测阶段传播识别损失而形成的。字符得分图的使用有助于识别器更好地关注字符中心点,并且将识别损失传播到检测器模块,增强了字符区域的定位。此外,一个加强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量的实验证明了在公开可用的水平基准集和弯曲基准数据集的最先进的性能。CRAFTS算法原理:
  CRAFTS可以分成3个阶段:检测阶段、共享阶段和识别阶段,详细的网络结构如图所示。
  检测阶段
  获取一个输入图像,并定位面向方向的文本框。共享阶段,然后汇集backbone的高级特性和检测器输出。然后使用校正模块对合并后的特征进行校正,并连接在一起形成一个角色参与特征。在识别阶段,基于注意力的解码器使用字符参与的特征来预测文本标签。最后,一种简单的后处理技术可选地用于更好的可视化。
  检测阶段
  CRAFT检测器作为基础网络,因为它能够表示特征区域的语义信息。工艺网络的输出代表了特征区域的中心概率和它们之间的联系。CRAFTS认为这个以字符为中心的信息可以用来支持识别器中的注意模块,因为这两个模块都旨在定位字符的中心位置。在这项工作中,对原始工艺模型进行了三个修改;backbone替换、链路表示和方向估计。共享阶段
  该阶段主要包含二大模块,文本纠正模块和字符区域注意力(textregionattention,CRA)模块,使用薄板样条(TPS)变换去纠正任意形状的文本区域,文本纠正模块使用迭代TPS,以获得更好的文本区域表示。
  典型的TPS模块输入一张单词图片,但在这里提供字符区域映射和链接映射,因为它们包含了文本区域的几何信息,使用二十个控制点来紧紧覆盖弯曲的文本区域,将这些控制点作为检测结果,转换为原始输入图像坐标。可以选择执行二维多项式拟合来平滑边界多边形,迭代TPS和最终平滑多边形输出的例子如图4所示。
  CRA模块是紧密耦合检测和识别模块的关键部件,过简单地将修正后的字符得分映射与特征表示连接起来,该模型建立了以下优势。在检测器和识别器之间创建一个链接,允许识别损失在检测阶段传播,这提高了字符得分地图的质量。此外,将字符区域映射附加到特征上,有助于识别器更好地关注字符区域。识别阶段
  识别阶段有三个组成部分:特征提取、序列建模和预测。特征提取模块比单独的识别器更轻,因为它以高层语义特征作为输入。该模块的详细体系结构如表1所示。提取特征后,采用双向LSTM进行序列建模,并对基于注意的解码器进行最终的文本预测。
  在每个时间步骤中,基于注意力的识别器通过屏蔽注意力输出到特征来解码文本信息。虽然注意模块在大多数情况下都能很好地工作,但当注意点不对齐或消失时,它无法预测字符。图5展示了使用CRA模块的效果,合适的注意点能够稳健的进行文本预测。
  实验结果:
  实验采用如下几种数据集作为实验数据集:
  英语数据集IC13数据集由高分辨率图像组成,229个用于训练和233个用于测试。矩形框用于注释单词级文本实例。
  IC15由1000张训练图像和500张测试图像组成。四边形框用于注释单词级文本实例。
  TotalText拥有1255张培训图片和300张测试图片。与IC13和IC15数据集不同,它包含曲线文本实例,并使用多边形点进行注释。
  多语言数据集IC19数据集包含10000个训练和10000个测试图像。该数据集包含7种不同语言的文本,并使用四边形点进行注释。
  在水平数据集(IC13,IC15)上取得的实验结果如下表:
  水平数据集(IC13、IC15)为了针对IC13基准,采用在SynthText数据集上训练的模型,并对IC13和IC19数据集进行微调。在推断过程中,我们将输入的长边调整为1280。结果表明,与之前最先进的作品相比,其性能没有显著提高。
  然后,在IC13数据集上训练的模型在IC15数据集上进行微调。在评估过程中,模型的输入大小设置为2560x1440。请注意,在没有通用词汇集的情况下执行通用评估。表2列出了IC13和IC15数据集的定量结果。
  CRAFTS的方法在一般任务和弱上下文化端到端任务中都优于以前的方法,并在其他任务中显示出类似的结果。通用性能是有意义的,因为在实际场景中没有提供词汇集。请注意,CRAFTS在IC15数据集上的检测分数略低,在强语境化结果中也观察到低性能。检测性能相对较低的主要原因是粒度差异,稍后将进一步讨论。
  在曲边数据集(TotalText)上取得的实验结果如下表:
  曲线数据集(TotalText)从IC13数据集上训练的模型,实验进一步在TotalText数据集上训练模型。在推断过程中,CRAFTS将输入的长边调整为1920,整流模块的控制点用于检测器评估。定性结果如图7所示。字符区域图和链接图用热图表示,加权像素角度值在HSV颜色空间中可视化。如图所示,该网络成功地定位了多边形区域,并识别了曲线文本区域中的字符。左上角的两幅图显示了完全旋转和高度弯曲文本实例的成功识别。
  TotalText数据集的定量结果如表3所示。DetEval评估探测器的性能,修改的IC15评估方案测量端到端性能。CRAFTS的方法大大优于以前报道的方法。
  在多语言数据集数据集(IC19)上取得的实验结果如下表
  多语言数据集(IC19)使用IC19MLT数据集对多种语言进行评估。识别器预测层的输出通道扩展到4267,以处理阿拉伯语、拉丁语、中文、日语、韩语、孟加拉国语和印地语中的字符。但是,数据集中出现的字符并不是均匀分布的。在训练集中的4267个字符中,1017个字符在数据集中出现一次,这使得模型很难做出准确的标签预测。为了解决类别不平衡问题,CRAFTS首先在检测阶段冻结权重,并使用其他公开的多语言数据集(SynthMLT、ArT、LSVT、ReCTS和RCTW)在识别器中预训练权重。然后,CRAFTS让损失流经整个网络,并使用IC19数据集对模型进行调整。由于没有论文报告性能,结果与E2EMLT进行比较。IC19数据集中的样本如图8所示。
  结论:
  CRAFTS中提出了一个端到端可训练的单pipeline模型,它紧密地耦合了检测和识别模块,共享阶段的字符区域注意充分利用字符区域映射,帮助识别器纠正和更好地关注文本区域。同时,设计了识别损耗通过检测阶段传播,提高了检测器的字符定位能力。此外,在共享阶段的纠正模块使弯曲文本的精细定位,并避免了手工设计后处理的需要。实验结果验证了CRAFTS在各种数据集上的最新性能。
  参考文献:LiuCY,ChenXX,LuoCJ,JinLW,XueYandLiuYL。2021。Deeplearningmethodsforscenetextdetectionandrecognition。JournalofImageandGraphics,26(06):13301367(刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良。2021。自然场景文本检测与识别的深度学习方法。中国图象图形学报,26(06):13301367)〔DOI:10。11834jig。210044〕LiuXB,LiangD,YanS,ChenDG,QiaoYandYanJJ。2018c。FOTS:fastorientedtextspottingwithaunifiednetworkProceedingsof2018IEEECVFConferenceonComputerVisionandPatternRecognition。SaltLakeCity,USA:IEEE:56765685〔DOI:10。1109CVPR。2018。00595〕LiuYL,ChenH,ShenCH,HeT,JinLWandWangLW。2020。ABCNet:realtimescenetextspottingwithadaptivebeziercurvenetworkProceedingsof2020IEEECVFConferenceonComputerVisionandPatternRecognition。Seattle,USA:IEEE:98099818〔DOI:10。1109CVPR42600。2020。00983〕BaekY,ShinS,BaekJ,ParkS,LeeJ,NamDandLeeH。2020。CharacterregionattentionfortextspottingProceedingofthe16thEuropeanConferenceonComputerVision。Glasgow,UK:Springer:504521〔DOI:10。1007978303058526630〕
投诉 评论 转载

如何在加拿大申请中国签证StartingfromJune20,2022,theChineseEmbassyorConsulateGeneralinCanadawouldacceptthefollowi……为啥孩子动不动就哭?宝宝心里有苦衷,妈妈不知道孩子动不动就哭,是很多父母头疼的事情,特别是父母感觉孩子无缘无故地哭,父母更是心烦,控制不住自己的情绪,就免不了吼孩子、甚至打孩子。一位妈妈说,女儿两岁八个月了,有点啥事……CRAFTS端对端的场景文本检测器场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用Ro……金蝉新增兑换方式,10点券福利周活动重启,一生所爱露娜手办上七周年活动已经开启了一段时间,最近更是上架了王昭君的首款传说限定皮肤,还是AOV联名款。那么,除了皮肤之外,最近有哪些活动值得我们关注呢?先说最值得兴奋的一个内容,那就是……莫名被捧成老戏骨的演员,个个演技平平,年纪大不等于演技好不知从什么时候开始,电视荧幕逐渐被各种小鲜肉、小仙女占领。不过,尽管他们年纪轻、颜值高,但拉胯的演技还是让他们备受诟病。也正是因为这个原因,大家对于老戏骨们的爱戴日益加深……凯莉布鲁克被好莱坞评为最性感的女明星,但爱情不是一帆风顺她是一位热爱自然的女演员、主持人和模特,是海报的宠儿,并且拥有足够的英国魅力,让好莱坞的大佬们大吃一惊。凯莉布鲁克不会因为一件事而闻名她的七年之痒。因为在杂志的最性……摩根士丹利印度经济2027年将成世界第三来源:环球时报【环球时报综合报道】金融服务公司摩根士丹利预测,2027年印度有望成为世界第三大经济体。据英国《金融时报》9日报道,摩根士丹利亚洲首席经济学家阿希亚称,未来……450岁的男人,为什么不敢穿牛仔裤?原因有三点,穿对了才时髦说到牛仔裤,相信大家对它都不陌生。作为时装界的常青树,牛仔裤属于经典不过时的那类单品,十分受到人们的喜爱。但是,很多40、50岁的中国男人,却不敢穿牛仔裤,这是为什么呢?……10亿豪宅遭2000座贫民窟围困,印度土豪气急败坏好汉不吃眼近日,国际货币基金组织(IMF)数据显示,印度成功超越殖民时期的老主子英国,成为仅次于美中日德的世界第五大经济体。印度作为四大文明古国之一,人口、矿产、耕地等生产资料十分……降糖药达格列净有两大优势,适用3种病症,注意2点放心服用随着年龄的增长,各种疾病也会相继出现。大家应该都听说过糖尿病,这种疾病在外观上表现为发胖。其实,现在社会发展速度较快,大家的生活水平也逐步提高。在饮食方面,可能有些人不注重营养……锐评联想推出VR700,赶上了第二次VR爆发的风口近日,联想旗下的拯救者品牌发布了首款VR头显产品VR700,首发价2999元,目前该产品已经正式开售。外观方面VR700采用帽戴式设计,且精心优化了前后重量,使得消……无固定期限劳动合同是洪水猛兽吗?近日,一位自称小米被裁员工在微博发文,控诉小米裁员行为。这两年,腾讯、京东、阿里巴巴等互联网大厂都曾因为裁员争议登上过热搜。大都是围绕经济裁员或不公正待遇上,而此次小米裁员则聚……
457记三分!业余联赛爆发小托马斯打出身价,老鹰三少迎来首秀得了狐臭怎么办?这几点要注意到胡歌四十而有惑,用真诚和足够的专业度,寻求突破冬天,不管男女每天吃它,比老母鸡更有营养,还能益气补脑2022年外媒眼中最好的旗舰手机!ROG6获多个大奖,年货节2022年换手机,不能错过这4款12256GB机型,大内存才强强对话!7场不败国安欲复仇两场硬仗踢好或可跻身三甲时髦有型下午16时起,北京迎假期返程高峰,高速路进京方向压力较大电池板的智慧管家能环宝NiOS智能光伏管理系统换汤不换药?新周期女排教练组分工明确,对比郎平时代3变1不变懂事这个词,是对失望和习惯的接受

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利