更新时间:03-18 上传会员:小蚊子
分类:工业大学 论文字数:10523 需要金币:2000个
摘要:文档图像的文种识别就是对采集到的图像样本进行分析处理,从而自动识别图像样本所属的文种类别。文种识别技术在许多领域发挥着重要的作用。大连市作为海岸城市,与周边地区贸易往来密切,同时我国沿海地区情况与大连相似,因此识别中文、蒙语、韩语、日语、英语这5种语言具有重要的研究意义和实用价值。
本文利用HOG特征提取方法对采集样本进行处理,再利用支持向量机(SVM)对采集样本进行识别。研究内容如下:
(1)五种语言文档图像库。通过网络和截图工具采集格式为JPG的图片样本,每种100个,并分类存储。
(2)HOG特征提取。针对样本特点,采用HOG特征提取方法,将采集样本的特征向量提取出来。
(3)构建分类器。由于采用了HOG特征提取方法,鉴于HOG与支持向量机相结合的应用广泛且实用性强,因此分类器决定采用支持向量机对提取的特征进行分类。
在本次课题采集的图像库中随机抽取一副图片,直接识别出该图片中文字所属类别,准确率为84.2%,说明本次课题采用HOG和SVM结合的方法是可行的且具有较高精度。
关键词:文种识别;HOG特征;支持向量机
目录
摘要
Abstract
1 绪论-1
1.1 课题背景与研究意义-1
1.2 国内外研究历史及现状-2
1.3 课题研究内容-3
1.4 课题研究目标-3
1.5 文章结构-3
2 课题相关软件介绍-5
2.1 Matlab软件-5
2.1.1 Matlab基本简介-5
2.1.2 Matlab的工作环境-6
2.1.3 Matlab的优势特点-6
2.1.3 Matlab的系统结构-6
2.1.4 Matlab图像处理工具箱简介-7
2.2 VisualStudio软件-8
2.2.1 VisualStudio简介-8
2.2.2 VisualStudio环境搭建-8
3 课题算法-9
3.1五种语言文档图像库-10
3.2 HOG特征提取方法-10
3.3 支持向量机分类器-13
4 课题仿真实验-14
结 论-20
参 考 文 献-21
致 谢-22