更新时间:06-15 上传会员:紫色烟火
分类:设计作品 论文字数:13616 需要金币:2000个
摘要:机器学习指的是计算机通过学习不断的优化算法,从而提高计算机统计和辨别事物等能力的学习。机器学习算法在不同的科学领域都有很高的作用和研究价值,许多机器学习算法需要计算输入数据样本之间的距离。用计算机进行距离测量的时候,输入样本数据是非常重要的步骤。如果监督信息可用,则距离函数选择本身就可以被认为是一个问题。也被称为度量学习。机器学习和度量学习是包含关系。度量学习是机器学习中非常重要的组成部分。度量学习主要研究的包括样本点的距离以及样本点的相似度。偏标记数据的度量学习是一种新的度量学习算法。偏标记数据的度量学习是近年来提出的一种新型弱监督机器学习框架,在该框架下进行算法构建不需要准确标注训练样本的真实类别,而只需知道它属于类别标记集合的某一子集。
本文对度量学习进行研究,然后对传统度量学习进行改进实现了偏标记数据的度量学习算法。与许多现有的度量学习算法相比,计算复杂的数据并且维数高时,需要解决一个优化问题,如果所提出的算法有一个封闭形式的解决方案,计算的时候会更有效。以此我们提出了一个线性距离度量学习算法。仿真实验表明,基于偏标记度量的 KNN分类算法比标准 KNN 算法的精度更高。
关键词:偏标记数据;度量学习;k近邻分类器;信息度量
目录
摘要
Abstract
1 绪论-1
1.1 本课题的背景及意义-1
1.2 国内外研究历史和现状-2
1.3 本文研究内容-3
1.4 本文组织结构-3
2 机器学习相关理论-5
2.1 K-最近邻分类(KNN)算法-5
2.2朴素贝叶斯(Naive Bayes)算法-6
2.3 C4.5 决策树分类算法-7
2.4 高斯过程分类算法-7
2.5 AdaBoost分类器-8
2.6 Adaboost(Adaptive Boosting)算法-9
2.6 The k-means algorithm聚类算法-10
2.7 Apriori算法-10
2.8分类与回归树-11
2.8.1分类树-11
2.8.2递归划分-11
2.9Logistic回归-12
3 度量学习相关理论-13
3.1 马氏距离-13
3.2 监督度量学习-13
4算法-15
4.1基本思想-15
4.2 距离度量学习算法-16
4.3 直线距离度量学习算法-16
5 仿真实验-19
5.1 仿真软件-19
5.2 仿真步骤-19
5.2.1 选取真实数据集-19
5.2.2 算法程序-20
5.2.3 运行结果-21
结 论-22
参考文献-23
致 谢-24