资 源 简 介
半监督学习研究的主要内容就是如何高效的利用少量标记数据和大量的未标记数据来训练分类器。相比监督学习半监督学习能够得到更高的性价比,因此半监督学习在理论和实际在运用中均受到了广泛关注。最早在训练中运用未标记数据的想法(Self-Training)是[4]:首先利用标记数据集训练出初始分类器,使用该分类器对一些未标记数据进行标记,将可信度最高的一些标记新示例放入到标记数据集中再在新标记数据集上进行下一次训练直到满足截止条件为止(e.g.,Scudder(1965);Fralick(1967);Agrawala(1970))。在这里未标记数据被用来修正和提高分类器的准确率。由于初始分类器总是一个弱分类器,self-training不断地利用上次迭代过程中训练得到的分类器来对未标记数据进行分类并将分类结果加入下次迭代的训练过程中的做法,将会导致self-training算法不断累积自身的分类错误最终造成分类器分类效率不高。
在Self-Training的基础上Blum&Mitchell(1998)提出了由两个分类器协同训练的算法Co-Training。它利用两个分类器协同训练由单个分类器产生的新标记数据将会加入到另一分类器的下次迭代训练过程中作为新加入的标记数据。在此之后,很多学者在Co-Training的基础上进行了一系列的改进并提出了相应的算法(如:Tri-Training,CoFroest,CoTrade)。