无监督学习
unsupervised learning
定义:对没有类别标记的样本进行学习,学习目的通常是发现数据内在结构,典型任务是聚类和降维。
学科:计算机科学技术_人工智能_机器学习
相关名词:监督学习 半监督学习
图片来源:视觉中国
【延伸阅读】
无监督学习是机器学习的一种方法,和监督学习相对应。在实际应用中,监督学习要求在训练中为每个样本提供预测量的真实值,即对训练样本进行标记,这在有些应用场合是有困难的。比如在医疗诊断中,如果要通过监督学习来获得诊断模型,就需要请专业的医生对大量的病例及它们的医疗影像资料进行精确标注,这需要耗费大量的人力,且效率很低。在这种情况下通常使用无监督学习方法,即在不提供监督信息(预测量的真实值)的条件下进行学习。
在非监督学习中,所有数据没有标记,但是这些数据会呈现出聚群的结构,相似类型的数据会聚集在一起。把这些没有标记的数据分成一个个组合,就是聚类。聚类法可以应用于商品推荐、景区提取、新闻分类、异常检测等。
在机器学习领域,降维是指在某些限定条件下,降低随机变量个数。降维可进一步细分为变量选择和特征提取两大方法。变量选择是指当数据中包含大量冗余或无关变量时,在原有变量中找出主要变量,从而简化模型,使之更容易被机器学习。当一个算法的输入资料过于复杂,变数数量过多时,适当的特征提取是机器学习构建有效模型的关键。特征提取是从原始资料中构建富含资讯性且不冗余的特征值,它可以帮助接续的学习过程和归纳步骤,初始的资料集合被降到更容易管理的族群(特征)以便于学习,同时保持描述原始资料集的精准性与完整性。
近年来,半监督学习的学习方式也受到了广泛关注。半监督学习介于监督学习与无监督学习之间,它要求对小部分的样本提供预测量的真实值。这种方法通过有效利用所提供的小部分监督信息,通常可以获得比无监督学习更好的效果,同时也把获取监督信息的成本控制在可以接受的范围。
来源:学习强国
排版:高昕云
责编:王海英
审核:马晓东