监督学习的工作原理
为了更正式地描述监督学习问题,我们的目标是给定一个训练集,学习一个函数 h : X → Y,使得 h(x) 是 y 的相应值的“良好”预测器。由于历史原因,这个函数 h 被称为假设。因此,从图中可以看出,这个过程是这样的:
模型表示
当我们试图预测的目标变 巴西手机号码数据库 量是连续的(例如在我们的住房示例中),我们将学习问题称为回归问题。当 y 只能采用少量离散值时(例如,如果给定居住面积,我们想要预测住宅是房屋还是公寓),我们将其称为分类问题。
算法
有很多不同的算法可以解决不同类型的问题。算法没有对错之分,只是有些算法比其他算法更适用于某些问题。监督机器学习算法包括线性回归、逻辑回归、随机森林、KNN、决策树等。让我们了解这些机器学习监督学习算法的工作原理,
线性回归
线性回归只是根据连续变量估计实际值。用更专业的术语来说,我们通过拟合最佳线(房地产示例)来建立独立变量和因变量之间的关系。这条线称为回归线,用线性方程 Y = a*X + B 表示,其中,
Y — 因变量
a—坡度
X— 自变量
b— 拦截
线性回归
来源-analyticsvidya
此外,线性回归主要有两种类型:简单回归和多元回归。简单回归只有一个独立变量,而多元回归,顾名思义,有多个独立变量。
逻辑回归
逻辑回归是一种分类算法,不要与它的名称混淆。它根据独立变量估计离散值。由于它通过将数据拟合到逻辑函数来预测特定事件发生的概率,因此输出在 0 和 1 之间。
机器学习的一种形式
机器学习的一种形式来源-analyticsvidya
决策树
这是有史以来最受欢迎的算法。它主要用于分类问题,当然是具有预定义目标变量的监督算法。在该算法中,我们根据输入变量中最重要的区分因素将样本分成两个或多个子部分,这通过基尼系数、卡方、熵等各种技术完成。
决策树
来源-analyticsvidya
无监督学习——机器学习的第二种形式
与监督学习相反,无监督学习允许我们在几乎不知道结果应该是什么样子的情况下解决问题。我们可以从数据中得出结构,而不必知道变量的影响。
我们可以通过基于数据中变量之间的关系对数据进行聚类来得出此结构。使用无监督学习,不会根据预测结果进行反馈。例如,收集 1,000,000 个不同的基因,并找到一种方法将这些基因自动分组为在某种程度上相似或由不同变量(如寿命、位置、角色等)相关的组。这是聚类的一个很好的例子。而对于非聚类问题,例如“鸡尾酒会问题”,它有助于从鸡尾酒会上的声音网格中识别出声音音乐。
算法
无监督学习算法有助于解决各种问题,例如社交网络分析、天文数据分析等。谷歌新闻也在使用这种方法。神经网络是无监督学习的一部分。让我们了解一下它们是如何工作的。
K 均值(聚类)
聚类的目的是创建数据点组,使得不同聚类中的点不同,而聚类内的点相似。使用 k 均值聚类,我们希望将数据点聚类为 k 个组。k 值越大,创建的组越小,粒度越细;k 值越低,创建的组越大,粒度越细。