机器学习(1)

机器学习的基本概念、模型表示方法

基本概念

1959年,IBM科学家Arthur Samuel开发了一个跳棋程序。通过这个程序,塞缪尔驳倒了普罗维登斯提出的机器无法超越人类,像人类一样写代码和学习的模式。他创造了“机器学习”,并将它定义为“可以提供计算机能力而无需显式编程的研究领域”

1998年,卡内基梅隆大学的Tom MitChell给出了一种更为形式化的定义:假设用P来估计计算机程序在某任务类T上的性能,若一个程序通过利用经验E在任务T上获得了性能改善,我们则称关于T和P,该程序对E进行了学习。

通常,大部分机器学习问题都可以划分为监督学习(Supervised Learning)无监督学习(Unsupervised Learning)两类:

  • 监督学习:给定的数据集中已经包含了正确的输出结果,希望机器能够根据这些数据集学习一个模型,使模型能够对任意的输入,对其对应的输出做出一个好的预测。监督学习具体又可以分为:

    • 回归(Regression):将输入的变量映射到某个连续函数。
      例如,根据一些房间面积与其价格的对应数据,训练一个模型来预测某面积之下的房价:
      房价预测
    • 分类(Classification):将输入变量映射成离散的类别。
      例如,根据一些肿瘤大小与年龄的对应数据,训练一个模型来对良性、恶性肿瘤进行判断:
      肿瘤判断
  • 无监督学习:给定的数据集中不包含任何输出结果,希望机器通过算法自行分析而得出结果。无监督学习具体可以分为:

    • 聚类(Clusterng):将数据集归结为几个簇
      例如,将各种新闻聚合成一个个新闻专题。

    • 非聚类(Non-clustering)
      例如,将鸡尾酒会上的音乐声和人声分离。

模型表示

参考资料

  1. 吴恩达-机器学习-网易云课堂
  2. Andrew Ng-Machine Learning-Coursera
  3. 周志华.机器学习[M].北京:清华大学出版社,2016.
  4. 李航.统计学习方法[M].北京:清华大学出版社,2012.
  5. 机器学习简史-CSDN

注:本文涉及的图片及资料均整理翻译自Andrew Ng的Machine Learning课程及上述书籍、博客资料,版权归各作者所有。翻译整理水平有限,如有不妥的地方欢迎指出。


更新历史:

  • 2018.12.28 初稿完成
文章作者: Hugsy
文章链接: http://binweber.top/2018/12/26/machine_learning_1/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Sky Inside the Eyewall
支付宝打赏~
微信打赏~