粗读《机器学习》

最近在研究老师的《 通用的建模协作框架和感知分布式网络行为 》论文,由于之前没有学过机器学习,读了几遍仍然有很多疑惑,于是偶尔从一术语“模型参数”得知论文涉及机器学习内容,于是决定研究一下机器学习。在网上搜索一遍之后以及询问了学过的同学,大多推荐先去看机器学习的视频,然后再去看书,但众所周知,看视频是一种非常低效的学习方法,所以看了两个视频我就没有继续看下去了,一是没有中文字幕,一边翻译一边理解感觉大脑有些忙不过来,因此最终选择了备受推崇的“西瓜书"——《机器学习》。

”西瓜书“不愧是机器学习入门书籍,整篇下来通俗易懂,很多概念都很容易掌握,但深究的话也很有难度,不说去做后面习题,就说那繁多的公式推导和诸多算法也让人望而却步。以博主的知识储备,在机器学习方面的路程也仅限于听过“机器学习”四个字,其余就是编程知识了,以下就是我读这本书的一些零五,内容较为浅显,读者莫要见怪。

所谓机器学习,分监督学习和无监督学习。监督学习是值,给定一个样本一大堆属性,再给这个样本贴个标签,用西瓜书的例子就是,给定西瓜的属性,标签就是”好瓜“或者”坏瓜“,然后学习机器就对这些样本进行学习,然后学到一个算法用于区分哪些是好瓜哪些是坏瓜。区别于监督学习的关键是标签,无监督学习就是”无标签学习“,也就是说,在不知道是什么瓜的情况下进行分类。

机器学习到一个算法之后就会存在一些问题,其中就有”过拟合“和”欠拟合"。过拟合是指算法对好瓜的辨别太严格,以致于把一些好瓜当作坏瓜。而欠拟合相反,是指算法对好瓜的辨别太松散,以致于不好的瓜也归类为好瓜。通常欠拟合容易解决,而过拟合则比较棘手,于是各位学术界的大人物纷纷发明一些算法来解决此类问题。

所以从上述来说机器学习就是处理分类问题,二分类或者多分类。其实机器学习还能处理回归问题,也就是说机器学习可能能够预测股票的涨跌趋势,但我们介绍一种就行了。所以说把算法设计出来就行了吗?不然。

除了算法,机器学习还包括训练一些算法性能评估,于是专家们又捣鼓出一大堆算法公式为机器学习做性能评估以及训练样本分离。总而言之,机器学习包括,训练->模型学习->性能评估这三大步骤,其中涉及很多理论算法就不多说了。

博主论文理解的进步:在学习机器学习的过程中,对论文中提及的EM算法有一定的理解,对HMRF模型的理解进一步增加了,此外对于模型参数计算方法也算是全部领悟了。因此,学习《机器学习》是对《通用的建模协作框架和感知分布式网络行为》进一步理解的正确一步,虽然还仅仅停留在理论层面,但理论之于实践如同地基之于房屋,是至关重要的。

  • 粗读《机器学习》已关闭评论
    A+