首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》C.1 概率论简介

关灯直达底部

概率(probability)定义为一件事情发生的可能性。事情发生的概率可以通过观测数据中的事件发生次数来计算,事件发生的概率等于该事件发生的次数除以所有事件发生的总次数。下面举出一些事件的例子。

  • 扔出一枚硬币,结果头像朝上。
  • 一个新生婴儿是女孩。
  • 一架飞机安全着陆。
  • 某天是雨天。

观察上述事件,下面分析一下如何计算它们的概率。例如我们收集到美国五大湖地区的一些天气数据,在该数据里,天气被分成三类:{晴天、雨天、雪天},如表C-1所示。

表C-1 五大湖地区去年冬天的天气观测数据

编 号星 期 几华 氏 度天 气1120晴2223下雪348下雪4530晴5140下雨6242下雨7340晴

我们可以借用该表估计出当地的天气是下雪的概率。表C-1的数据只有7个观察值,并且观察时间也不连续,但这是目前所能获得的所有数据。如果将事件的概率记做P(事件),那么天气是雪天的概率P(天气=下雪)可以用下式计算:

这里将上述概率记做是P(天气=下雪),但天气是唯一能取到“下雪”这个值的变量,所以此概率还可以简写为P(下雪)。根据概率的基本定义,我们继续计算出天气=下雨的概率和天气=晴的概率。请读者自行检查一下是否有P(下雨)=2/7和P(晴)=3/7。上文介绍了如何计算变量取到某个特定值的概率,若需要同时关注多个变量应该怎么办呢?