首页 » 机器学习实战 » 机器学习实战全文在线阅读

《机器学习实战》A.5 Mrjob

关灯直达底部

Mrjob用于在Amazon网络服务上启动MapReduce作业。安装mrjob与Python中其他模块一样方便:打开https://github.com/Yelp/mrjob,在页面左边可以看到“ZIP”按钮,点击该按钮下载最新的版本。用unzip和untar解压文件,进入到解压目录后在Python提示符下输入:

>python setup.py install  

GitHub已经列出了很多代码的样例。此外还有一个不错的网站http ://packages.python.org/mrjob/ 也提供了一些Python的官方文档。

在AWS上正式使用mrjob之前,需要设置两个环境变量: $AWS_ACCESS_KEY_ID$AWS_SECRET_ACCESS_KEY。它们的值应该设置成你的账号(如果你拥有账号的话),该账号信息可以在登陆AWS后,在Account > Security Credentials页面看到。

下面来设定一下这些环境变量,打开命令行提示符,输入以下命令:

>set AWS_ACCESS_KEY_ID=1269696969696969   

验证一下是否有效:

>echo %AWS_ACCESS_KEY_ID%    

同样的方法可以完成AWS_SECRET_ACCESS_KEY的设置。

如果要在Mac OS X上设置这些环境变量,打开终端窗口(新版本的OS X使用bash命令行),输入以下命令:

>AWS_ACCESS_KEY_ID=1269696969696969 >export AWS_ACCESS_KEY_ID    

同样的方法可以完成AWS_SECRET_ACCESS_KEY的设置,注意字符串不需要引号。Ubuntu Linux也默认使用bash命令行,所以上述Mac OS X命令也同样适用。如果读者使用的是其他命令行,请自行查找相应的环境变量设置方法,不会很难。