Mrjob用于在Amazon网络服务上启动MapReduce作业。安装mrjob与Python中其他模块一样方便:打开https://github.com/Yelp/mrjob,在页面左边可以看到“ZIP”按钮,点击该按钮下载最新的版本。用unzip和untar解压文件,进入到解压目录后在Python提示符下输入:
>python setup.py install
GitHub已经列出了很多代码的样例。此外还有一个不错的网站http ://packages.python.org/mrjob/ 也提供了一些Python的官方文档。
在AWS上正式使用mrjob之前,需要设置两个环境变量: $AWS_ACCESS_KEY_ID
和$AWS_SECRET_ACCESS_KEY
。它们的值应该设置成你的账号(如果你拥有账号的话),该账号信息可以在登陆AWS后,在Account > Security Credentials页面看到。
下面来设定一下这些环境变量,打开命令行提示符,输入以下命令:
>set AWS_ACCESS_KEY_ID=1269696969696969
验证一下是否有效:
>echo %AWS_ACCESS_KEY_ID%
同样的方法可以完成AWS_SECRET_ACCESS_KEY
的设置。
如果要在Mac OS X上设置这些环境变量,打开终端窗口(新版本的OS X使用bash命令行),输入以下命令:
>AWS_ACCESS_KEY_ID=1269696969696969 >export AWS_ACCESS_KEY_ID
同样的方法可以完成AWS_SECRET_ACCESS_KEY
的设置,注意字符串不需要引号。Ubuntu Linux也默认使用bash命令行,所以上述Mac OS X命令也同样适用。如果读者使用的是其他命令行,请自行查找相应的环境变量设置方法,不会很难。