2013年4月,Sahara项目(当时名为Savanna)由Mirantis公司(最大的OpenStack系统集成商)创建,随即先后获得了RedHat公司(全球领先的开源解决方案及最新版OpenStack的最大贡献方)和Hortonworks公司(领先的Apache Hadoop贡献方)的支持与参与。项目目标是致力于共同在OpenStack上实现Apache Hadoop,使OpenStack用户能够简单、快捷地部署和管理弹性Hadoop集群,加快Hadoop在OpenStack上的开发和部署进程。
Sahara项目发展较快,在创立半年多后的香港峰会上已成为OpenStack incubation项目。2014年3月19日,Sahara从OpenStack孵化项目顺利毕业,并从OpenStack Juno版本开始作为OpenStack核心项目之一。
Sahara版本演进如下所示,详细信息可参阅OpenStack官方网页。
1)Juno版本特性
·通过服务器组实现反亲和力工作。
·加到远程现有文件。
·支持CDH Cloudera管理器插件。
·Sahara和Ceilometer的融合规范。
·在集群属性里存储Sahara配置。
·Sahara的安全组管理。
·从Sahara外部回购EDP样例。
·[EDP模式特有]重构作业管理器以支持多种实现。
·[EDP模式特有]增加一个Spark作业类型(代替Java过载)。
·[EDP模式特有]增加Spark standalone部署引擎。
·[EDP模式特有]使用信任代表团的Swift鉴权模式。
·改进操作的错误处理。
·实现Sahara REST API的样例到doc文档的转换。
2)Kilo版本特性
·在Sahara中增加CM API库。
·添加更多服务作为CDH插件。
·在集成测试中添加检查服务测试。
·支持授权策略。
·支持CDH HBase。
·对Cloudera插件更好的版本管理。
·支持CDH Zookeeper。
·为每个插件的默认模板。
·在Vanilla插件中删除对Hadoop 2.3.0的支持。
·在群集启动HDFS中添加一个共同的HBase库。
·[EDP模式特有]添加Oozie Shell Action作业类型。
·支持EDP JSON API的示例文件。
·[EDP模式特有]在作业配置中增加对DataSource标识符的选项支持。
·[EDP模式特有]改善Java类型的兼容性。
·[EDP模式特有]增加了一个新的job-type端点。
其中,2013年7月发布的0.2版已经基本实现了Hadoop集群创建及管理的基本功能。2013年10月发布的0.3版引入了数据分析即服务(Anlaytics-as-a-Service)功能。至此,Sahara已经初步具备BDaaS系统能力。目前,Sahara已经支持OpenStack版本Liberty。