在线拍卖网站易贝开发了一种名为麒麟的数据库技术,该公司声称该技术可以支持在Hadoop上快速查询PB级数据存储。EBay并不像谷歌和脸书那样是一家大数据公司,但通过使用Hadoop等技术,它已经达到了相当大的规模。麒麟就是一个很好的例子,说明它在这个领域的创新已经走在了前面。
周三在易贝的一个博客上,我分享了Kylin的细节,包括REST API,ANSI-SQL兼容性,连接分析工具Tableau和Excel,以及一些查询的亚秒级延迟。然而,麒麟最独特的特点是它如何处理规模。根据易贝的说法,它可以在高达14TB的数据集上查询数十亿行数据——,这比使用传统的ApacheHive工具要快得多。
麒麟的工作水平非常高,它从Hive获取数据;用MapReduce预处理大型查询;然后将这些结果作为键值存储在HBase上。当用户运行带有一组特定变量值的Kylin查询时,结果已经准备好,不需要重新处理,这与使用多年的分析数据库完全不同。
以下是麒麟在易贝分享的公司中的使用情况:
麒麟开业时,我们已经有一些易贝业务部门在生产中使用它。我们最大的用例是由120亿条源记录生成的14tb立方体。其90%的查询延迟小于5秒。现在,我们优艾设计网_PS论坛的用例面向分析师和业务用户,他们可以通过Tableau轻松分析,得到结果——,不再需要Hive查询、shell命令等。
了解下一个版本的Hive、Spark SQL以及Hadoop SQL分析的其他选项中,Kylin会赢谁会很有意思。麒麟,作为纱探索者的一部分,可以在最新版本的ApacheHadoop中获得。我猜它会慢一些,但它比内存选项或那些不需要MapReduce处理的选项更具可扩展性,但对于仍在运行早期软件版本的用户来说,它可能是一个可靠的选择。
精彩评论