阿里巴巴在11月6日宣布,其大数据团队开发的实时数据计算平台Galaxy目前每秒拥有超过500万条运营数据。预计每秒操作数将超过1000万条,每天处理的消息数将超过1万亿条。对于每笔交易数据,系统都会实时反复检查70多次,确保数据质量。
一分钟成交额突破1亿,1000多万人涌入天猫。这是2013双十一购物狂欢节的第一分钟。这些数据在杭州淘宝城的大屏幕上实时播放。在大屏幕上跳动的每一个数字,都来自于阿里内部60多个系统的紧密配合:在你以最快速度秒杀双十一热销产品的同时,这些系统已经完成了无数轮的数据采集、传输、处理、计算和对页面的反馈。这是阿里未公开的技术——如何在保证数据质量的前提下实现实时计算?
Galaxy是阿里巴巴开发的通用增量计算平台,可以提供从分钟级延迟到秒级甚至毫秒级的实时数据计算能力。Galaxy解决了计算通用性、开发成本、数据质量等诸多问题,提供了可扩展、大规模的集群服务能力。
目前,Galaxy每秒可计算500万条数据,每天处理的记录数超过2500亿条,每天的数据处理量接近2PB。想象一下:当你还在想10241024等于多少的时候,Galaxy已经得到了数据,完成了计算,并在这一秒内交出了500万次的结果。今年双十一,用户浏览、交易、移动应用等产生的数据量。会大规模增加。那一天,Galaxy的计算量预计将超过每秒1000万条,每天处理的消息数将超过1万亿条。
阿里巴巴数据质量团队介绍:“银河不仅要计算快,还要保证不会错。”除了Galaxy,阿里还开发了一个可以实时检测线上数据的系统,可以在一秒钟内完成从数据生成到验证的过程,每笔交易都可以实时建议70多次,确保双十一的数据不会出错。
例如,一个美国用户在“双十一”活动中下了订单,并且刚刚支付了费用。可能是由于国际网络突然中断,“已付费”状态数据没有传回。此时,买方可能会被呈现“交易失败”的状态。但是,通过实时数据检测系统,可以在消费者发现问题之前报警。或许,这个问题在消费者回心转意之前就已经得到了纠正,他们并没有觉得‘交易失败’曾经发生过。
此外,Galaxy还设计了数据“防漏”措施,可以保证即使服务器突然宕机,数据也不会丢失,快速恢复后继续工作。想象一下:如果你晚上约朋友看电影,突然发高烧晕倒,正常情况下,你要去医院治疗,还要休息好几天。银河不仅可以自我修复,还可以把时间转回那天晚上,你和朋友继续看电影的时候。
目前,Galaxy已逐步支持阿里巴巴集团大部分实时服务和应用,包括淘宝、天猫、阿里巴巴云、菜鸟、巨化、无线、搜索、广告、数据立方体等服务提供实时计算服务优艾设计网_电脑技术。
精彩评论