此前总是听人说起Google行星级别的存储系统,没有仔细搜索,上周被人问到,好真有些晕。昨晚研究了一下,才弄明白原委,实际上所谓行星级的分布式存储系统就是可以在地理上分布的数据中心中的存储系统之间复制数据,考虑到在节点较多,数据量较大的情况下,数据同步就必须采用增量式数据同步,这是异地多个存储系统能够当做一个系统来提供服务的关键,这个专利很可能和Spanner有关系,Spanner的设计目标是多数据中心,10M节点。以前Yahoo有个pnuts项目,也支持多数据中心的数据同步,场景比较类似。按照Google的定义来说,pnuts也是行星级存储系统了,其他支持多数据中心的系统也是如此。
这个所谓行星级存储系统被Google于2011年8月Google申请的分布式存储系统专利所描述,下面这个图来自专利文本,应该就是行星级的由来了。
下图是单个系统Instance的构成
此前还听说过Google定义了各种级别的存储系统,但是在Google其他的文献中,仅看到3个级别:单节点,集群,行星级。
相关信息:
http://sgimpact.com/pages/1308357-google-s-planet-scale-distributed-storage-patents
http://www.seobythesea.com/2011/08/googles-planet-scale-distributed-storage-patents/
《行星级的存储系统(Planet-Scale Storage System)是啥?》有1个想法