今年6月28日,MapR发布了一个基于GCE的非官方Terasort结果。1256个虚拟机节点,1256个磁盘,共计5024个core,在80秒之内完成了1TB数据的排序。这个结果和Yahoo的最佳结果62秒相比是有差距的,亮点是这个结果是在虚拟机上获得的,因此Google I/O大会上,这也成了GCE的一个亮点,在GCE主页下方的介绍中,数据分析和并行计算成了GCE的主要应用案例,可能也与此有关。
花时间整理了一下近年来一些Terasort的结果,Terasort主页上面只有Hadoop的结果,而MapR、Google、HPCC的结果并没有列出,因此虽然这些单位的结果很不错,但是信息不全,因此可比性不强,倒是Hadoop的结果较为让人信服。
Category | Record | Company | Year | 物理机 | Servers# | Core# | 主频(GHz) | RAM(GB) | Disk# | DiskType | Network |
1TB | 209 | Yahoo | 2008-07-02 | Y | 910 | 7280 | 2 | 7280 | 3640 | SATA | 1 Gbe |
1TB | 68 | 2008-11-22 | Y | 1000 | ? | ? | ? | ? | ? | ? | |
1TB | 62 | Yahoo | 2009-05-11 | Y | 1460 | 11680 | 2.5 | 11680 | 5840 | SATA | 1Gbe |
1TB | 80 | MapR | 2012-06-28 | N | 1256 | 5024 | 1.2 | 18840 | 1256 | ? | ? |
100GB | 130 | SGI/CDH | 2011-10-17 | Y | 20 | 160 | 2.5 | 960 | 80 | SATA | ? |
100GB | 98 | HPCC | 2011-12-12 | Y | 4 | 48 | 3 | 192 | 24 | SAS | ? |
一些简单的结论:
- Hadoop的优化能力比Google差了50%左右,与此前某专家的理解差距很大
- 其中HPCC用4个节点就超越了20个节点的Hadoop排序,很值得关注
- MapR的性能确实不错,但是不知道其网络和磁盘的具体信息
- 排序不是线性的,10倍的数据带来70倍计算资源的差距
一个花絮:2011年SGI和Cloudera 还曾经发布过一个100GB的Terasort结果:20个节点,130秒完成100GB数据排序,MapR一直宣称自己比其他任何Hadoop都要快2~5倍,因此对这个结果特别有意见,还专门发了一篇Blog来鄙视Cloudera和SGI的测试结果,很有意思。
相关信息:
- http://sortbenchmark.org/
- Big News about Big Data: MapR Partners with Google
- Google Compute Engine 能坚持多久?
- Apache Hadoop Wins Terabyte Sort Benchmark
- http://perspectives.mvdirona.com/2008/07/08/HadoopWinsTeraSort.aspx
- http://perspectives.mvdirona.com/2008/11/22/GoogleMapReduceWinsTeraSort.aspx
- http://developer.yahoo.com/blogs/hadoop/posts/2009/05/hadoop_sorts_a_petabyte_in_162/
- http://www.mapr.com/blog/hadoop-benchmarks-–-looking-beyond-the-splash
- http://www.sgi.com/company_info/newsroom/press_releases/2011/october/hadoop.html
- http://hpccsystems.com/about-us/press_center/press_releases/breaks-world-record-terasort-benchmark-121211
- http://finance.yahoo.com/news/HPCC-Systems-From-LexisNexis-iw-620156335.html
《Terasort 的记录》有1个想法