Terasort 的记录

今年6月28日,MapR发布了一个基于GCE的非官方Terasort结果。1256个虚拟机节点,1256个磁盘,共计5024个core,在80秒之内完成了1TB数据的排序。这个结果和Yahoo的最佳结果62秒相比是有差距的,亮点是这个结果是在虚拟机上获得的,因此Google I/O大会上,这也成了GCE的一个亮点,在GCE主页下方的介绍中,数据分析和并行计算成了GCE的主要应用案例,可能也与此有关。

花时间整理了一下近年来一些Terasort的结果,Terasort主页上面只有Hadoop的结果,而MapR、Google、HPCC的结果并没有列出,因此虽然这些单位的结果很不错,但是信息不全,因此可比性不强,倒是Hadoop的结果较为让人信服。

 

Category Record Company Year 物理机 Servers# Core# 主频(GHz) RAM(GB) Disk# DiskType Network
1TB 209 Yahoo 2008-07-02 Y 910 7280 2 7280 3640 SATA 1 Gbe
1TB 68 Google 2008-11-22 Y 1000 ? ? ? ? ? ?
1TB 62 Yahoo 2009-05-11 Y 1460 11680 2.5 11680 5840 SATA 1Gbe
1TB 80 MapR 2012-06-28 N 1256 5024 1.2 18840 1256 ? ?
100GB 130 SGI/CDH 2011-10-17 Y 20 160 2.5 960 80 SATA ?
100GB 98 HPCC 2011-12-12 Y 4 48 3 192 24 SAS ?

 

一些简单的结论:

  • Hadoop的优化能力比Google差了50%左右,与此前某专家的理解差距很大
  • 其中HPCC用4个节点就超越了20个节点的Hadoop排序,很值得关注
  • MapR的性能确实不错,但是不知道其网络和磁盘的具体信息
  • 排序不是线性的,10倍的数据带来70倍计算资源的差距

一个花絮:2011年SGI和Cloudera 还曾经发布过一个100GB的Terasort结果:20个节点,130秒完成100GB数据排序,MapR一直宣称自己比其他任何Hadoop都要快2~5倍,因此对这个结果特别有意见,还专门发了一篇Blog来鄙视Cloudera和SGI的测试结果,很有意思。

相关信息

  1. http://sortbenchmark.org/
  2. Big News about Big Data: MapR Partners with Google
  3. Google Compute Engine 能坚持多久?
  4. Apache Hadoop Wins Terabyte Sort Benchmark
  5. http://perspectives.mvdirona.com/2008/07/08/HadoopWinsTeraSort.aspx
  6. http://perspectives.mvdirona.com/2008/11/22/GoogleMapReduceWinsTeraSort.aspx
  7. http://developer.yahoo.com/blogs/hadoop/posts/2009/05/hadoop_sorts_a_petabyte_in_162/
  8. http://www.mapr.com/blog/hadoop-benchmarks-–-looking-beyond-the-splash
  9. http://www.sgi.com/company_info/newsroom/press_releases/2011/october/hadoop.html
  10. http://hpccsystems.com/about-us/press_center/press_releases/breaks-world-record-terasort-benchmark-121211
  11. http://finance.yahoo.com/news/HPCC-Systems-From-LexisNexis-iw-620156335.html

Terasort 的记录》有1个想法

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注