2014Spark亚太峰会纪行

在 2014年12月7日2018年5月27日上张贴由钱五哥发表回复

Post Views: 2,584

周末参加了2014Spark亚太峰会，这个会议室一个所谓Spark亚太研究院主办的，从名字上看，这个会议比较山寨，干货不算多。会场遇到了几位同事，最妙的事情是遇到了以前的两位老同事，聊了好一会儿。

内容摘录如下：

Spark的社区情况介绍。从代码看Spark实现相关功能的代码行数远远少于其他软件，但是这一点不能作为依据：scala语言每行的功能要大于其他语言，说不上1:5；功能优化程度也不同；成熟度也不同

TalkingData介绍了构建自有大数据平台的一些实践，早期是MR+Hive+Azkaban，后来从Spark0.8升级到1.1.0，算是稳定了，其下层存储是HDFS、HBase、Parquet、MongoDB、自研KV存储和Tachyon；使用Hcatalog管理元数据；设计了统一的接口层，但是并未全部统一；自主研发了TaskMan管理资源调度；目前支持公司所有各种计算需求；下一步会集成R

京东介绍了SparkStreaming的应用，云海项目，每天处理10B消息，秒级别响应，估计消息比较短；目前是Over Yarn部署；最后介绍了不少配置优化方法；有安全审计流程

Tachyon分布式内存文件系统：这个玩意最近横空出世，是国产的，由于目前内存计算正热乎，能理解其火热的原因。大体上是主从结构，采用目录管理，文件分块，元数据集中管理，支持文件到磁盘的checkpoint；似乎没有听到有数据副本。演讲者主要的工作是性能测试，基本上都和预期结果相似

星环科技基于Spark的分析系统。Intel分支出来的星环科技自己写了一个SQL over Spark（不是SparkSQL），针对性的适配了部分PLSQL、HQL、SQL99的功能，据说在一些测试中占优，不过从我们已知的情况看，如果说完全优于MPP，我还是不相信的，但是如果在部分SQL优于MPP还是完全可能的，目前数据库项目都是项目而非产品，看来是对的。个人不看好和社区对着干的模式，目前星环科技的Spark版本已经无法和社区同步升级了，比较悲剧。演讲者比较水，基本上念产品手册。后面的测试数据优于缺乏参照物和细节，难以相信

SparkSQL的演讲，柯大侠说就是在读手册，再加上一些内部消息，于是没有进去听
现场还有卖书的，有一本Spark的手册，作者有签名，说此书是“No.1 or Nothing”，和小郭一起翻看了目录，哈哈哈，大笑而去

将照片做个3个尝鲜版的PDF，有兴趣的请下载尝鲜：

http://yun.baidu.com/share/link?shareid=2695801786&uk=2365903137

发表回复取消回复