周末参加了2014Spark亚太峰会,这个会议室一个所谓Spark亚太研究院主办的,从名字上看,这个会议比较山寨,干货不算多。会场遇到了几位同事,最妙的事情是遇到了以前的两位老同事,聊了好一会儿。
内容摘录如下:
- Spark的社区情况介绍。从代码看Spark实现相关功能的代码行数远远少于其他软件,但是这一点不能作为依据:scala语言每行的功能要大于其他语言,说不上1:5;功能优化程度也不同;成熟度也不同
- TalkingData介绍了构建自有大数据平台的一些实践,早期是MR+Hive+Azkaban,后来从Spark0.8升级到1.1.0,算是稳定了,其下层存储是HDFS、HBase、Parquet、MongoDB、自研KV存储和Tachyon;使用Hcatalog管理元数据;设计了统一的接口层,但是并未全部统一;自主研发了TaskMan管理资源调度;目前支持公司所有各种计算需求;下一步会集成R
- 京东介绍了SparkStreaming的应用,云海项目,每天处理10B消息,秒级别响应,估计消息比较短;目前是Over Yarn部署;最后介绍了不少配置优化方法;有安全审计流程
- Tachyon分布式内存文件系统:这个玩意最近横空出世,是国产的,由于目前内存计算正热乎,能理解其火热的原因。大体上是主从结构,采用目录管理,文件分块,元数据集中管理,支持文件到磁盘的checkpoint;似乎没有听到有数据副本。演讲者主要的工作是性能测试,基本上都和预期结果相似
- 星环科技基于Spark的分析系统。Intel分支出来的星环科技自己写了一个SQL over Spark(不是SparkSQL),针对性的适配了部分PLSQL、HQL、SQL99的功能,据说在一些测试中占优,不过从我们已知的情况看,如果说完全优于MPP,我还是不相信的,但是如果在部分SQL优于MPP还是完全可能的,目前数据库项目都是项目而非产品,看来是对的。个人不看好和社区对着干的模式,目前星环科技的Spark版本已经无法和社区同步升级了,比较悲剧。演讲者比较水,基本上念产品手册。后面的测试数据优于缺乏参照物和细节,难以相信
- SparkSQL的演讲,柯大侠说就是在读手册,再加上一些内部消息,于是没有进去听
- 现场还有卖书的,有一本Spark的手册,作者有签名,说此书是“No.1 or Nothing”,和小郭一起翻看了目录,哈哈哈,大笑而去
将照片做个3个尝鲜版的PDF,有兴趣的请下载尝鲜:
http://yun.baidu.com/share/link?shareid=2695801786&uk=2365903137