盘古搜索今天发布了

pangu

今天下午3点整,期盼已久的盘古搜索终于发布了,有兴趣的网友可以试试http://www.panguso.com/,感受一下这个搜索引擎新人。应该说和Google、Baidu还有不小的距离,但是作为第一个版本,比某新闻搜索首次上线的版本要好多了。希望能够通过持续的运营优化和平台创新来打造一个更好的搜索引擎。

虽然以前也写过类似爬虫的系统和网页分析清洗,但是搜索引擎远比这些都复杂:如何解决分布式爬虫的效率,如何把网页弄的干干净净,如何理解自然语言,如何快速建立索引,如何充分利用每个内存字节,如何根据用户搜索点击优化排名算法,每件事都不简单…

个人感觉索引实时化是一个关键环节。大约是去年年底的时候,Google在Usenix10发表了一篇论文“Large-scale Incremental Processing Using Distributed Transactions and Notifications”,这才让人了解Google是如何实现搜索引擎的实时化,从最早的基于MR+GFS的批量索引计算,到基于BigTable+GFS2研发分布式应用数据库Percolator来支持快速计算索引(2010年4月上线),这是一个巨大进步。以往那种针对少量社区或者新闻网站而建立的各种小索引堆,以及修修补补的大小索引排序算法可以被统一的实时索引系统取代对于运维和优化有很大的作用。

前些时候一直在想怎么写一个ppt搜索引擎,同来快速的查找本地和网上的ppt资料,提高ppt工作效率。可是写ppt又耽误了研究怎么写ppt搜索工具,感觉是个无解的dead lock!!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注