第四十六章 搜索引擎的研发
隋波安抚好了左清泉之后,也答应她,等考试周之后,会让她负责一些相对轻松的工作。
比如公司现在还没有专门的行政部门。
可以让她和张轩两个人先组成CEO办公室,兼管公司内部行政综合事务,像法务、公关、后勤、文件报告汇总之类的事情。
这也是一种锻炼。
可以从这些内部的职能工作,让他们全面的熟悉和理解公司正规化运作的流程和模式。
等左清泉离开之后,隋波想了想,还是觉得应该去看看王川团队的研发进展。
随着这段时间各项目展开,无论是庞勇还是周枫、王川他们都觉得技术力量不够,又各自从学校里拉了一些同学进入团队,整个技术团队扩张的很快。
当时隋波在外地,就让左清泉去找了赵宁,把公司隔壁的两间办公室也都租了下来。
周枫、许朝军带领的校内网开发团队和王川带领的搜索引擎研发团队,都从原来的办公室分了出来,易趣那个办公室里只留了电商团队。
新业务的研发团队分别在两个新办公室里闭关。
一推开门,隋波有些惊讶的看到,不大的房间里,中间是一张长桌,长桌上一个紧挨一个的摆放着十几台电脑,将长桌挤得满满的。
一帮少年们头发乱糟糟,眼圈发黑,眼睛发光的盯着电脑屏幕,浑然忘我的噼里啪啦敲打着键盘。
桌上的电脑之间就算稍微有点空隙,也都摆满了方便面火腿肠之类的速食品。
要不是那些电脑屏幕上,显示的一行行代码,简直就是一个小型黑网吧的现场!
王川坐在最靠里的一台电脑前,眉头紧锁,盯着屏幕,似乎正在思索什么难题。
别看这个场面,看起来好像是一群泡吧的颓废网瘾少年。
隋波可是清楚,这帮少年们都是计算机天才!
王川直接从学校里拉了不少水木计算机国家集训队的队友来,组成项目团队攻关搜索引擎!
隋波想了想,回去找左清泉。
让她找附近的餐厅预订每天的饭菜,送到公司来,再买几箱饮料、咖啡、面包饼干之类的小食品,放到几个研发团队的办公室里。
估计不仅王川团队,庞勇、周枫他们那儿也都一样。
这帮技术男们敲起代码来,都是没日没夜的。
没有打扰其他人的工作,他悄悄把王川叫出来,在自己办公室里,和他专门交流研发情况。
目前搜索引擎项目最大的困难在于,没有可供参考的对象。
虽然可以参考一些国外的资料和论文,但因为涉及到一些核心技术,是无法通过网络查找到的,都需要自行开发。
隋波点头表示同意。
这个时候Google还不存在呢,要到9月份的时候,布林和佩奇才会在加州一个车库里开始创业。
百度更是没影的事儿,老李还在搜信里混呢。
现阶段,无论是国外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;还是国内搜狐推出的所谓全中文搜索引擎,都还是以人工分类目录为主的网站检索服务。
说是搜索引擎,其实更像是目录导航网站……
尽管其中一些搜索引擎已经有了网页关键词检索、用户点击量排序等一些创新,但本质上,还是需要大量的人工编辑的目录式搜索引擎(DirectorySearchEngine)。
而隋波希望王川团队开发的,则是全新的,通过技术程序,自动在互联网上通过超链接网页进行全文检索的机器人搜索引擎(RobotSearchEngine)。
这样的话,就需要从头做起,开发一整套完整的技术体系。
其中包括网络爬虫(WebCrawler)服务、索引服务、缓存服务、日志服务等几大模块,各模块之间互相影响,构成了整个搜索引擎体系。
从开发量上,技术难度是远远大于目录式检索技术的。
首先说网络爬虫,也称网络蜘蛛(WebSpider),这项技术是基于Web的自动化浏览程序,通过网页链接(URL),爬虫不断的通过互联网中获得新的网页数据,下载页面数据形成后台数据库。
可以说,网络爬虫抓取数据是搜索引擎工作流程的第一步。
爬虫的体系架构直接关系到搜索引擎每天数据的采集量,而抓取策略则关系到搜索结果的数据质量,数据的更新策略则关系到系统资源的利用率。
这只是第一步,采集了大量数据信息之后,还需要通过自然语言处理(NLP),将文本信息分解为结构化数据和价值性数据。
这里面就又存在一个问题,目前国外的搜索引擎都是英文分词,而中文比较特殊,最小单位是字,但具有语义的最小单位是词。
所以,在中文分词这一部分,就需要技术团队单独进行开发。
通过建立词库、采用条件随机概率分布模型、词性标注、语义相似度、已存句法分析、情感倾向分析等,通过各种模型判断,让程序理解抓取到的关键词中文的语义,才能提高搜索的准确性和查全率。
这还只是其中比较小的开发困难。
比如,搜索引擎的核心就是通过海量数据抓取后的快速检索,而抓取的数据越多,当庞大的数据存储在数据库里,就需要构建快速存取数据的分布式存储架构。
再比如,为了让用户在最短的时间内获得想要的搜索结果,就需要后台系统不断的执行数据抓取和建立索引等操作。
这就需要建立分布式实时计算系统,以及对索引结构的构建……
王川估计也是最近开发中有些郁闷了,一说起来就滔滔不绝。
隋波虽然不太懂他说的一些技术术语,但毕竟前世作为用户也使用了20多年的搜索引擎,接触的多了,也了解一些基本的知识。
他安静的听着王川不断的讲述团队面临的一个个困难,又是怎么想办法克服的。
不时提问两句,显得听的很认真。
脑子里却不断的在回忆,当初Google和百度是有哪些创新的举措,才一举成功的?
印象最深的,就是那句“百度更懂中文”,这应该就是刚才王川所提的中文分词了,这块王川已经考虑到了。
至于是不是更进一步,先弄个智能输入法出来?……
现在团队的研发压力已经很大了,暂时先略过不提。
还有就是百度快照,不过好像这个功能虽然对用户而言很有价值,但争议很大……
还有就是Google独创的PageRank技术。
这是一种根据网页之间的链接结构来评价判断网页重要性的排序算法。
想到这里,隋波就提了一下,是否在搜索结果的排序算法上,可以采用这种模式?
从网页的链接数量、权威性、主题相关性、网页内容的匹配性等多个方面,综合分析,进行搜索结果的排序。
王川听了以后若有所思:“这个算法我回去研究一下,应该没问题。”
隋波笑道:“技术上我没办法给你太大的帮助,不过我可以从公司激励政策和后勤上为团队鼓劲!
你回去和大家说一下,搜索引擎项目的团队项目奖金定在10万,而且根据每个人的表现,到时候还有个人奖励。
我已经让清泉给你们做好后勤,每天会定时让送餐厅送饭菜过来。
另外给你们弄一个休息间,里面准备好啤酒、咖啡、饮料和小吃,保证供应。
嗯……,再让她给你们办公室里配一个沙发,大家累了可以躺下休息一会。
王川,这个项目将会是公司除了电商平台,最核心的业务,还要你多辛苦了!”
王川点头,一脸的倔强:“波总,你放心,我有信心把这个搜索引擎搞出来!实际上每当解决一个技术难题,大家的那种快乐都是无法言表的,公司又给我这么大的支持力度,我一定全力以赴!”
隋波拍拍他的肩膀:“我相信你,你也别着急,和团队成员要劳逸结合,注意休息,别搞坏了身体,我们还有足够的时间来成长!”