租房信息专业搜索引擎项目计划书(2)

2018-07-21计划书

三、项目开发计划

  1、开发规模计划

  由于本项目是作为课程作业来做的,受到时间和人力等方面的约束,我们在实际开发中只能减小问题的规模,开发一个demo程序的原型系统。初步计划是,抓取网页只在北大未名和水木清华两大bbs的相关版面进行。在此基础上进行网页信息的提取,分词,建立索引,然后实现对输入关键词的解析,匹配查询,结果排序,返回到页面显示等工作,从而完成概念上的实现,给出初步的系统原型。

  2、初步开发计划

  (1)界面

  类似于baidu和google的界面,用户可以输入搜索条件,点击搜索按钮后,下面排列出符合条件的结果。稍微不同的是,由于租房信息跟地域(城市、地区)紧密相关,所以在用户输入搜索条件前,要先让用户选定一个地区,然后再进行搜索。这里我们仅考虑北京市城区。

  (2)后台

  初步考虑分为以下几个模块:

  A.网页抓取模块:对北大未名和水木清华两大bbs相关版面,利用crawler进行抓取。

  B.网页分析模块:提取网页中有用的信息,保存为文本格式。

  C.网页分段模块:采用合适的分段技术,将每个文本分成多段。

  D.索引建立模块:对分好的段进行分词、标注、词频统计等工作,建立全文索引。

  E.查询匹配:将用户输入的关键词,采用合适的查找算法与索引进行逐一匹配,将符合的内容提取出来,返回到界面。

  F. 排序:考虑相似度和时间等因素,将结果越接近,时间越新的内容排到前面。

上一篇:2017格式规范的商业计划样本下一篇:大学生创业计划书范文2017年