搜索引擎项目概述

搜索引擎项目概述

目标:千万级数据搜索达到压秒级

解决方案:

  • 爬虫阶段:Nutch
  • 查询处理阶段:Lucene

    方案存在的问题:

  • 爬虫阶段:

    • Nutch–DNS:域名解析
    • Nutch–NIO:异步I/O
    • Nutch–News:新闻抓取和解析
  • 查询处理阶段:

    • 索引结构:改变Lucene的索引文件格式,保留其接口
    • 查询处理优化