0去购物车结算
购物车中还没有商品,赶紧选购吧!
当前位置: 中图分类 > G 文化、科学、教育、体育 > G3 科学、科学研究 > G35 情报学、情报工作 > 网络信息检索技术及搜索引擎系统开发

相同语种的商品

浏览历史

网络信息检索技术及搜索引擎系统开发


联系编辑
 
标题:
 
内容:
 
联系方式:
 
  
网络信息检索技术及搜索引擎系统开发
  • 书号:9787030261434
    作者:高凯 郭立炜 许云峰
  • 外文书名:
  • 装帧:平装
    开本:B5
  • 页数:256
    字数:323000
    语种:中文
  • 出版社:科学出版社
    出版时间:2010-02
  • 所属分类:G35 情报学、情报工作
  • 定价: ¥32.00元
    售价: ¥25.28元
  • 图书介质:

  • 购买数量: 件  缺货,请选择其他介质图书!
  • 商品总价:

内容介绍

样章试读

用户评论

全部咨询

  本书全面、系统地讲述了网络信息检索技术的基本原理,并阐述了其在搜索引擎系统开发及其智能化实现中的应用。在全面介绍了网络信息检索技术、标引与索引、检索结果处理、中英文分词、网络信息获取及预处理之后,本书对信息采集中的网页去重与相似网页聚类、信息的动态采集、基于自然语言理解的检索处理、相关概念反馈、检索纠错、检索结果排序、基于用户浏览历史的网页预取技术等多个方面进行了较深入的研究与分析。
  全书体系完整,内容新颖,条理清晰,组织合理,可为高校相关专业学生的学习和科研工作提供帮助,也可为从事搜索引擎技术开发的工程技术人员、希望了解搜索引擎技术的爱好者等提供参考。
样章试读
  • 暂时还没有任何用户评论
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页

全部咨询(共0条问答)

  • 暂时还没有任何用户咨询内容
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页
用户名: 匿名用户
E-mail:
咨询内容:

目录

  • 第1章 绪论
    1.1 引言
    1.2 信息检索的起源和发展
    1.2.1 手工检索
    1.2.2 脱机批处理检索
    1.2.3 联机检索
    1.2.4 光盘检索
    1.2.5 网络信息检索
    1.3 信息检索模型及方法
    1.3.1 传统布尔检索与扩展布尔检索模型
    1.3.2 向量空间模型
    1.3.3 概率检索模型
    1.3.4 模糊检索模型
    1.3.5 逻辑检索模型
    1.3.6 概念检索
    1.3.7 案例检索
    1.4 网络信息检索的过程
    1.4.1 网络信息获取
    1.4.2 信息加工
    1.4.3 信息检索与结果提供
    1.5 网络信息检索的性能评价
    1.6 网络信息智能化处理
    1.7 网络信息检索技术的未来
    1.7.1 以智能化技术为核心的智能检索
    1.7.2 多媒体信息检索
    1.7.3 跨语言检索
    1.7.4 个性化检索
    本章小结
    参考文献
    第2章 网络信息处理
    2.1 网络信息采集
    2.2 网络信息抽取
    2.3 网络信息的标引与索引
    2.3.1 标引
    2.3.2 索引
    2.4 基于链接分析的网页相关性算法及检索结果排序
    2.4.1 链接分析
    2.4.2 HITS算法
    2.4.3 PageRank算法及网页相关性评价
    2.4.4 HITS算法和PageRank算法的比较
    2.5 基于自然语言处理的检索
    2.5.1 自然语言理解的发展
    2.5.2 基于规则分析的方法
    2.5.3 基于统计分析的方法
    2.5.4 自然语言检索
    本章小结
    参考文献
    第3章 搜索引擎
    3.1 搜索引擎概述
    3.2 搜索引擎的发展历程
    3.3 搜索引擎的分类
    3.3.1 目录索引式搜索引擎
    3.3.2 自动式搜索引擎
    3.3.3 元搜索引擎
    3.3.4 分布式搜索引擎
    3.4 搜索引擎开发平台简介
    3.4.1 Lucene
    3.4.2 Lemur
    3.4.3 LIUS
    3.4.4 Egothor
    3.4.5 Xapian
    3.5 开源的Web搜索引擎系统简介
    3.5.1 Nutch
    3.5.2 YaCy
    3.5.3 Compass
    3.6 相关资源
    3.6.1 权威教材
    3.6.2 国际著名研究机构
    3.6.3 著名国际会议
    本章小结
    参考文献
    第4章 Lucene的索引与检索机制及其应用
    4.1 Lucene简介
    4.2 Lucene的下载、安装与部署
    4.2.1 下载Lucene
    4.2.2 配置环境变量
    4.2.3 对Lucene Demo的测试
    4.3 Lucene的索引与检索机制概述
    4.3.1 文本分析
    4.3.2 Lucene的索引方式
    4.3.3 Lucene索引文件的构成
    4.3.4 Lucene的检索
    4.3.5 Lucene的索引和检索主要流程
    4.4 管理和操作索引
    4.4.1 设定增量索引
    4.4.2 更新索引
    4.4.3 优化索引
    4.4.4 管理索引
    4.5 Lucene的检索
    4.5.1 构建检索
    4.5.2 完成检索的主要步骤
    4.6 根据用户提交的检索词构造查询
    4.6.1 对单一域字段检索
    4.6.2 对逻辑关系检索
    4.6.3 对范围的检索
    4.6.4 对前缀通配的检索
    4.6.5 对Query的前缀和后缀通配的检索
    4.6.6 模糊检索的实现
    4.6.7 对多关键词的检索
    4.6.8 通过Query的SpanNearQuery方式完成近似检索
    4.7 基于Lucene应用程序:开源搜索引擎系统Nutch
    4.7.1 Nutch简介
    4.7.2 在Eclipse中加载Nutch
    本章小结
    参考文献
    第5章 分词处理
    5.1 概述
    5.1.1 基于词典匹配的中文分词
    5.1.2 基于词频统计的无词典中文分词
    5.1.3 Lucene的分析器
    5.2 常用的中英文分词器及分词效果
    5.2.1 停用词分析器
    5.2.2 标准分析器
    5.2.3 简单分析器
    5.2.4 空格分析器
    5.2.5 关键词分析器
    5.2.6 ChineseAnalyzer
    5.2.7 CJKAnalyzer
    5.2.8 第三方分词工具ICTCLAS
    5.2.9 第三方分析软件JE
    5.2.10 第三方分析软件IK_CAnalyzer
    5.2.11 第三方分析软件MIK_Canalyzer
    本章小结
    参考文献
    第6章 检索结果排序及处理
    6.1 检索结果集Hits
    6.2 检索结果的排序及控制
    6.2.1 Lucene的排序机制
    6.2.2 通过改变文档的Boost因子来改变排序结果
    6.2.3 使用Lucene的Sort类定制排序结果
    6.2.4 对多个指定Field进行综合排序
    6.3 检索结果的分页
    6.4 检索结果的高亮显示
    6.5 检索日志处理
    6.5.1 下载及配置Log4J
    6.5.2 配置信息
    6.5.3 Servlet启动文件
    6.5.4 测试
    本章小结
    参考文献
    第7章 网络信息获取
    7.1 网络蜘蛛的工作原理
    7.2 开源网络蜘蛛简介
    7.2.1 Weblech
    7.2.2 J-spider
    7.3 Nutch网络蜘蛛的工作机制及其使用
    7.3.1 确定种子集
    7.3.2 下载网页
    7.3.3 查阅爬行日志
    7.3.4 修改配置文件
    本章小结
    参考文献
    第8章 网络信息预处理
    8.1 使用PDFBOX预处理PDF文档
    8.2 使用JACOB预处理WORD文档
    8.3 使用HTMLParser预处理HTML文档
    8.4 使用POI处理OFFICE文档
    8.4.1 处理EXCEL文档
    8.4.2 处理WORD文档
    8.5 使用Lucene处理SQL Server数据表
    本章小结
    参考文献
    第9章 信息采集中的网页去重与相似网页聚类
    9.1 概述
    9.2 相关工作
    9.3 对同源网页的去重
    9.4 同源网页去重性能评测
    9.4.1 测试数据集与测试环境
    9.4.2 同源网页去重算法性能比较与分析
    9.5 相似网页聚类
    9.5.1 网页主题概念的自动标引
    9.5.2 主题概念权值的确定
    9.5.3 主题概念抽取的主要流程与示例
    9.5.4 对主题概念标引过程中可能存在的问题的说明
    9.5.5 网页间相似关系的度量与聚类处理
    9.6 对内容雷同网页聚类的性能评测
    9.6.1 应用环境
    9.6.2 网页聚类示例
    9.6.3 召回率与聚类准确率统计
    9.6.4 可能存在的问题及改进计划
    本章小结
    附录
    参考文献
    第10章 信息的动态采集与更新
    10.1 概述
    10.2 相关工作
    10.3 泊松过程
    10.4 用泊松过程描述更新事件
    10.5 更新事件到达时间的条件分布
    10.6 网页动态采集及调整策略
    10.7 基于相关性的网页动态采集调整
    10.8 网页动态采集实验结果与分析
    10.8.1 网页更新事件的分布与统计
    10.8.2 更新效果分析及对可能存在问题的说明
    10.8.3 系统资源利用分析
    10.8.4 局限性及下一步的工作
    本章小结
    参考文献
    第11章 面向自然语言提问的理解与处理
    11.1 概述
    11.2 相关工作
    11.3 基于句模分析的自然语言提问处理
    11.3.1 概述
    11.3.2 句模
    11.3.3 核心检索项的抽取
    11.3.4 概念检索
    11.4 核心检索项间逻辑关系的识别与处理
    11.4.1 研究背景
    11.4.2 对自然语言提问的形式化表示
    11.4.3 基于产生式规则的归约
    11.4.4 对二义性问题的处理
    11.4.5 对语义的处理及其局限性
    11.5 性能评测
    11.5.1 对检索数量的定量分析
    11.5.2 对检索项间逻辑关系处理的分析
    11.5.3 查全率和查准率统计与分析
    11.5.4 对尚存问题的说明
    本章小结
    参考文献
    第12章 相关概念反馈
    12.1 概述
    12.2 相关工作
    12.3 相关概念反馈的实现
    12.3.1 基于用户检索提问的相关概念获取
    12.3.2 基于FPR算法的相关概念获取
    本章小结
    参考文献
    第13章 相近检索与检索结果排序
    13.1 查询纠错与相近检索概述
    13.2 性能测试与分析
    13.3 可能存在的问题
    13.4 有关检索结果排序的相关工作
    13.5 检索结果排序策略
    13.6 相关性权值的确定
    13.7 检索效果示例及对可能存在问题的说明
    本章小结
    参考文献
    第14章 基于用户浏览兴趣的网页预取
    14.1 概述
    14.2 相关工作
    14.2.1 个性化技术
    14.2.2 网页预取
    14.3 基于Session-tree的网页预取
    14.3.1 用户行为分析
    14.3.2 Session-tree结构及算法流程
    14.4 性能分析及对可能存在问题的说明
    本章小结
    参考文献
帮助中心
公司简介
联系我们
常见问题
新手上路
发票制度
积分说明
购物指南
配送方式
配送时间及费用
配送查询说明
配送范围
快递查询
售后服务
退换货说明
退换货流程
投诉或建议
版权声明
经营资质
营业执照
出版社经营许可证