信息采集|数据采集|网站采集|垂直搜索引擎|网页抓取|网站抓取 网络掘金者信息采集网站采集首页 网络信息采集软件 信息采集软件下载 信息采集的解决方案 对信息采集软件有问题请到这里来 信息采集软件的帮助信息
您的位置:文章阅读  
网络掘金者
数据处理组件
更新日志
常见问题
新手指南
产品价格
 

WEB网页结构化信息抽取技术介绍(网页库级)



   WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。
  如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
  房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……
  公司企业信息搜索那就应该抽取出:公司名称、地址、电话、联系人……
  …………
  结构化信息抽取有两种方式可以实现,比较简单的是模板方式,还有一种是对网页不依赖的网页库级的结构化信息抽取方式

  模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限个网站的信息进行精确的采集。
  特点:简单、精确、技术难度低、方便快速部署。
  缺点:需要针对每一个信息源的网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户对查全率的需求。



   网页库结构化信息抽取
是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
  特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。
  缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。


   我们的技术是对网页不依赖的web结构化信息抽取技术,适合高端的垂直搜索应用或者高端的竞争情报分析系统。





上一篇:如何做好一个垂直搜索引擎
下一篇:什么是垂直搜索?

 

南京投石科技 | 投石新闻 | 产品与服务 | 合作伙伴与客户 | 联系我们 | 信息采集软件

Copyright©2006-2008 Bizpush.Com All Rights Reserved 版权所有·南京投石科技有限公司

苏ICP备06022757号 电信增值业务经营许可证编号:苏B2-20050188