自动提取网页指定数字数据,并且整理!

一种自动化的网页数据抽取方法_论文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
您可以上传图片描述问题
联系电话:
请填写真实有效的信息,以便工作人员联系您,我们为您严格保密。
一种自动化的网页数据抽取方法
||文档简介
中国最大最早的专业内容网站|
总评分0.0|
&&数​据​抽​取​是​当​前​网​络​飞​速​发​展​的​背​景​下​衍​生​的​一​类​技​术​。​简​单​介​绍​了​数​据​抽​取​技​术​的​发​展​和​研​究​现​状​,​并​针​对​目​前​数​据​抽​取​技​术​的​不​足​提​出​了​一​种​新​的​数​据​抽​取​方​法​.​能​够​自​动​化​地​并​高​准​确​度​地​从​网​页​上​抽​取​数​据​。
试读已结束,如果需要继续阅读或下载,敬请购买
你可能喜欢文档分类:
在线文档经过高度压缩,下载原文更清晰。
淘豆网网友近日为您收集整理了关于Wed网页表格数据提取与应用的文档,希望对您的工作和学习有所帮助。以下是文档介绍:大连理工大学硕士学位论文Wed网页表格数据提取与应用姓名:陈波申请学位级别:硕士专业:电子与通信工程指导教师:王秀坤人造理.1:人学专业学位硕十学位论文摘要Web网页,既有文本型的,也有表格数据型的。表格数据型网页大部分是由数据密集型网站发布的,这些数据基本上是由后台数据库根据用户的要求并使用一定的脚本程序形成的。这样数据对电子商务是非常有用的。但是,Web网页主要是供浏览的,很难提取和使用。怎样提取网页数据是我们面临的一个新问题。本文分析了网页上数据结构和特点。绝大多数数据信息为了美观而用表格(table标签)来排版表示,这些表格只描述数据怎样显示而不描述数据的内容,也不标志数据的来源。由后台数据库提供的数据也存在于这样的复杂的嵌套表格中,和其它的文本数据杂合在一起。因此,提取这些数据首先要要识别出含有表格数据的table标签和为了显示格式的普通table标签。同时,现在大多数Web网页不符合W3C规范的XHTML格式,而且很多网页存在着大量的错误,还必须对Web网页进行修正和规范。我们就是重点解决这些问题。论文基于普通的HTML格式的Web网页,使用开放源代码JAVA语言的Tidy工具对网页进行错误纠正和规范,对网页上表格数据的特点进行了分析和总结,分离出含有表格数据的table标签。使用SAX解析器结合对表格数据型数据的过滤和提取算法,提取网页中的数据,设计了适合于网页表格数据的数据存储结构,将提取的数据转存到MySQL数据库,供应用程序使用。本文以基金网页为例,实现简单表格数据型数据的提取、存储和分析应用。论文中的实例可以从272支基金的主页上下载以表格数据形式存在的每只净值信息,也可以从开放式基金每日净值的主页上下载当天的更新数据。将下载的数据存入MySQL数据库,使用数据库存储的数据,对基金净值增长率进行分析排序,从而显示各支基金的业绩情况。此应用具有很高的商业价值。关键词:数据提取;文本数据;表格数据人连理.J:人学专业学位硕十学位论文Extraction and Application of Table—based Data from WebAbstractThere are both text-based style and table-based style in the Web page.Table—based data mostlypublished by data-intensive Website and these table-based data e from background andare formed by running the script according to user's requirements.Such data is useful to merce.However,because the HTML page is mainly for browsing and can not be used for themanipulation,it is difficult for application to use Web data.Most data iIormation flom Web page are flexibly showed and edited by using table label.Thesetable labels only describe the data how to demonstrates but don’t describe the data content,and neitherindicate data sources.Table—based data from background database exist plicated nested tablelabels.and mix with other data together.Most Web pages ale not in line witll standard XHTMLformat of W3C,and a lot of pages have mistakes,SO how to separate and extract data from Webpagesis plex question.Web pages based on ordinary HTML format ale corrected and standardized by using JTidy toolsbased onopen-source Java language.Using XML SAX parser and data-extraction algorithm based ontext-data and table-data,the data is extracted from web,and saved to MySQL DBMS for applicationto use.This paper implements simple text-based and table-based data extraction,storage,analysis andapplicationFor example,we extract table-based data from 272 fund Web.realize simple process ofextraction,storage and application.Otherwise,we can extract updated table-based data from OpenEveryday Fund Web everyday.Then the data ale storied in database.The data in database is providedfor application to use and analyze.This application is valuable to busyness nowadays.KeyWords:Data EText··based DTable--based Data独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名: 了芬彼日期:人连理I:人学硕十研究生学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定&,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。…名:罡亟二墨导师签名:壶里塑年旦互月』堑日人迕理.I:人学专业学位硕十学位论文引的迅猛发展,尤其是e Web)的全球普及,使互联网上的信息丰富无比。如何从这信息的海洋中找到符合用户要求的有用信息,成为一个很重要、迫切的问题。对因特网上的数据模型进行研究,以全面、准确、高效的提取用户所需的信息,就显得十分必要。基于实现个性化的主动信息服务,Web信息提取技术成为近年来的一个新的研究课题,它是数据提取技术、人上智能信息检索、自然语言理解技术在网络信息处理中的应用。搜索引擎为人们提供了检索Web上相关信息的方法,搜索引擎对Web上的文档进行索引并进行分类,为人们提供一个Web内容的层次化的目录结构,有的搜索引擎对Web上的页面进行全文索引,提供基于关键词的检索。同时,人们不满足于自己去寻找信息,信息代t单(Information Agent)J-E在解决信息的主动推送问题。信息代理从大量的资源网站收集资源,然后根据用户的需求或兴趣过滤和转换信息,再将处理后的信息发送给用户。但是,由于各个网站资源的异构性,很难准确地从大量的网页资源中发现用户需要的信息。上述问题的出现是由Web信息描述方式引起的。现有的Web网页大部分还是由超文本标记语言(Hypertext Markup Language)描述的。HTML没有严格的语法限制,也没有清晰的语义,加上人们为了漂亮的显示效果而采用的iavascript等脚本,使得HTML网页代码冗长、混乱,几乎淹没了有用信息。所以,现在的Web还停留在人可理解的层次,距机器可理解还有很长的距离。Web信息提取技术研究正是在这种背景下兴起的。信息提t仪(Information Extraction)是一种浅层次(shallow)的文档处理,它从文档中自动提取信息,并将其装入数据库中。Web信息提取的研究对象是以半结构化和无结构文档为中心的Web数据,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅依靠HTML语法对数据进行结构上的描述。为了对这种半结构化数据进行分析和处理,Web信息提取必须和其研究手段结合起来。(1)研究背景近年来,信息提取逐渐受到了人们的重视。信息提取是一门应用技术,研究指定信息的查找、理解和提取,并以适当的方式输出所指定的信息。它是多种基本的自然语言处理技术的综合应用,具有广泛的应用领域。随着Web的迅速扩展,Web上的信息也飞速膨胀。这一方面使得Web成为一个巨大的信息仓库。网上有很多有用的信息,例如电话黄页、产品目录、股票行情、天气预Web网页表格数据提取与应用报等。这些信息可能不是由一个网上数据库提供,而是分散在多个数据库中。这些数据库可供用户输入关键字等查询条件进行搜索,然后自动生成网页,把结果显示出来。即使有些数据被用户搜索到了,存在于网页中摆在用户的面前,由于数据量的巨大,用户也无所适从。例如:从数据库中提取的数据。这样的数据普通用户是非常有用的。但是,HTML网页主要是供浏览的,并不是用来供操纵和使用数据的,更不可能让普通用户联接到数据库端,直接给客户提供数据库数据。因此,网页数据很难被用户直接取得和使用。因为数据量大,用户也不可能手工去下载这样的数据,普通用户对于这样的数据也只能望而生畏。Web信息提取的一个直接应用就是帮助人们在纷繁复杂的Web信息海洋中快速准确地查找所需信息,加快人们获取信息的速度,从而提高生产效率。如在商用系统中的餐厅指引:提取不同网站上的餐厅信息,如餐厅名称、菜肴种类、价格、烹调方法、地址、电话和评价。又如比价购物:从不同商家网站中收集并比较同一产品的价格的服务,系统在用户的请求下返回产品清单,用户可对清单上的价格做出比较并决定从哪个商家中购买。随着经济的发展,越来越多的普通用户迫切希望能够从网页上直接能够下载他们所需要的有用数据,尤其是一些具有价值的历史数据。例如,股市信息和基金数据,股民和基民都想能够有自己的数据库,对每天的股票价格和基金的净值进行必要的统计和分析,虽然有公布股价和净值的网站,但是用户去不能提取、收集和应用。(2)信息提取的应用Web信息提取的应用主要表现在以下几个方面:①搜索引擎11J。用搜索引擎进行网络信息提取的最大特色体现在它所采用的对网页Links信息的提取技术上。如通过对网页内容提取,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果(查全率,查准率,recall);运用网络内容提取技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。②信息统计。网页广告点击信息统计,通过对网站主题信息【2】的提取,可以有效地组织网站信息,例如:通过对用户访问同志记录信息的提取,可以知道网站的点击率,根据点击的内容,把握用户的兴趣,预测用户的访问趋向与动机,将有助于开展网站信息推荐服务以及个人信息的定制服务。③数据下载。现在互联网上存在着大量的图片、声音、视频信息和数据库数据。可以把数据库数据下载,存入自己的数据库当中,供应用程序和人员分析使用。媒体信息下载更是司空见惯。人连理I:人学专业学何硕十学位论文(3)本文的研究目的和研究内容现在的网页中存在大量的数据型数据,这些数据来自于远程的数据库,但是对于普通用户来说,这些数据只能在浏览器进行浏览,不能对其进行操作和使用,下载也是以文本形式下载,而且存在着大量的冗余数据,不便于分析和使用。本文的目的就是基于跨平台的从网页中提取任意表格数据,将数据存入到数据库中,供用户和应用程序使用。本文的研究的内容主要包括:①研究数据提取技术:数据提取技术,表格数据提取。②Web网页基本格式及特点:HTML格式,XHTML格式以及XML格式。③数据提取涉及的技术:JAVA跨平台技术,Tidy整洁技术,过滤器技术,SAX解析器技术及数据提取算法。④数据转存技术:MySQL数据库,数据库连接技术,数据类型的转换,数据存储结构⑤提取数据的应用实例:以基金网页为实例完成下载、提取、转存和调用分析。(4)本文的组织本文共分为5章,各章内容如下:①web信息提取技术,讲述了Web提取概念、体系结构、分类、提取途径以及web表格信息提取的概况。②Web网页分析,对现在网页的格式和特点进行深入的分析。将非良构的网页转变为良构网页的方法。③基于SAX表格数据提取,用SAX解析器如何对网页进行解析和提取。介绍解析器以及基于它的过滤器的常用类。④提取和存储网页数据模型分析,针对网页表格数据特点,如何创建适合于网页特点的表格,并讲述分析了JAVA连接数据的方法。⑤基于基金网页的数据提取与应用系统实现。以基金网页为例,实现基于SAX系统模型的实例。Web网页表格数据提取与戍州1 Web信息提取技术1,1半结构化数据概念所谓半结构化数据13】,就是介于结构化数据(如关系数据库,面向对象数据库)和无结构化的数据(如声音,图形等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的内容和结构混合在一起,没有明显区分。半结构化数据的出现有以下几个原因:(1)某些数据源被当作数据库处理,但它并不完全遵循某种数据形式。最典型的例子就是Web数据。因特网提供了巨大的信息资源,可以把它视为一个信息库。但是,在多大程度上我们可以使用现有数据库工具来检索Web数据呢?大多数Web查询是利用Retrieve技术从web内容中获取单个的网页,而没有利用Web的结构来明确表达查询。此外,由于Web并不符合任何标准的数据模型,因此我们需要一种方法来描述它的结构。(2)在不同数据库之间交换数据时需要一种灵活的数据模式,这是数据交换和数据转换的需求。(3)对于某些结构化数据,为了显示的方便也将它作为半结构化数据来处理。通常,如果不了解数据库的模式,是不可能写出数据库查询语句的,而数据库的模式又包含许多难以理解的术语和关系,因此,为了能够在不完全了解数据模式的情况下写出查询语句,就提出了这个需求。半结构化数据存在一定的结构,但这些结构或者没有被清晰的描述,或者经常动态变化,或者过于复杂而不能被传统的模式定义来表现。半结构化数据模式与传统的关系或面向对象数据模式不同,它主要有以下这些特点。①半结构化数据先有数据,后有模式;②半结构化数据的模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束;③半结构化数据的模式具有非精确性。它可能只描述数据的一部分结构,也可能随着数据处理不同阶段的视角不同而不同;④半结构化数据的模式可能规模很大,甚至超过源数据的规模,而且会由于数据的不断更新而处于动态的变化过程中。1.2 Web信息提取概念(web)信息提取【4】的主要功能是从(web)文本中提取出特定的事实信息(Factual人迮理。l:人学专业学位硕+学位论文Information)。比如,从新闻报道中提取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中提取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中提取出症状、诊断记录、检验结果、处方等等,或者直接提取文章中某句话或某段话的信息等等。通常,被提取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。1.3信息提取系统的体系结构Hobbs[5J曾提出一个信息提取系统的通用体系结构,他将信息提取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。Hobbs认为典型的信息提取系统应当由依次相连的十个模块组成:(1)文本分块:将输入文本分割为不同的部分——块。(2)预处理:将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的属性(如词类)组成。(3)过滤:过滤掉不相关的句子。(4)预分析:在词汇项(Lexical Items)序列中识别确定的小型结构,如名词短语、动词短语、并列结构等。(5)分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。(6)片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。(7)语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。(8)词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。(9)共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。(10)模板生成:由文本的语义结构表示生成最终的模板。当然,并不是所有的信息提取系统都明确包含所有这些模块,并且也未必完全遵循以上的处理顺序,比如6、7两模块执行顺序可能就相反。但一个信息提取系统应当包含以上模块中描述的功能。中文Web信息提取的一般过程:(1)用一组信息模式描述感兴趣的信息。信息模式通常可表示为简单的一个句式,例播放器加载中,请稍候...
该用户其他文档
下载所得到的文件列表Wed网页表格数据提取与应用.pdf
文档介绍:
大连理工大学硕士学位论文Wed网页表格数据提取与应用姓名:陈波申请学位级别:硕士专业:电子与通信工程指导教师:王秀坤人造理.1:人学专业学位硕十学位论文摘要Web网页,既有文本型的,也有表格数据型的。表格数据型网页大部分是由数据密集型网站发布的,这些数据基本上是由后台数据库根据用户的要求并使用一定的脚本程序...
内容来自淘豆网转载请标明出处.【精品专业文档】计算机,软件编程,系统开发,期刊论文,博士论文,硕士论文,Web页面..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
Web页面文本信息的自动提取技术研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口}

我要回帖

更多关于 提取网页数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信