登录    注册    忘记密码

详细信息

基于煤矿安全事件的Web信息抽取技术研究    

Research on Web information extraction technology based on coal safety incidents

文献类型:期刊文献

中文题名:基于煤矿安全事件的Web信息抽取技术研究

英文题名:Research on Web information extraction technology based on coal safety incidents

作者:郭晓黎[1];刘泽伟[2];刘瑞祥[3]

第一作者:郭晓黎

机构:[1]中国矿业大学(北京)机电与信息工程学院;[2]北京工业大学软件学院;[3]北京联合大学信息学院

第一机构:中国矿业大学(北京)机电与信息工程学院,100083

年份:2014

卷号:40

期号:10

起止页码:84-88

中文期刊名:中国煤炭

外文期刊名:China Coal

收录:北大核心:【北大核心2011】;

基金:自然科学基金:北京项目(PXM2014_014209_07_000009_00133510_XMCG)

语种:中文

中文关键词:煤矿安全事件;Web信息抽取;页面清洗;抽取规则

外文关键词:coal mining safety issues; web information retrieval; webpage cleaning; extraction rule

摘要:针对煤矿安全事件信息的特点,提出了基于煤矿安全事件的Web信息抽取方法,主要包括页面清洗、抽取规则生成、Web信息抽取。页面清洗作为预处理阶段,用于删除Web页面中的HTML标识、脚本、css段等无用信息;抽取规则生成是根据信息特征,定位信息在页面的位置;通过实验验证基于煤矿安全事件的Web信息抽取方法的可行性,结果表明本文提出的信息抽取方法针对中小型规模的信息抽取具有很高的准确性和有效性。
In this paper,by taking into account characteristics of safety issue information in coal mining,we propose a Web information retrieval strategy based on coal mining safety issues.Our method includes cleaning webpage,generating extraction rule,and retrieving Web information.Webpage cleaning,as a pretreatment,is used for useless information such as HTML labels,scripts,and css parts in webpages.Extraction rule generation is used for finding the exact positions of the information in the webpage,which is based on the characteristics of the information.Moreover,experimental results in this paper demonstrate the possibility of Web information retrieval based on coal mining safety issues,and the experimental results further show the accuracy and efficiency of our proposed information retrieval method,in particular for small and middle scale information retrieval tasks.

参考文献:

正在载入数据...

版权所有©北京联合大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心