登录    注册    忘记密码

详细信息

基于结构与文本关键词相关度的XML网页分类研究  ( EI收录)  

An Efficient XML Documents Classification Method Based on Structure and Keywords Frequency

文献类型:期刊文献

中文题名:基于结构与文本关键词相关度的XML网页分类研究

英文题名:An Efficient XML Documents Classification Method Based on Structure and Keywords Frequency

作者:袁家政[1];须德[1];鲍泓[2]

第一作者:袁家政

通讯作者:Yuan, J.

机构:[1]北京交通大学计算机与信息技术学院;[2]北京联合大学信息技术研究所

第一机构:北京交通大学计算机与信息技术学院,北京100044

通讯机构:[1]School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China

年份:2006

卷号:43

期号:8

起止页码:1361-1367

中文期刊名:计算机研究与发展

外文期刊名:Journal of Computer Research and Development

收录:CSTPCD;;EI(收录号:20063810123789);Scopus(收录号:2-s2.0-33748710878);北大核心:【北大核心2004】;CSCD:【CSCD2011_2012】;

基金:教育部科学技术研究重点项目(2002KJ124);北京市优秀人才培养资助项目(20051D0502206)~~

语种:中文

中文关键词:XML分类;文档结构;关键词特征;支持向量机

外文关键词:XML classification; documents structure; keyword feature; support vector machine

摘要:针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法·算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类·实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题·
According to the XML Web page character, an efficient method for computing XML document similarity, position weight and frequency of keywords in documents is presented. Then some features are selected from XML documents based on the method and a multi-classification algorithm of XML Web page is proposed using support vector machines. In this algorithm, a CFK(classifier feature kernel) of common similarity features is created from each sample set of XML documents class. The class label of an XML document is determined by computing similar distance between a test XML document and each CFK. Experimental results prove the effectiveness of the classification algorithm and good performance for multiclassification of XML documents.

参考文献:

正在载入数据...

版权所有©北京联合大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心