详细信息
基于复杂网络局部社团发现的主题爬行研究
Focused Crawling Method Based on Detecting Local Communities in Complex Networks
文献类型:期刊文献
中文题名:基于复杂网络局部社团发现的主题爬行研究
英文题名:Focused Crawling Method Based on Detecting Local Communities in Complex Networks
作者:沈桂兰[1,2];孙洁[2];杨小平[1]
第一作者:沈桂兰
机构:[1]中国人民大学信息学院;[2]北京联合大学商务学院
第一机构:中国人民大学信息学院,北京100872
年份:2014
期号:4
起止页码:134-138
中文期刊名:河南师范大学学报:自然科学版
收录:CSTPCD;;北大核心:【北大核心2011】;
基金:国家自然科学基金(71271209);北京市教委科技重点项目(SZ201311417001);北京市教委2014年科研基地项目(pxm2014_014209_07_000076)
语种:中文
中文关键词:局部社区发现;主题爬行;主题网站群;相似度分析
外文关键词:detecting local communities; focused crawling; topic web site group ~ similarity analysis
摘要:从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.
Limited the focused crawling scope from the whole Internet can improve the precision. Link analysis and web content analysis are taken into account, focused crawling method based on detectinglocal communities in complex networks is put forward. The wholecrawling is divided into two phrases. Firstly, using detectingcommunities algorithm to analyze the linked structure among Web sites, a given topic web sites group is built. Secondly, all topic relevant analysis for web pages and link prediction are performed inside this group. The experimental results show that this method can improve the precision.
参考文献:
正在载入数据...