登录    注册    忘记密码

详细信息

基于深度神经网络模型的中文分词方案  ( EI收录)  

A Chinese word segmentation scheme based on a deep neural network model

文献类型:期刊文献

中文题名:基于深度神经网络模型的中文分词方案

英文题名:A Chinese word segmentation scheme based on a deep neural network model

作者:许峰[1];张雪芬[2];忻展红[1]

第一作者:许峰

通讯作者:Zhang, Xuefen

机构:[1]北京邮电大学经济管理学院,北京100876;[2]北京联合大学智慧城市学院,北京100101

第一机构:北京邮电大学经济管理学院,北京100876

年份:2019

卷号:40

期号:9

起止页码:1662-1666

中文期刊名:哈尔滨工程大学学报

外文期刊名:Journal of Harbin Engineering University

收录:CSTPCD;;EI(收录号:20194907788899);Scopus(收录号:2-s2.0-85075867455);北大核心:【北大核心2017】;CSCD:【CSCD2019_2020】;

基金:国家自然科学基金项目(61672178)

语种:中文

中文关键词:中文分词;长短期记忆网络;编码-解码模型;词向量;准确率;F值

外文关键词:Chinese word segmentation;long short-term memory network;encoder-decoder model;word vector;accuracy rate;F value

摘要:针对目前已有的分词算法和程序在处理海量网络文本分词时性能下降的问题,本文提出了一种基于深度神经网络模型的中文分词方案。该方案利用基于长短期记忆网络的编码-解码模型对数据模型进行训练,并采用得到的模型进行分词。为了提升分词性能,进一步提出了一种基于词向量的修正方法,对采用上述模型的分词结果进行修正。对典型微博语料数据集的实验结果表明,提出基于模型的分词性能相对于传统的分词软件的分词性能有了较大提升。采用提出的词向量修正方法修正后的分词准确率和F值略优于未修正的分词准确率和F值,从而验证了论文提出的分词方案的有效性。
In order to solve the problem of reduced performance of existing segmentation algorithms and programs when processing massive network text segmentation,a Chinese word segmentation scheme based on a deep neural network model is proposed in this paper.The encoder-decoder model (EDM),based on the long short-term memory (LSTM) network,was employed to train the data model,which derived a model to perform the word segmentation.In order to improve the word segmentation performance,a modification method based on word vectors is further provided.Experimental results on the typical Weibo dataset suggested that the performance of the proposed scheme is significantly improved compared with traditional word segmentation software.In addition,word segmentation precision and F -values,after modification by the presented method based on the word vectors,were slightly improved compared with those without modification.All these facts indicated the effectiveness of the proposed segmentation scheme.

参考文献:

正在载入数据...

版权所有©北京联合大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心