成果/Result
- 基于BI_LSTM_CRF神经网络的序列标注中文分词方法被引量:14收藏
- 作者:姚茂建 李晗静 吕会华 姚登峰
- 机构:北京联合大学北京市信息服务工程实验室;北京联合大学特殊教育学院
- 来源:《现代电子技术》 2019
- 关键词:自然语言处理 中文分词 神经网络 双向长短时记忆条件随机场 字嵌入 序列标注
- 摘要:当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题。针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上...
- 面向ELAN软件的手语汉语平行语料库构建被引量:10收藏
- 作者:吴蕊珠 李晗静 吕会华 姚登峰
- 机构:北京联合大学北京市信息服务工程重点实验室;北京联合大学特殊教育学院
- 来源:《中文信息学报》 2019
- 关键词:手语 平行语料库 转写
- 摘要:建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层...