详细信息
文献类型:期刊文献
中文题名:面向ELAN软件的手语汉语平行语料库构建
英文题名:Construction of Parallel Corpus of Chinese and Sign Language for ELAN
作者:吴蕊珠[1];李晗静[2];吕会华[2];姚登峰[2]
第一作者:吴蕊珠
机构:[1]北京联合大学北京市信息服务工程重点实验室;[2]北京联合大学特殊教育学院
第一机构:北京联合大学北京市信息服务工程重点实验室
年份:2019
卷号:0
期号:2
起止页码:43-50
中文期刊名:中文信息学报
外文期刊名:Journal of Chinese Information Processing
收录:CSTPCD;;北大核心:【北大核心2017】;CSCD:【CSCD2019_2020】;
基金:国家语委重点项目(ZDI135-31);北京教育科学规划重点课题(ADA14121);北京联合大学研究生资助项目
语种:中文
中文关键词:手语;平行语料库;转写
外文关键词:sign language;parallel corpus;gloss
摘要:建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息。该文采用基于向量空间的余弦相似性算法,实现了用手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库的质量。
The parallel corpus of Chinese and sign language construction is of significance in machine translation and contrastive language studies.The copus presented in this paper consists of the video of the sign language,information of the collectors and annotators,as well as 14 layers of labeling information via the multimedia labeling software ELAN(either manual or non-manual information).The cosine similarity based on VSM is adopted to reduce corpus deduplication.It is also used to test the similarity of the expert to ensure the quality of the corpus.
参考文献:
正在载入数据...