今天小编为大家告知一篇关于构建基于医学领域的藏语命名实体识别数据集。
一、获取中文医学命名实体识别(CMeEE)数据集
首先,从中文医疗信息处理挑战榜CBLUE数据集下载中文医学命名实体识别(CMeEE)数据集,此数据集含有9个实体类别,具体格式如下所示:
{
"text": "呼吸肌麻痹和呼吸中枢受累患者因呼吸不畅可并发肺炎、肺不张等。",
"entities": [
{
"start_idx": 0,
"end_idx": 2,
"type": "bod",
"entity: "呼吸肌"
},
{
"start_idx": 0,
"end_idx": 4,
"type": "sym",
"entity: "呼吸肌麻痹"
},
{
"start_idx": 6,
"end_idx": 9,
"type": "bod",
"entity: "呼吸中枢"
},
{
"start_idx": 6,
"end_idx": 11,
"type": "sym",
"entity: "呼吸中枢受累"
},
{
"start_idx": 15,
"end_idx": 18,
"type": "sym",
"entity: "呼吸不畅"
},
{
"start_idx": 22,
"end_idx": 23,
"type": "dis",
"entity: "肺炎"
},
{
"start_idx": 25,
"end_idx": 27,
"type": "dis",
"entity: "肺不张"
}
]
}
二、翻译数据集
本文使用已训练的汉藏翻译模型对此text
和每个entity
进行翻译,本次使用的翻译框架为基于transformer
的OpenNMT框架,使用200w藏汉平行语料进行训练,数据涵盖了法律、新闻以及医学等领域。通过评分在藏译汉上BLEU值为43.29,汉译藏上BLEU值为32.68。若您需要此翻译模型,请关注源码上门取算法码上到并回复藏汉翻译模型即可获取使用。
- 第一步,针对
text
原始序列文本进行翻译,译后获得了中文text
对应的藏文text
,如下所示:source:最终因脑实质损伤导致呼吸和循环衰竭而死亡。 target:མཇུག་མཐར་ཀླད་པར་གནོད་སྐྱོན་ཐེབས་ནས་དབུགས་འབྱིན་རྔུབ་དང་འཁོར་རྒྱུག་ཉམས་ནས་ཤི་བ་རེད།
- 注明,其中部分数据翻译后在目标端中出现未登录词,此时我们通过人工进行修复对应的未登录词。
- 第二步,针对
entity
原始序列文本进行翻译,译后获得了中文entity
对应的藏文text
,如下所示:{'脑': 'ཀླད་ པ།','结 缔 组 织': 'འཛུགས་ བསྐྲུན་ རྩ་ འཛུགས།','血 小 板': 'ཁྲག་ ལེབ་ ཆུང་ བ།'}
- 注明,部分实体翻译后在目标端中出现未登录词,此时通过人工进行修复对应的未登录词。另外,目标端实体中含有“།”,此时为了在下游任务中具体匹配以及其他操作,此处统一去除分隔符“།”。
三、后处理
最后按照原始数据文件,我们构建了基于构建基于医学领域的藏语命名实体识别数据集。最终数据集如下所示:
{
"文本": "གློ་ཚད་ཀྱི་མ་གཞིའི་གཉན་ཚད་ནི་དལ་བས་སྤྱིར་བཏང་གི་ནད་རྟགས་ཅུང་ཡང་བ་ཡིན།",
"实体属性": [
{
"实体": "གློ་ཚད་ཀྱི་མ་གཞིའི་གཉན་ཚད",
"开始": 0,
"结尾": 25,
"标签": "dis"
}
]
}{
"文本": "ནད་པའི་ལུས་པོའི་ལྗིད་ཚད་ནི་དོན་དངོས་ཀྱི་ཚད་གཞིར་འཛིན་དགོས་ཤིང་།ལོ་རྒན་པའི་ལྗིད་ཚད་ནི་དར་མའི་ཚད་ལས་བརྒལ་ན་དར་མའི་གྲངས་ཚད་དེ་ཚད་གཞིར་འཛིན་དགོས།",
"实体属性": [
{
"实体": "ལུས་པོའི་ལྗིད་ཚད",
"开始": 7,
"结尾": 23,
"标签": "ite"
}
]
}
四、若您需要数据,请在此点击并下载