个人简历
教育背景
- 硕士 北京理工大学 计算机科学与技术
2018/06 - 2021.07
均分:90.5/100 - 本科 中央民族大学 计算机科学与技术
2014/09 - 2018/06
排名:1/110
研究方向
主要研究大语言模型、机器翻译、实体抽取、关系抽取、事件抽取以及情感分类、生成摘要等方向。
对语言模型、目标检测、异常检测、知识蒸馏、数据增强等方向也感兴趣。
实习/工作经历
- 阿里巴巴达摩院
2020/12 - 2021/03
职位名称:AI算法实习生
工作描述:面向特定领域的新词术语翻译模型研究。
工作职责:提出了半自回归方法训练NMT,全局通过非自回归,局部通过自回归的方法向NMT模型中融入特定领域的新词术语。
完成业绩:最终有效捕捉到源语言中含有的新词术语并正确翻译,新词术语的翻译率相比之前的词汇约束等基线提升了89%。 - 华为技术有限公司
2020/06 - 2020/10
职位名称:Web异常检测AI算法实习生
工作描述:研究和挖掘注入类的web攻击,自动化恶意流量家族提取,利用AI识别Web的攻击检测。
工作职责:结合自然语言处理,通过机器学习深度学习等。文本分类、情感分析、舆情监测以及信息检索等。 - 北京智源人工智能研究院
2020/01 - 2020/05
职位名称:AI算法实习生
工作描述:挖掘学者的研究兴趣。
工作职责:基于海量的学者数据信息分析,构建从多维度获取特征并能够自动生成每位学者的研究兴趣。
完成业绩:通过已提供的学者信息特征及外部嵌入描述,构建一套能够自动生成对应学者研究爱好的系统。
项目经历
多策略特定领域的智能机器翻译系统
项目描述:为某军区通信监测研发一套特定领域内多策略融合方式的机器翻译系统。
核心难点:开发英语到汉语自动翻译引擎系统,实现多策略融合的翻译技术,支持篇章和文档翻译;开发翻译引擎系统接口和专业词库接口,实现用户的定制开发
取得成果:针对翻译不充分问题,支持有选择性的二次翻译,并且翻译译文与源端的句子进行对齐高亮显示。面向法言法语的民族语和外国语机器翻译技术
项目描述:研究面向法言法语的多语种机器翻译技术与互译便携式设备,通过语言互译解决司法场景的语言障碍难题,推动司法效率大幅提升
核心难点:智慧司法智能化认知技术研究,重点在于通过数据增强方法提升低资源翻译模型性能,难点特定领域的数据稀缺,无法将离散的先验知识直接融入到连续的训练模型中
取得成果:集成多语种的便携式终端,能够支持6个语种12个方向的翻译系统。大数据驱动的汉语与英语及中国少数民族语言之间的机器翻译
项目描述:研究面向有限标注资源和海量非标注资源的半监督和弱监督机器翻译框架,并设计大数据与先验知识相结合的机器翻译模型。
核心难点:当前双语数据资源不平衡、单语资源丰富、先验知识难以利用等问题;文本大数据中语言和领域资源的不均衡现象;汉语和蒙藏维等我国少数民族语言之间双语平行资源匮乏而单语资富饶的现象;双语词典和知识图谱等基于符号系统的先验知识难以融入神经机器翻译模型的现象.
取得成果:设计一种词向量学习方法在双语数据和单语数据上联合学习源和目标语言的词向量,采用池化方法获得源和目标语言单语句子的向量表示。采用基于数据合成的解决方案,给定小规模双语平行语料,学习一个统计机器翻译模型$SMT_(s2t)$便于融入双语词典等先验知识。融合大数据与人类常识的开放域多语言知识图谱构建
项目描述:研究大数据驱动的世界/常识知识获取与融合方法,建立大规模、高质量、融合常识知识的多语言知识图谱。
核心难点:具有普适性的知识表示体系和结构模型,以支撑大数据环境下的知识的表示和计算;大数据环境下,知识多源、异构、低质的特点给知识获取带来巨大挑战;传统的常识知识获取往往基于逻辑表达的文本语义分析,缺乏语言知识的约束和指导,难以适应知识库大规模、多领域的特点。
取得成果:研究语言知识单元(字、词、短语等)与世界知识单元(实体、事件、关系)之间的统一语义表示:将语言知识和世界知识的表示学习集成在统一框架中;为大数据驱动的自然语言理解、问答和翻译提供基础知识资源。
学术成果
论文
- 多策略切分粒度的藏汉双向神经机器翻译研究 CCMT2019
提出针对藏汉双向机器翻译的具有音节、词语以及音词融合的多粒度训练方法。在CWMT2018藏汉双语数据集上的实验结果表明,多粒度训练方法的翻译效果明显优于其余切分粒度的基线系统。
- Revisiting Back-Translation for Low-Resource Machine Translation Between Chinese and Vietnamese IEEE Access
Investigate the mpacts of Back-translation(BT) on extremely low-resource machine translation between them.
- 面向司法领域的高质量开源藏汉平行语料库构建CCL2020
构建了16万级规模的藏汉司法领域语料库,并通过多种翻译模型和交叉实验验证了构建的语料库的高质量特点和鲁棒性。荣获第十九届中国计算语言学大会《最佳论文》
- 面向大语言模型的藏语指令数据集构建
通过实验验证了本文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。
- 面向心理健康咨询的藏语数据集及大语言模型构建
被CCL2024会议录用
- Yak-Llama 2: 面向藏文高效扩展的大语言模型
本研究针对大型语言模型在处理藏语任务方面的局限性,提出了一套综合解决方案。
专利
- 一种低资源场景下的实体抽取方法
2021年普通发明专利
- 基于动态课程学习的命名实体识别方法
2021年普通发明专利
- 一种基于多策略融合的开放知识抽取方法
2022年普通发明专利
- 通用信息抽取框架中收敛不一致问题解决方案和装置
2022年普通发明专利
- 一种利用半自回归融合领域术语的低资源机器翻译方法
2022年普通发明专利
获奖情况
八项国家级
- 第十九届中国计算语言学大会《最佳论文》
颁发单位:中文信息学报;时间:2020.12.6 - 第十三届中国大学生年度人物入围奖
颁发单位:人民网股份有限公司、大学生杂志社、光明日报教育部、中国大学生在线;时间:2018.5.12 - 国家奖学金荣誉
颁发单位:中华人民共和国教育部;时间:2016.11.30 - ……
十二项省级
- 2015年首都大中专学生暑期社会十佳优秀团队【领队】
颁发单位:共青团北京市委员会、中共北京市委宣传部、中共北京市委教育工作委员会、
首都精神文明建设委员会、北京市学生联合会、北京市教育委员会;时间:2015.11.12 - 北京市三好学生
颁发单位:中共北京市委教育工作委员会、北京市教育委员会、共青团北京市委员会、北京市学生联合会;时间:2017.3.12 - 2017年“两江新区重理工杯”中国大学生计算机博弈大赛暨第十一届中国计算机博弈锦标赛【meisatu 13路围棋】(冠军)
颁发单位:全国大学生计算机博弈大赛组委会、全国计算机博弈锦标赛组委会;时间:2017.7.28 - 宝钢教育奖
颁发单位:宝钢教育基金会;时间:2017.11.12 - 北京市优秀毕业生
颁发单位:北京市教育委员会;时间:2018.7.1 - ……
十八项校级
- 优秀学生干部
颁发单位:中央民族大学;时间:2015.12.5 - 中央民族大学民族团结进步先进个人
- 十大杰出志愿者
颁发单位:中央民族大学共青团中央民族大学委员会;时间:2017.9.28
颁发单位:中央民族大学;时间:2018.3.17 - 中央民族大学十佳大学生
颁发单位:中央民族大学;时间:2018.6.23 - 专业一等奖
颁发单位:北京理工大学;时间:2018.10.5 - ……
八项其他
- 甘南藏族自治州高考理科双语状元
颁发单位:甘南州教育局;时间:2014.7.15 - 国酒茅台国之栋梁2018希望工程圆梦行动脱贫攻坚公益计划栋梁奖学金
颁发单位:中国青少年发展基金会、中国贵州茅台酒厂(集团)有限责任公司;时间:2018.8.25 - 2020年度在安全AI检测团队新成员工能力建设活动中荣获“勤奋进步奖”
颁发单位:华为公司;时间:2020.10.5 - 迭部县第三届最美人物
颁发单位:迭部县组织部;时间:2020.10.6 - 优秀大学生
颁发单位:迭部县教育局;时间:2021.9.10 - ……
联系方式
- 电子邮箱
shajiu@bit.edu.cn
18810979033@163.com - QQ 技术交流群
2495957419