甘南第一勇士
08
25
EMNLP 2023:基于微调和上下文学习的机器翻译大型语言模型 EMNLP 2023:基于微调和上下文学习的机器翻译大型语言模型
EMNLP 2023:基于微调和上下文学习的机器翻译大型语言模型 摘要:大型语言模型(LLMs)是机器翻译(MT)的一个有前景的途径。然而,当前基于LLM的MT系统存在脆弱性:其有效性高度依赖于挑选的少数示例,而且它们通常需要额外的后处理以
2024-08-25 沙九
25
 论文解读|ACL 2024: 演示对多语言情境学习的影响:多维分析 论文解读|ACL 2024: 演示对多语言情境学习的影响:多维分析
论文解读|ACL 2024: 演示对多语言情境学习的影响:多维分析 摘要:在上下文中学习是一种流行的推理策略,其中大型语言模型仅通过少量标记示例就能解决任务,而无需进行任何参数更新。尽管人们对英语上下文中的学习进行了广泛的研究,多语言上下文
2024-08-25 沙九
25
2023|用于特定领域机器翻译的大语言模型微调 2023|用于特定领域机器翻译的大语言模型微调
2023|用于特定领域机器翻译的大语言模型微调 摘要:大型语言模型(LLM)在机器翻译(MT)领域取得了重大进展。然而,它们在特定领域MT中的潜力仍有待探索。当前基于LLM的MT系统仍然面临一些挑战。首先,对于具有上下文学习的LLM,它们的
2024-08-25 沙九
25
2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译 2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译
2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译 摘要:生成式大语言模型(LLMs)进行上下文学习的能力,已经催生了大量研究,探讨如何最好地为各种自然语言处理任务提示模型。在本文中,我们专注于机器翻译(MT),这是一个已被证实
2024-08-25 沙九
04
14
基于Llama的藏文增量预训练及模型开源共享 基于Llama的藏文增量预训练及模型开源共享
一、ChatGPT简要技术回顾为何出圈:不再是传统意义的人机对话系统,而是以自然语言为交互方式的通用语言处理平台。 技术有突破:基础数据+核心模型+优化算法 应用接地气:几乎可以完成所有语言相关的功能 效果超预期:相比于先前系统效果产生
2024-04-14 沙九
14
14
大模型应用的平民化 大模型应用的平民化
一、任务    使用llama.cpp量化部署:以llama.cpp工具为例,介绍模型量化并在本地部署的详细步骤。Windows则可能需要cmake等编译工具的安装。本地快速部署体验推荐使用经过指令精调的
2024-04-14 沙九
14
面向大语言模型的藏语指令数据集构建 面向大语言模型的藏语指令数据集构建
面向大语言模型的藏语指令数据集构建 论文题目:面向大语言模型的藏语指令数据集构建 作者机构:北方工业大学;百度网讯科技有限公司;北京理工大学 1. 摘要    指令微调被认为是增强大语言模型(LL
2024-04-14 沙九
05
18
大语言模型(LLM)微调方法总结 大语言模型(LLM)微调方法总结
大语言模型(LLM)微调方法总结一、引言$\quad$在预训练后,大模型可以获得解决各种任务的通用能力。然而,越来越多的研究表明,大语言模型的能力可以根据特定目标进一步调整。降低大模型微调成本,由于模型规模的增大,传统微调的方法变得难以实现
2023-05-18
04
16
基于生成式的UIE方法阅读笔记 基于生成式的UIE方法阅读笔记
基于生成式的UIE方法一、引言1.1 信息抽取任务$\quad$ 信息抽取(Information extraction,IE)旨在从无结构的自然语言文本中抽取出结构化的信息,但是不同的信息抽取任务都有不同的结构,且差异较大。如下图1所示:
2023-04-16
08
SELF-INSTRUCT:将语言模型与自生成指令对齐 SELF-INSTRUCT:将语言模型与自生成指令对齐
一、引言$\quad$随着大规模语言模型(LLM)的能力范围越来越广,其中有两个关键的组成部分: 大型预训练语言模型(LM) 和人类书写的指令数据。然而,①现有指令微调严重依赖于人编写的指令数据,这些数据在规模、多样性和创造性等方面都受限,
2023-04-08
08
总结GPT系列以及ChatGPT训练步骤 总结GPT系列以及ChatGPT训练步骤
总结GPT系列以及ChatGPT训练步骤一、引言$\quad$ 近期ChatGPT在大众眼里的热度越来越热,它Prompt出了我的焦虑,于是最近一直在补大模型相关的工作。另外,北京市经济和信息化局在北京人工智能产业创新发展大会上,其中提到支
2023-04-08
1 / 5
s's