沙九的博客

我的梦想

不是每个人都应该像我这样去建造一座水晶大教堂，但是每个人都应该拥有自己的梦想，设计自己的梦想，追求自己的梦想，实现自己的梦想。梦想是生命的灵魂，是心灵的灯塔，是引导人走向成功的信仰。有了崇高的梦想，只要矢志不渝地追求，梦想就会成为现实，奋斗就会变成壮举，生命就会创造奇迹。——罗伯·舒乐

                            
                            EMNLP 2023:基于微调和上下文学习的机器翻译大型语言模型
                        
                                EMNLP 2023:基于微调和上下文学习的机器翻译大型语言模型
摘要：大型语言模型（LLMs）是机器翻译（MT）的一个有前景的途径。然而，当前基于LLM的MT系统存在脆弱性：其有效性高度依赖于挑选的少数示例，而且它们通常需要额外的后处理以
                            
                                2024-08-25
                            
                                沙九
                                
                             论文解读|ACL 2024: 演示对多语言情境学习的影响：多维分析
                        
                                论文解读|ACL 2024: 演示对多语言情境学习的影响：多维分析
摘要：在上下文中学习是一种流行的推理策略，其中大型语言模型仅通过少量标记示例就能解决任务，而无需进行任何参数更新。尽管人们对英语上下文中的学习进行了广泛的研究，多语言上下文
                            
                                2024-08-25
                            
                                沙九
                                
                            2023|用于特定领域机器翻译的大语言模型微调
                        
                                2023|用于特定领域机器翻译的大语言模型微调
摘要：大型语言模型(LLM)在机器翻译(MT)领域取得了重大进展。然而，它们在特定领域MT中的潜力仍有待探索。当前基于LLM的MT系统仍然面临一些挑战。首先，对于具有上下文学习的LLM,它们的
                            
                                2024-08-25
                            
                                沙九
                                
                            2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译
                        
                                2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译
摘要：生成式大语言模型（LLMs）进行上下文学习的能力，已经催生了大量研究，探讨如何最好地为各种自然语言处理任务提示模型。在本文中，我们专注于机器翻译（MT），这是一个已被证实
                            
                                2024-08-25
                            
                                沙九
                                
                            基于Llama的藏文增量预训练及模型开源共享
                        
一、ChatGPT简要技术回顾为何出圈：不再是传统意义的人机对话系统，而是以自然语言为交互方式的通用语言处理平台。

技术有突破：基础数据+核心模型+优化算法
应用接地气：几乎可以完成所有语言相关的功能
效果超预期：相比于先前系统效果产生
                            
                                2024-04-14
                            
                                沙九
                                
                            基于safetensors.index.json.
                        
                                2024-04-14
                            
                                沙九
                                
                            大模型应用的平民化
                        
                                一、任务&nbsp; &nbsp; 使用llama.cpp量化部署：以llama.cpp工具为例，介绍模型量化并在本地部署的详细步骤。Windows则可能需要cmake等编译工具的安装。本地快速部署体验推荐使用经过指令精调的
                            
                                2024-04-14
                            
                                沙九
                                
                            面向大语言模型的藏语指令数据集构建
                        
                                面向大语言模型的藏语指令数据集构建

论文题目：面向大语言模型的藏语指令数据集构建

作者机构：北方工业大学；百度网讯科技有限公司；北京理工大学

1. 摘要
&nbsp;&nbsp; 指令微调被认为是增强大语言模型（LL
                            
                                2024-04-14
                            
                                沙九
                                
                            大语言模型(LLM)微调方法总结
                        
                                大语言模型(LLM)微调方法总结一、引言$\quad$在预训练后，大模型可以获得解决各种任务的通用能力。然而，越来越多的研究表明，大语言模型的能力可以根据特定目标进一步调整。降低大模型微调成本，由于模型规模的增大，传统微调的方法变得难以实现
                            
                                2023-05-18
                            
                                    大模型
                                
                            专业
                        
                            基于生成式的UIE方法阅读笔记
                        
                                基于生成式的UIE方法一、引言1.1 信息抽取任务$\quad$ 信息抽取(Information extraction,IE)旨在从无结构的自然语言文本中抽取出结构化的信息，但是不同的信息抽取任务都有不同的结构，且差异较大。如下图1所示：
                            
                                2023-04-16
                            
                                    信息抽取
                                
                            专业
                        
                            SELF-INSTRUCT：将语言模型与自生成指令对齐
                        
                                一、引言$\quad$随着大规模语言模型(LLM)的能力范围越来越广，其中有两个关键的组成部分: 大型预训练语言模型(LM) 和人类书写的指令数据。然而，①现有指令微调严重依赖于人编写的指令数据，这些数据在规模、多样性和创造性等方面都受限，
                            
                                2023-04-08
                            
                                    大模型
                                
                            专业
                        
                            总结GPT系列以及ChatGPT训练步骤
                        
                                总结GPT系列以及ChatGPT训练步骤一、引言$\quad$ 近期ChatGPT在大众眼里的热度越来越热，它Prompt出了我的焦虑，于是最近一直在补大模型相关的工作。另外，北京市经济和信息化局在北京人工智能产业创新发展大会上，其中提到支
                            
                                2023-04-08
                            
                                    大模型
                                
                            专业

SELF-INSTRUCT：将语言模型与自生成指令对齐

vsCode在线与离线安装remote-ssh插件搭建远程开发环境

基于生成式的UIE方法阅读笔记

大语言模型(LLM)微调方法总结

总结GPT系列以及ChatGPT训练步骤

无参数机器翻译遇上对比学习效率和性能我全都要

构建基于医学领域的藏语命名实体识别数据集

超详细Hexo+Github绚丽博客搭建小白教程

面向大语言模型的藏语指令数据集构建

基于Llama的藏文增量预训练及模型开源共享

基于safetensors.index.json.

大模型应用的平民化

2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译

2023|用于特定领域机器翻译的大语言模型微调

论文解读|ACL 2024: 演示对多语言情境学习的影响：多维分析

EMNLP 2023:基于微调和上下文学习的机器翻译大型语言模型