一、任务
使用llama.cpp量化部署:以llama.cpp工具为例,介绍模型量化并在本地部署的详细步骤。Windows则可能需要cmake等编译工具的安装。本地快速部署体验推荐使用经过指令精调的Alpaca-2模型,有条件的推荐使用6-bit或者8-bit模型,效果更佳。 下面以藏文Alpaca-2-7B模型为例介绍,运行前请确保:
- 系统应有make(MacOS/Linux自带)或cmake(Windows需自行安装)编译工具
- 建议使用Python 3.10以上编译和运行该工具
二、问题
LLMs动辄数十上百亿的参数,对运行机器的内存提出了很高的要求,毕竟只有将模型权重塞进 RAM,推理方可进行。模型加载至内存后,推理顺畅与否,又与 CPU、GPU 等计算单元密切相关,要知道很多大语言模型是在顶级专用 GPU 集群上加速训练的,换到个人电脑上,五秒蹦出一个词,也很难说用了起来。
三、方案
四、新意
五、贡献
六、价值
七、效果
safetensors.index.json.
[INFO|tokenization_utils_base.py:2432] 2024-04-14 04:45:45,489 >> tokenize