大模型应用的平民化


一、任务

    使用llama.cpp量化部署:以llama.cpp工具为例,介绍模型量化并在本地部署的详细步骤。Windows则可能需要cmake等编译工具的安装。本地快速部署体验推荐使用经过指令精调的Alpaca-2模型,有条件的推荐使用6-bit或者8-bit模型,效果更佳。 下面以藏文Alpaca-2-7B模型为例介绍,运行前请确保:

  • 系统应有make(MacOS/Linux自带)或cmake(Windows需自行安装)编译工具
  • 建议使用Python 3.10以上编译和运行该工具

二、问题

    LLMs动辄数十上百亿的参数,对运行机器的内存提出了很高的要求,毕竟只有将模型权重塞进 RAM,推理方可进行。模型加载至内存后,推理顺畅与否,又与 CPU、GPU 等计算单元密切相关,要知道很多大语言模型是在顶级专用 GPU 集群上加速训练的,换到个人电脑上,五秒蹦出一个词,也很难说用了起来。

三、方案

四、新意

五、贡献

六、价值

七、效果

safetensors.index.json.
[INFO|tokenization_utils_base.py:2432] 2024-04-14 04:45:45,489 >> tokenize


文章作者: 沙九
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 沙九 !
  目录
s's