白嫖的GPU算力足以训练一个自己的大模型

技术专业 · 05-10

前言

在本地部署微调模型的过程中,遇到了严重的挫折,为了追求性价比购买的AMD显卡,使用训练好的模型还好,但是尝试在本地部署微调环境时才发现问题比较多。

  1. 在支持的生态方面远远落后于NVIDIA显卡,英伟达的cuda实在是太方便了,近乎傻瓜化的安全就可以使用,而AMD的ROCm安装过程中各种报错,查找资料修正颇为费劲。关键是我还准备了一个Ubuntu的24.04的新系统,遇到问题后可供借鉴的资料太少。
  2. 费尽力气安装完成后,发现AMD的官网中ROCm不支持我的这个消费级显卡。
  3. 再次回首看了一眼NVIDIA的显卡价格,实在超出我的预算。
    多重打击下决定使用网络算力进行模型微调,在众多的选择中google的Colab服务,为什么选择Colab?因为免费,其它的都不是考虑的问题了。
    暂时放弃本地部署后,网络微调让我重拾信心,可以在完全免费的情况下微调出有一个自己“调教”的大模型出来。前提是你的数据不涉及隐私和数据安全的内容。

部署步骤

1. 打开项目unsloth

https://github.com/unslothai/unsloth
选择Llama3进行训练,一键引导到google的Colab上进行模型执行:

2. 选择GPU类型

免费版本选择T4的GPU就可以,有15G的显卡内存。

3. 按照unsloth的步骤一步一步执行

执行到这一步的时候需要进行一下修改

替换为我们自己的训练集。
训练集的格式如下:

可以使用chatgpt或者python脚本将我们的题库或者文本转为这种问答方式。生成后的json文件需要上传到https://huggingface.co ,将huggingface的联接地址替换到colab的代码中。
继续后面的执行。

完成后测试效果

训练后询问“你是谁?“这句话我是见了一个模型问一次,而且已经具备三种以上语言的提问能力。

可以看到经过微调以后得大模型已经具备回答专业性问题的能力

这个回答的也非常的不错,相信让它去参加专业技能考试,能拿到合格以上的成绩。

Theme Jasmine by Kent Liao