今天使用开源的大模型对客服对话内容进行概要总结测试

背景

接了一个将客服人员与用户的对话内容进行语音转文本，然后进行概要总结的需求。尝试在消费级显卡上进行测试，看看哪一个是可以直接拿来使用而且效果比较好的。

本地部署的大模型清单：

| NAME | ID | SIZE | MODIFIED |
| ----------------------------------------- | ------------ | ------ | ----------- |
| llama3:70b | 786f3184aec0 | 39 GB | 12 days ago |
| llama3:latest | 365c0bd3c000 | 4.7 GB | 12 days ago |
| deepseek-v2:latest | 7c8c332f2df7 | 8.9 GB | 12 days ago |
| llama3-groq-tool-use:latest | 55065f5d86c6 | 4.7 GB | 12 days ago |
| wangshenzhi/gemma2-9b-chinese-chat:latest | 1aa291c055a7 | 5.8 GB | 2 weeks ago |
| glm4:9b | 5b699761eca5 | 5.5 GB | 2 weeks ago |
| gemma2:latest | c19987e1e6e2 | 5.4 GB | 4 weeks ago |
| gemma2:27b | 371038893ee3 | 15 GB | 4 weeks ago |
| qwen2:72b | 14066dfa503f | 41 GB | 4 weeks ago |
| qwen2:7b | e0d4e1163c58 | 4.4 GB | 4 weeks ago |

效果评价

在相同提示词下，针对用户意图概括、客服处理过程概括、对问题的定位是否识别准确三个方面进行打分。分别请了客服人员、大模型岗位同事、用户代表参与，选取最终平均值。