分类技术专业下的文章 - 自由翱翔：十年学习成长之路

这个周末，我搭建起了属于自己的三位一体AI系统

这个周末，我终于把脑子里想了很久的一套 AI 能力架构，真正搭起来了。不是那种“装几个工具”的拼装，而是开始有点“系统”的味道了。三个模块，各有分工，也开始有一点协同的感觉。第一块，是个人助理。这一块我基本是沿用了之前折腾的 hermes 智能体。之前在博客里也写过，我是把它部署在群晖 NAS 上，让它长期在线，做信息的收集和处理。相比云端方案，这种“本地常驻”的感觉更像一个真正属于自己的助手——稳定、可控，而且可以慢慢喂数据。接下来我打算把自己过往的日记逐步整理进去，让它真正理解我的行为模式和决策逻辑，而不是只做一个“工具型 AI”。我希望它未来更像一个“长期记忆 + 认知增强”的角色。第二块，是家庭助手。这一块是我自己手搓出来的。从架构到功能，基本都是围绕“语音理解 + 意图识别”来做的。说白了，就是希望它能听懂我说什么，并且知道我要干什么。目前最核心的一件事情，是把它和我的投资体系打通。包括仓位信息、调仓提醒、策略触发这些内容，逐步让它接入。比如：市场有波动，它可以提醒到达某个策略条件，它可以提示甚至执行日常也可以做一些简单的状态汇总这一块其实是整个系统里“最有执行力”的部分。它

技术专业 · 04-19

这个周末，我搭建起了属于自己的三位一体AI系统

LiteLLM 模型分流配置实录

今天花了点时间把 LiteLLM 网关的模型分流策略彻底梳理了一遍，记录一下整个思路和最终配置。为什么需要模型分流我的 AI 基础设施是这样的：Telegram → Hermes → LiteLLM 网关 → 各模型LiteLLM 作为统一网关，对外暴露一个 OpenAI 兼容接口，后端接了十几个模型。Hermes 只需要知道 ai.XXX.com 这一个地址，不需要关心底层用的是哪个模型。这样做的好处是：模型随时可以替换、升级、切换，Hermes 完全无感知。模型池构成最终配置了以下模型：付费模型（按量计费，极低成本）DeepSeek V3 — 中文最强，输入 $0.27/百万 token，性价比极高Gemini 3 Flash — Google 最新快速模型，支持多模态，免费额度充足Gemini 3.1 Pro — 强推理，限速时作为 Pro 级备用NVIDIA NIM 免费模型meta/llama-3.3-70b-instruct — 通用英文主力minimaxai/minimax-m2.5 — 中文能力强moonshotai/kimi-k2.5 — 推理能力强z-ai/glm

技术专业 · 04-19

LiteLLM 模型分流配置实录

群晖 NAS 上的 Hermes 部署实录

昨天在vps将Hermes走通，今天使用了一下，总体感觉比openclaw要好，信息比较简洁，配置文件也很清晰。考虑将其作为我的内网的服务，希望逐步将其作为投资平台、家庭日记等核心内容与外部交互的AI能力通道，因此决定将 Hermes 从 VPS 迁移到了群晖 NAS上，顺便把模型路由策略彻底重新设计了一遍。记录一下整个过程，包括踩过的坑。为什么迁移到 NAS迁移到 NAS 之后，Hermes 通过docker仍然限定在我的家庭网络中，但是可以通过逐步的授权逐渐接触我的家庭日志、投资记录等信息，成为对内的AI能力中枢。最终形成，外呼信息抓取以openclaw为主的vps架构，内容信息及投资关联通过内部的docker上的hermes，这样架构更清晰，VPS 上的 Hermes 直接停掉并禁用。部署过程DS218plus 上用 Docker Compose 部署，配置非常简洁：yamlversion: "3.8" services: hermes: image: nousresearch/hermes-agent:latest container_n

技术专业 · 04-19

群晖 NAS 上的 Hermes 部署实录

Hermes：我的新 AI 助手上线记

openclaw 的热度正在以肉眼可见的速度下降，最近很多人在讨论使用 hermes。今天晚上我也了解了一下这个智能体，别的还好说，最吸引我的就是它的 Token 消耗量：它的 Token 压缩率可以达到一半以上。据说在一些特定场景下甚至能达到 70%。这一点对我非常有吸引力。众所周知，Openclaw 使用中最大的问题就是 Token 消耗量巨大。有个段子说，某公司通过大模型实现了一些功能来替代人工，但实际上在大模型上的投入比雇人还要高。所以，能用最小的代价实现原有的功能，就是它最强大的地方。另外一点是，我觉得它更适合我所需要的场景，Hermes更像一个工作助理，从而能更好地协助我工作。相比之下，Openclaw 比较“重”，它更多地是依靠大量调用外部能力的拓展性。俗话说“成年人不做选择题”，所以今天我也找了一台 VPS，把这个智能体装上体验了一下。目前的感觉是：安装体验：因为我安装 Openclaw 比较早，当时的版本不稳定，过程中遇到的问题很多，安装比较繁琐。相对来说，现在这个智能体就非常简单，支持一键安装。配置与速度：界面化配置非常方便，配上 NVIDIA 的免费模型，再搭一个

技术专业 · 04-18

Hermes：我的新 AI 助手上线记

在真实的使用场景测试模型效果

写在前面:最近需要一个在葡萄牙语方面比较强的模型。我们在选择一个模型的时候优先选择的是模型的参数，是否参数决定结果？最好是将参数圈定范围内的模型使用真实的应用场景去测试验证，用实际效果来说话。这篇记录的是我用真实考试场景题目做盲测,对比两个候选模型的过程和结论。一开始我倾向于其中一个,但实际测下来结果打了脸。背景:为什么这两个模型?在 12G 显存的预算下,能跑 pt-PT 的本地模型其实不多。经过前期筛选,有两个都能用 ollama pull 一行命令搞定的候选:候选 A: aya-expanse:8bCohere Labs 出品,支持 23 种语言的多语言旗舰模型。背后有完整的论文、公开评测、DPO 偏好训练、模型合并等一整套方法论。Arena-Hard-Auto 多语言评测里在同级别打败了 Gemma 2、Qwen 2.5、Llama 3.1。透明度高、社区口碑好、工业级制作。候选 B: jobautomation/OpenEuroLLM-PortugueseOllama 社区一位用户(jobautomation)基于 Gemma 3 在葡萄牙语语料上微调的个人项目。没有基准测试

技术专业 · 04-18

在真实的使用场景测试模型效果

先存量沉淀，后智能生成

最近负责一个稽核规则AI生成的项目方案的编写。在做稽核规则AI方案的时候，其实一开始我们也考虑过从底层数据、业务规则一步一步梳理上来，但很快发现这种路径效率太低，而且周期不可控。相比之下，我们更倾向于走一条把现有稽核系统中已经沉淀下来的资产用起来，通过脚本反向生成稽核规则和字典库，相当于站在已有成果之上去做AI能力的构建，而不是从零开始重造一套体系。把第一阶段的重点放在“存量”而不是“增量”。核心原因在于，现有的稽核脚本本身就是经过长期生产验证的结果，业务逻辑成熟、可靠性高，是最优质的一批训练数据。同时，无论是集团侧的收入保障体系，还是cBSS稽核、省内个性化稽核，这三套体系其实已经覆盖了绝大多数主流场景，短期内并不存在“数据不够用”的问题。优先走“脚本 → AI解析 → 人工确认 → 入库”这一条路径，把生产环境中已经验证过的SQL脚本作为核心输入，让AI去理解和结构化这些规则，再由人工进行把关，最终沉淀成标准化的知识库。在这个基础逐步夯实之后，才考虑逐步开放自然语言直接生成规则的能力，但前提始终是结果可控、可审核、可回滚。在这种情况下，优先把存量资产进行结构化沉淀，一方面可以快速形

技术专业 · 04-18

先存量沉淀，后智能生成

VibeVoice 环境搭建日记（ASR + TTS探索版）

今天在nvdia的机器上安装了微软开源的VibeVoice，目前只是看看效果，以评估后续是否进行一些场景开发中使用。一、目标搭建并验证一套语音处理能力：音频 → VibeVoice → 自动生成 SRT 文本 → VibeVoice → 语音文件（探索）并评估其在以下场景的可用性：视频字幕生成多说话人识别中文/葡语语音生成能力后续接入视频生成流水线（MoviePy）二、环境准备1️⃣ 基础环境系统：Ubuntu（GPU服务器）Python：3.9（已存在）GPU：已配置 CUDA2️⃣ 创建虚拟环境python3 -m venv vibevoice-env source vibevoice-env/bin/activate三、代码获取与安装1️⃣ 克隆项目git clone https://github.com/microsoft/VibeVoice.git cd VibeVoice2️⃣ 关键问题（踩坑记录）❌ 执行：pip install -r requirements.txt报错：没有 requirements.txt👉 原因：项目使用 pyproject.toml 管理依赖（新

技术专业 · 04-18

VibeVoice 环境搭建日记（ASR + TTS探索版）

Ubuntu 网络唤醒配置后关机自动重启问题排查记录

背景家里有一台装了 Ubuntu 的 GPU 服务器（hostname: gpu-nvdia），平时配置了网络唤醒（WOL），需要跑大模型时远程发 magic packet 唤醒，用完后 SSH 执行关机。最近出现了一个奇怪的问题：执行关机命令后，机器成功关机，但大约十几秒钟后会自动重新启动。排查过程第一步：确认关机命令本身没问题远程 SSH 执行关机时，有一个常见坑：SSH 断开时 shutdown 进程被 SIGHUP 信号中断，导致关机流程没走完。改用以下方式确保关机进程不受 SSH 断开影响：bashsudo systemd-run --on-active=5 systemctl poweroff执行后机器确实正常关机了，但十几秒后仍然自动重启。说明问题不在关机命令本身。第二步：查看启动日志和唤醒设备查看 ACPI 唤醒设备列表和启动记录：bashsudo journalctl -b 0 | grep -iE "wake|wol|acpi|power|pme" cat /proc/acpi/wakeup last -x | head -30从 last -x

技术专业 · 04-18

Ubuntu 网络唤醒配置后关机自动重启问题排查记录

RemNote iPhone 端 Flashcard 字体太小？用 CSS 解决

换了新 iPhone 之后，打开 RemNote 刷葡语单词卡，发现 flashcard 上的字小得让人皱眉。戴着眼镜看还是费劲，280 张卡片刷下来眼睛很累。直觉反应是去 Settings 找字体设置——翻遍了 Appearance 选项，什么都没有。去社区搜了一下，发现这是一个被用户抱怨了两年多的老问题。RemNote 官方的回复是："目前唯一的解决方案是使用自定义 CSS，我们希望在未来的更新中加入这个设置。"两年过去了，功能还没上线。那就自己动手。第一步：找到 Custom CSS 入口RemNote → Settings → 搜索 "CSS" → 自定义 CSS → 添加空白 CSS 代码块。第二步：先用核弹测试 CSS 是否生效网上能找到的教程大多写于 2020 年，那时候的 class 名称早就随版本迭代改掉了。与其逐个试过时的选择器，不如先用通配符验证 CSS 注入本身是否有效：css* { font-size: 24px !important; }保存后进入 flashcard 复习界面——如果全部文字都变大了，说明 CSS 注入有效，只是选择器不对。如果毫无变化

技术专业 · 04-14

RemNote iPhone 端 Flashcard 字体太小？用 CSS 解决

OpenClaw 的周末“零成本”改造记

背景这个周末花了不少时间对 OpenClaw 做了一次系统性改造。起因很简单：之前订购的 Google Cloud 300 美元免费额度到期，Gemini 的 API 调用开始大面积报 429（超额限制），bot 彻底无法回复。需要找到一个尽可能低成本、甚至零成本的方式让系统继续跑起来。最终确定了三层模型链的方案，整体算下来基本相当于零额外成本运行。解决方案：三层模型链主模型：ChatGPT Plus (openai-codex/gpt-5.4)通过低价区订阅，费用本身不高。近期语言考试在即，Codex 编码需求不多，Premium 额度消耗有限，作为日常主力模型。中间层 Fallback：NVIDIA NIM 免费模型 × 3引入 Kimi K2.5、MiniMax M2.5、GLM-5 三个模型。主模型额度耗尽或出现问题时自动切换，完全免费。托底层：OpenRouter Freeopenrouter/free 自动从可用免费模型中选择最合适的，每天 200 次请求，作为最终兜底，无需任何费用。关键操作记录① NVIDIA NIM API 接入前往 build.nvidia.com

技术专业 · 04-11

OpenClaw 的周末“零成本”改造记

Theme Jasmine by Kent Liao