开发纪实 · DEV LOG

短视频工坊＋真实云端后端
从前端原型到能出片的系统

为 video.sinogenomics.com（宏泰AI 金融内容平台）新增「短视频工坊 / 素材库」，并按"本机不跑模型、只用云端商业大模型"的约束，接上一套可出片的真实后端。本页记录开发主线与全部命令日志。

周期 2026-06-23 → 06-24 站点 mzh.video.sinogenomics.com 代码 /Disk01/linxi

开发阶段

105

调研 agent

后端模块

自动化断言全过

Overview

做了什么

三件事：① 把「数字人」模块升级成三步式短视频工坊并新增素材库；② 在 GitHub 上对标 sphere.hk 做了一轮深度调研；③ 在"只用云端、本机不跑任何模型"的硬约束下，接上真实后端——配音、改写、合成现在真能出片。

🎬短视频工坊

文案三来源（脚本引擎 / 自己写 / 转发参考视频提取）→ 选素材库形象+背景 → 合成 9:16 口播短视频。含实时字数与合规快查。

🗂️素材库

管理个人形象与背景素材，上传即用；落地页爆款卡片「用此视频做一条」一键跨页交接到工坊。

🔍开源对标调研

105 个 agent、对抗式核验：无单一开源系统对标整页；产出可商用的拼装栈与授权风险清单。

⚙️真实云端后端

provider 适配层：配音(含粤语)/改写/合成已真接；数字人(HeyGen)、ASR 留 .env 配置位，填 key 即用。

Timeline

开发主线

按时间顺序的五个阶段（北京时间）。

Architecture

技术架构

给静态站的 serve.mjs 挂上 /api/*（动态加载，后端崩也不拖垮静态站；零 npm 依赖）。一条流水线串起配音→数字人/兜底→合成。

✍️

文案手动改 / 自己写 / 转发参考视频→ASR提取→Claude改写

已接真*

🔊

AI 配音 TTSedge-tts（uvx）· 含粤语 zh-HK · 云端免费

已接真

🧑‍💼

数字人形象 + 对口型HeyGen 云端 API（用我们的配音驱动→粤语可对口型）

配置位

🎞️

合成成片FFmpeg 烧中文字幕 + 品牌水印 · 9:16 · 数字人未配置时纯背景+配音兜底

已接真

* 文案改写已接真（Claude）；参考视频→提取文案的 ASR 为配置位（填 ASR_API_KEY 即真实转写）。

能力	实现（GitHub 现成 / 本机已有）	状态

Status

当前状态

除"数字人形象"必须开通 HeyGen 账号外，其余（含粤语配音、AI 改写、真实出片）已在线上跑。

✅ 已公网真实可用

试听配音（含粤语）· AI 改写成我的口吻 · 合成真实 9:16 MP4（中文字幕 + 合规水印）。无需任何付费 key。

⏳ 待开通填 key

数字人形象（HeyGen，填 HEYGEN_API_KEY + 形象 id）· 参考视频真实提稿（Whisper，填 ASR_API_KEY）。改 /Disk01/linxi/.env 后 restart 即生效，免改代码。

🛡️ 不挂保障

后端不可用时前端自动回退原纯模拟，演示永不崩；密钥放 chmod 600 的 .env；execFile 无 shell 防注入。

edge-tts 含粤语Claude 改写FFmpeg 合成 yt-dlp 抓链HeyGen 配置位Whisper 配置位 fonts-wqy-zenhei零 npm 依赖

Command Log

命令日志

本项目你在对话里下达过的全部命令，时间精确到分钟（北京时间 UTC+8，取自会话记录）。

#	时间	命令 / 输入	产出

说明：#3 与 #4 为同一指令前后 1 分钟两次发送（第二次补上"只用云端、本机不跑模型"的约束）；#5 为对话中"数字人厂商 / 推进方式"选择题的回答。其余为直接键入的命令。

短视频工坊 ＋ 真实云端后端从前端原型到能出片的系统