开发纪实 · DEV LOG

短视频工坊 + 真实云端后端
从前端原型到能出片的系统

video.sinogenomics.com(宏泰AI 金融内容平台)新增「短视频工坊 / 素材库」,并按"本机不跑模型、只用云端商业大模型"的约束,接上一套可出片的真实后端。本页记录开发主线与全部命令日志。

周期 2026-06-23 → 06-24 站点 mzh.video.sinogenomics.com 代码 /Disk01/linxi
5
开发阶段
105
调研 agent
11
后端模块
37
自动化断言全过
Overview

做了什么

三件事:① 把「数字人」模块升级成三步式短视频工坊并新增素材库;② 在 GitHub 上对标 sphere.hk 做了一轮深度调研;③ 在"只用云端、本机不跑任何模型"的硬约束下,接上真实后端——配音、改写、合成现在真能出片

🎬短视频工坊

文案三来源(脚本引擎 / 自己写 / 转发参考视频提取)→ 选素材库形象+背景 → 合成 9:16 口播短视频。含实时字数与合规快查。

🗂️素材库

管理个人形象与背景素材,上传即用;落地页爆款卡片「用此视频做一条」一键跨页交接到工坊。

🔍开源对标调研

105 个 agent、对抗式核验:无单一开源系统对标整页;产出可商用的拼装栈与授权风险清单。

⚙️真实云端后端

provider 适配层:配音(含粤语)/改写/合成已真接;数字人(HeyGen)、ASR 留 .env 配置位,填 key 即用。

Timeline

开发主线

按时间顺序的五个阶段(北京时间)。

Architecture

技术架构

给静态站的 serve.mjs 挂上 /api/*(动态加载,后端崩也不拖垮静态站;零 npm 依赖)。一条流水线串起配音→数字人/兜底→合成。

✍️
文案手动改 / 自己写 / 转发参考视频→ASR提取→Claude改写
已接真*
🔊
AI 配音 TTSedge-tts(uvx)· 含粤语 zh-HK · 云端免费
已接真
🧑‍💼
数字人形象 + 对口型HeyGen 云端 API(用我们的配音驱动→粤语可对口型)
配置位
🎞️
合成成片FFmpeg 烧中文字幕 + 品牌水印 · 9:16 · 数字人未配置时纯背景+配音兜底
已接真

* 文案改写已接真(Claude);参考视频→提取文案的 ASR 为配置位(填 ASR_API_KEY 即真实转写)。

能力实现(GitHub 现成 / 本机已有)状态
Status

当前状态

除"数字人形象"必须开通 HeyGen 账号外,其余(含粤语配音、AI 改写、真实出片)已在线上跑。

✅ 已公网真实可用

试听配音(含粤语)· AI 改写成我的口吻 · 合成真实 9:16 MP4(中文字幕 + 合规水印)。无需任何付费 key。

⏳ 待开通填 key

数字人形象(HeyGen,填 HEYGEN_API_KEY + 形象 id)· 参考视频真实提稿(Whisper,填 ASR_API_KEY)。改 /Disk01/linxi/.env 后 restart 即生效,免改代码。

🛡️ 不挂保障

后端不可用时前端自动回退原纯模拟,演示永不崩;密钥放 chmod 600 的 .env;execFile 无 shell 防注入。

edge-tts 含粤语Claude 改写FFmpeg 合成 yt-dlp 抓链HeyGen 配置位Whisper 配置位 fonts-wqy-zenhei零 npm 依赖
Command Log

命令日志

本项目你在对话里下达过的全部命令,时间精确到分钟(北京时间 UTC+8,取自会话记录)。

#时间命令 / 输入产出

说明:#3 与 #4 为同一指令前后 1 分钟两次发送(第二次补上"只用云端、本机不跑模型"的约束);#5 为对话中"数字人厂商 / 推进方式"选择题的回答。其余为直接键入的命令。