Grok + Image2 + HyperFrames 协作短片制作报告

最终成片

有声标准版，60 秒。Grok 动态素材只做画面层；所有关键中文、图表和结论由 HyperFrames 控制，千问 Dylan 1.7B 中文旁白负责解说。

这次验证的最佳分工是：Grok 不负责最终文字，不负责精确图表，也不硬做 20 秒到 30 秒的二次扩展。Grok 的价值是把分镜图变成有复杂运动感的素材，HyperFrames 的价值是把素材变成可控、可复现、可读的成片。

由于此前 Grok 20 秒视频继续扩展到 30 秒会被 API 限制拒绝，最终采用剪辑合成路线：多个 8-20 秒片段进入 HyperFrames，统一转码为 CFR 单视频流，再由 HTML 时间轴完成 60 秒短片。

1. Image2 出分镜

先生成 6 张 16:9 分镜图，用来统一构图、色彩、镜头语言和题材气质。

2. Grok 出复杂视频

选择开场、灰度运营样本、视频实测三张分镜图，用 Grok image-to-video 生成 8 秒动态素材。

3. HyperFrames 稳定合成

把 Grok 视频、原报告截图、字幕、评分条和流程图放入 HTML 时间轴，渲染成最终 MP4。

开场分镜生成 8 秒动态素材

灰度运营分镜生成 8 秒动态素材

视频实测分镜生成 8 秒动态素材

环节	记录
Image2	6 张分镜全部生成；其中工具登场和结果对比各有一次超时后重试成功。
Grok	OAuth 可用；视频接口出现过可重试网络错误，重试后 3 段素材全部成功。
转码	Grok MP4 统一转为单视频流 CFR，避免 HyperFrames 寻帧漂移。
千问配音	Voicebox CUDA 后端调用 qwen_custom_voice 1.7B 预置 Dylan 声音，6 段生成后按场景补静音，仅第 2 段小幅压速，整体对齐到 60 秒成片。
HyperFrames	先草稿渲染，再标准版；最终成品 60 秒。

成品页：C:\html\articles\grok-hyperframes-collab\index.html

最终视频：C:\html\articles\grok-hyperframes-collab\assets\grok-hyperframes-60s-voiced-better.mp4

配音音轨：C:\html\articles\grok-hyperframes-collab\assets\voiceover-qwen-dylan-1p7b-better.wav

HyperFrames 工程：F:\codex\projects\grok-hyperframes-collab\hyperframes\grok-hyperframes-60s

源报告：C:\html\articles\grok-search-benchmark\index.html