Skip to content

Instantly share code, notes, and snippets.

@sorrycc
Created January 7, 2026 05:56
Show Gist options
  • Select an option

  • Save sorrycc/6d27983fa943e1486dff74f488e0172e to your computer and use it in GitHub Desktop.

Select an option

Save sorrycc/6d27983fa943e1486dff74f488e0172e to your computer and use it in GitHub Desktop.
Flova.ai Tools - AI视频创作能力清单
date created date modified
2026-01-07
2026-01-07

请列出你对最终用户公开、且允许用户触发的能力/动作清单(不要包含内部函数名、实现细节)。对每项能力给出:用途、我需要提供的输入字段、输出形式、常见失败原因/限制、一个示例请求。


1) 创建项目与创意概述

  • 用途:把你的想法整理成可执行的视频创作方向(题材、受众、风格、基调、时长建议等)。
  • 你提供的输入字段
    • 主题或一句话创意
    • 目标受众(可选)
    • 风格/参考方向(可选)
    • 视频时长(可选)
    • 画幅比例(可选,如 16:9、9:16、1:1)
    • 成片语言(可选,如中文/英文,用于旁白或对白)
  • 输出形式:项目创意概述(文字),作为后续脚本/分镜/生成依据。
  • 常见失败原因/限制
    • 需求过于笼统:只有一句'做个视频',缺少主题、受众、风格或时长目标。
    • 目标互相冲突:比如要求'严肃金融科普'同时又要'无厘头搞笑'但未说明优先级。
    • 未给出成片语言或画幅,导致后续脚本与镜头节奏难以对齐。
  • 示例请求:请帮我做一个 60 秒的短视频创意概述,主题是'AI 如何改变电商客服',受众是新入行运营,风格偏科技感但轻松,画幅 9:16,成片中文。

2) 生成或改写脚本

  • 用途:产出完整旁白/对白、情节结构、节奏(适合做成视频)。
  • 你提供的输入字段
    • 故事/要点/大纲 或 你已有脚本
    • 目标时长
    • 语言
    • 叙事口吻(科普/广告/纪录片/剧情等,可选)
  • 输出形式:脚本文本(可阅读、可再迭代修改)。
  • 常见失败原因/限制
    • 缺少时长与结构要求:同一主题可写成 30 秒或 5 分钟,节奏差异巨大。
    • 事实性内容未给来源或关键点,容易出现信息不完整或你期望的观点缺失。
    • 口吻不明确:广告、科普、纪录片、剧情的写法差别很大。
  • 示例请求:把下面要点写成 90 秒中文口播脚本,语气像 B 站科普,结尾要有行动号召:要点是……

3) 生成或调整分镜(Storyboard)

  • 用途:把脚本/想法拆成可拍的镜头清单:镜头描述、时长分配、关键画面、可能的音频层需求。
  • 你提供的输入字段
    • 脚本或故事描述
    • 镜头风格偏好(写实/动画/手绘等,可选)
    • 是否需要关键角色/道具设定(可选)
  • 输出形式:结构化分镜(镜头列表 + 关键元素设定 + 音频层规划)。
  • 常见失败原因/限制
    • 原始脚本缺少场景信息:比如只有抽象观点,没有可视化元素,分镜会偏概念化。
    • 对镜头风格无约束:写实/动画/手绘会影响镜头描述用词与可生成性。
    • 需要'大量镜头'但总时长很短,导致每镜头时长过短不利于观看。
  • 示例请求:根据这段 60 秒口播脚本,帮我拆成 8 个镜头的分镜,偏 2D 动画风,每镜头写清楚画面主体、镜头运动和大致时长。

4) 规划画面生成方案(模型与流程建议)

  • 用途:根据分镜,给出更适合稳定出片的生成路径建议(例如先出角色设定图,再做镜头关键帧,再转视频)。
  • 你提供的输入字段
    • 分镜内容
    • 偏好的生成方式或模型偏好(可选)
    • 画质/速度倾向(可选)
  • 输出形式:生成方案说明(文字),用于指导后续批量出图/出视频。
  • 常见失败原因/限制
    • 目标不清:更看重一致性还是速度/画质,决定了推荐路径。
    • 需要强一致性的角色多镜头但不愿先做角色设定图,会显著增加返工概率。
    • 部分视频模型对提示词与素材合规要求更严格,可能出现生成失败,需要备选方案。
  • 示例请求:我想做 30 秒的连续剧情短片,有固定主角。请给我一条稳定的一致性生成方案,说明先做哪些设定图、再做哪些关键帧、最后怎么转视频。

5) 生成关键元素设定图(角色/道具/场景基准图)

  • 用途:先把关键角色/物件定下来,提升后续镜头一致性。
  • 你提供的输入字段
    • 角色/道具/场景描述(外观、服装、材质、年代、情绪等)
    • 风格要求(写实/二次元/3D 等)
    • 参考图(可选)
  • 输出形式:图片资产(可多版本),用于锁定统一视觉。
  • 常见失败原因/限制
    • 角色描述不完整:没说年龄感、发型、服装、材质、标志物,导致版本差异大。
    • 参考图风格混杂:多张参考彼此矛盾,会拉扯出不稳定结果。
    • 需要'完全复刻某个知名 IP 角色'会触发合规限制或风格不稳定,建议改为原创化描述。
  • 示例请求:生成主角设定图:25 岁女性工程师,短黑发,浅灰连帽外套+工牌,手持平板电脑,表情自信,赛博朋克写实风,干净背景,出 4 个版本供我选。

6) 生成镜头关键帧(每个镜头的起始/结束帧或关键画面)

  • 用途:为每个镜头确定具体画面构图与内容,便于再转成视频或直接作为定帧画面。
  • 你提供的输入字段
    • 镜头描述(分镜里已有时通常无需重复)
    • 参考图/角色设定图(可选,但强烈建议用于一致性)
    • 画面风格与构图偏好(可选)
  • 输出形式:图片资产(按镜头组织)。
  • 常见失败原因/限制
    • 没有锁定角色设定就直接出多镜头关键帧,一致性容易漂移。
    • 镜头描述缺少构图信息:景别、机位、主体动作不清会导致画面随机性大。
    • 需要复杂多人互动但不给站位/动作关系,容易出现肢体错误或关系混乱。
  • 示例请求:为镜头 3 生成起始帧和结束帧:主角走进办公室,镜头从走廊跟拍推进到工位,景别从中景到近景,整体色调冷白,保持与主角设定图一致。

7) 把关键帧变成视频(无声或带同步音频)

  • 用途:让镜头动起来;可选择只生成画面(无声)或同时生成带对白/环境声的镜头(带同步音频)。
  • 你提供的输入字段
    • 起始帧(必要)以及可选的结束帧
    • 镜头运动/动作描述(可选但建议)
    • 时长、分辨率等偏好(可选,受具体模型限制)
    • 是否需要镜头自带对白/环境声(可选)
  • 输出形式:视频片段资产(可能包含或不包含音频,取决于你的选择)。
  • 常见失败原因/限制
    • 时长/分辨率受模型约束:有的模型只支持 5 秒或 10 秒等固定时长。
    • 动作过于复杂或提示词不明确会导致运动奇怪、人物变形。
    • 带同步音频的镜头可能与后期旁白轨重叠,需要提前规划是否使用镜头自带对白。
    • 部分模型对素材合规更敏感,包含某些敏感设定时可能直接失败。
  • 示例请求:用这张起始帧生成 6 秒视频:镜头缓慢推近,主角抬头微笑并点头,背景屏幕光线闪烁,画面写实,生成无声版本。

8) 修改/重生成某张图或某个镜头

  • 用途:当结果不满意时,按你的反馈定向修正(人物一致性、表情、构图、背景、风格等)。
  • 你提供的输入字段
    • 需要修改的目标(哪张图/哪个镜头)
    • 具体反馈(哪里不对、想怎么改)
    • 可选参考(你更喜欢的版本、参考图)
  • 输出形式:更新后的图片/视频新版本(可对比选择)。
  • 常见失败原因/限制
    • 反馈太泛:只说'不好看',缺少要改的点,会导致多次来回。
    • 同时改太多维度:既要换风格又要换构图又要换角色外观,建议分批修改。
    • 如果你希望严格保留某个版本的主体特征,最好指定'以哪个版本为基准'。
  • 示例请求:把镜头 2 的关键帧重做:保留主角脸型和发型不变,把背景改成更明亮的开放式办公室,镜头角度从俯拍改为平视,整体风格更偏写实。

9) 生成配乐(纯音乐)

  • 用途:给视频加背景氛围音乐。
  • 你提供的输入字段
    • 音乐风格与情绪(紧张/温暖/科技感等)
    • 时长(通常与视频时长匹配)
    • 是否循环/段落结构偏好(可选)
  • 输出形式:音频文件(配乐)。
  • 常见失败原因/限制
    • 描述过于抽象:只说'高级感',建议补充节奏、配器、情绪曲线。
    • 要求'像某位知名歌手/乐队'可能触发合规或导致结果不可控,建议用风格元素描述替代。
    • 成片需要精确卡点时,单次生成未必完全贴合,需要多版本或后期剪辑适配。
  • 示例请求:生成 60 秒纯音乐配乐:轻快科技感,100 BPM 左右,合成器主导,前 10 秒铺垫,中段更有律动,结尾收束,适合 9:16 科普短视频。

10) 生成歌曲(含歌词演唱)

  • 用途:为视频制作主题曲/片尾曲。
  • 你提供的输入字段
    • 歌词(或你希望我先帮你写歌词)
    • 曲风与人声感觉
    • 时长(可选)
  • 输出形式:歌曲音频文件。
  • 常见失败原因/限制
    • 歌词节奏与段落不清(主歌/副歌/桥段),会导致演唱结构不稳定。
    • 明确指定'模仿某歌手'有较高合规风险,建议改成'女声清亮、气声、流行 R&B'等描述。
    • 歌曲长度与视频长度不一致时,通常需要后期裁切或循环处理。
  • 示例请求:用下面歌词生成一首 90 秒歌曲:曲风是轻摇滚+电子,男声,副歌要更燃。歌词:……

11) 生成旁白/配音(TTS)

  • 用途:把脚本旁白变成可用的人声轨。
  • 你提供的输入字段
    • 旁白文本
    • 语言
    • 声音偏好(性别、年龄感、语速、情绪等,可选)
  • 输出形式:旁白音频文件(可多版本选择)。
  • 常见失败原因/限制
    • 文本不适合口语:长句太多、缺少停顿标记,会影响自然度。
    • 语言/口音/角色设定不清:比如要'台湾腔'或'普通话播音腔'未说明。
    • 需要多人对话但只提供一段文本,未标注角色与分句,会难以分配声音。
  • 示例请求:把这段中文口播生成旁白:女声 25-35 岁,语速稍快但清晰,语气专业又亲和。文本:……

12) 组装成片(时间线剪辑与音频叠加)

  • 用途:把镜头视频/图片按分镜顺序拼成完整视频,并叠加配乐与旁白。
  • 你提供的输入字段
    • 已生成的镜头资产(图片/视频)
    • 音频资产(配乐/旁白,可选)
    • 基本剪辑意图(例如每段时长、是否需要某段音乐覆盖某些镜头,可选)
  • 输出形式:可预览的成片版本(时间线中的完整序列)。
  • 常见失败原因/限制
    • 素材不全:缺镜头视频或缺音频,会导致成片无法完整拼接。
    • 高级后期能力限制:不支持加字幕、转场、滤镜、复杂动效等(需要导出后去专业剪辑软件做)。
    • 音频层冲突:镜头自带声音 + 旁白 + 配乐同时存在时,若不指定优先级可能听感拥挤。
  • 示例请求:把镜头 1-8 按分镜顺序组装成 60 秒成片,配乐全程铺底,旁白覆盖镜头 2-8,镜头自带声音全部关闭。

13) 调整成片剪辑(顺序/时长/替换镜头/音频层)

  • 用途:对已组装的成片做结构性微调。
  • 你提供的输入字段
    • 你想改的点(例如把第 3 个镜头提前、替换某个镜头版本、配乐音量更低等)
  • 输出形式:更新后的成片版本(可预览)。
  • 常见失败原因/限制
    • 指令不定位:未说明是'第几个镜头'或'哪个时间点',修改会不精确。
    • 需要复杂剪辑(花字、转场、卡点特效)超出当前组装能力,建议导出后在剪辑软件完成。
    • 替换镜头版本但未指定用哪个版本,会造成反复确认。
  • 示例请求:把镜头 3 挪到镜头 5 后面;镜头 2 时长从 6 秒改为 4 秒;配乐音量降低一点,让旁白更突出。

14) 分析你上传的素材(图/音频/文档)

  • 用途:从你的素材里提取关键信息,辅助做分镜、风格对齐或内容改写。
  • 你提供的输入字段
    • 上传的文件
    • 你希望我从中提取什么(例如人物设定、口播要点、画面风格)
  • 输出形式:结构化分析结果(文字/要点/可用于创作的提炼信息)。
  • 常见失败原因/限制
    • 你没说'希望我提取什么',分析目标不明确会导致输出不聚焦。
    • 文档过长且缺少关注范围(例如只想要第 3 章),会浪费时间并影响可用性。
    • 图片/音频质量过低会影响提取准确度。
  • 示例请求:我上传了一份品牌手册 PDF,请提取:主色/辅色、字体风格、语气关键词,以及任何明确的禁用元素,并整理成可用于分镜与画面提示词的要点。

15) 联网搜索与资料整理(可选)

  • 用途:为脚本或画面设定补充事实资料、背景信息、术语解释等。
  • 你提供的输入字段
    • 你要查的主题与范围
    • 偏好的来源类型(可选)
  • 输出形式:搜索摘要与要点整理(文字)。
  • 常见失败原因/限制
    • 搜索范围太宽:比如'讲讲新能源',建议限定国家/年份/细分主题。
    • 对来源要求不清:需要学术、媒体报道还是官方统计,决定摘要可信度与表述方式。
    • 即使做了摘要,最终脚本仍建议你对关键事实做人工复核(尤其是数据与时间敏感信息)。
  • 示例请求:帮我搜集并整理 2023-2025 年'AIGC 在电商客服应用'的公开案例与关键数据,优先官方/大厂白皮书,其次权威媒体报道,输出 10 条要点并附来源链接。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment