sorrycc/Flova.ai Tools.md

## Flova.ai Tools.md

      
    Raw
  

              Flova.ai Tools.md
            
          
  date created
  date modified
  
  
  2026-01-07
  2026-01-07
  
  
请列出你对最终用户公开、且允许用户触发的能力/动作清单（不要包含内部函数名、实现细节）。对每项能力给出：用途、我需要提供的输入字段、输出形式、常见失败原因/限制、一个示例请求。


1) 创建项目与创意概述


用途：把你的想法整理成可执行的视频创作方向（题材、受众、风格、基调、时长建议等）。
你提供的输入字段：

主题或一句话创意
目标受众（可选）
风格/参考方向（可选）
视频时长（可选）
画幅比例（可选，如 16:9、9:16、1:1）
成片语言（可选，如中文/英文，用于旁白或对白）


输出形式：项目创意概述（文字），作为后续脚本/分镜/生成依据。
常见失败原因/限制：

需求过于笼统：只有一句'做个视频'，缺少主题、受众、风格或时长目标。
目标互相冲突：比如要求'严肃金融科普'同时又要'无厘头搞笑'但未说明优先级。
未给出成片语言或画幅，导致后续脚本与镜头节奏难以对齐。


示例请求：请帮我做一个 60 秒的短视频创意概述，主题是'AI 如何改变电商客服'，受众是新入行运营，风格偏科技感但轻松，画幅 9:16，成片中文。

2) 生成或改写脚本


用途：产出完整旁白/对白、情节结构、节奏（适合做成视频）。
你提供的输入字段：

故事/要点/大纲 或 你已有脚本
目标时长
语言
叙事口吻（科普/广告/纪录片/剧情等，可选）


输出形式：脚本文本（可阅读、可再迭代修改）。
常见失败原因/限制：

缺少时长与结构要求：同一主题可写成 30 秒或 5 分钟，节奏差异巨大。
事实性内容未给来源或关键点，容易出现信息不完整或你期望的观点缺失。
口吻不明确：广告、科普、纪录片、剧情的写法差别很大。


示例请求：把下面要点写成 90 秒中文口播脚本，语气像 B 站科普，结尾要有行动号召：要点是……

3) 生成或调整分镜（Storyboard）


用途：把脚本/想法拆成可拍的镜头清单：镜头描述、时长分配、关键画面、可能的音频层需求。
你提供的输入字段：

脚本或故事描述
镜头风格偏好（写实/动画/手绘等，可选）
是否需要关键角色/道具设定（可选）


输出形式：结构化分镜（镜头列表 + 关键元素设定 + 音频层规划）。
常见失败原因/限制：

原始脚本缺少场景信息：比如只有抽象观点，没有可视化元素，分镜会偏概念化。
对镜头风格无约束：写实/动画/手绘会影响镜头描述用词与可生成性。
需要'大量镜头'但总时长很短，导致每镜头时长过短不利于观看。


示例请求：根据这段 60 秒口播脚本，帮我拆成 8 个镜头的分镜，偏 2D 动画风，每镜头写清楚画面主体、镜头运动和大致时长。

4) 规划画面生成方案（模型与流程建议）


用途：根据分镜，给出更适合稳定出片的生成路径建议（例如先出角色设定图，再做镜头关键帧，再转视频）。
你提供的输入字段：

分镜内容
偏好的生成方式或模型偏好（可选）
画质/速度倾向（可选）


输出形式：生成方案说明（文字），用于指导后续批量出图/出视频。
常见失败原因/限制：

目标不清：更看重一致性还是速度/画质，决定了推荐路径。
需要强一致性的角色多镜头但不愿先做角色设定图，会显著增加返工概率。
部分视频模型对提示词与素材合规要求更严格，可能出现生成失败，需要备选方案。


示例请求：我想做 30 秒的连续剧情短片，有固定主角。请给我一条稳定的一致性生成方案，说明先做哪些设定图、再做哪些关键帧、最后怎么转视频。

5) 生成关键元素设定图（角色/道具/场景基准图）


用途：先把关键角色/物件定下来，提升后续镜头一致性。
你提供的输入字段：

角色/道具/场景描述（外观、服装、材质、年代、情绪等）
风格要求（写实/二次元/3D 等）
参考图（可选）


输出形式：图片资产（可多版本），用于锁定统一视觉。
常见失败原因/限制：

角色描述不完整：没说年龄感、发型、服装、材质、标志物，导致版本差异大。
参考图风格混杂：多张参考彼此矛盾，会拉扯出不稳定结果。
需要'完全复刻某个知名 IP 角色'会触发合规限制或风格不稳定，建议改为原创化描述。


示例请求：生成主角设定图：25 岁女性工程师，短黑发，浅灰连帽外套+工牌，手持平板电脑，表情自信，赛博朋克写实风，干净背景，出 4 个版本供我选。

6) 生成镜头关键帧（每个镜头的起始/结束帧或关键画面）


用途：为每个镜头确定具体画面构图与内容，便于再转成视频或直接作为定帧画面。
你提供的输入字段：

镜头描述（分镜里已有时通常无需重复）
参考图/角色设定图（可选，但强烈建议用于一致性）
画面风格与构图偏好（可选）


输出形式：图片资产（按镜头组织）。
常见失败原因/限制：

没有锁定角色设定就直接出多镜头关键帧，一致性容易漂移。
镜头描述缺少构图信息：景别、机位、主体动作不清会导致画面随机性大。
需要复杂多人互动但不给站位/动作关系，容易出现肢体错误或关系混乱。


示例请求：为镜头 3 生成起始帧和结束帧：主角走进办公室，镜头从走廊跟拍推进到工位，景别从中景到近景，整体色调冷白，保持与主角设定图一致。

7) 把关键帧变成视频（无声或带同步音频）


用途：让镜头动起来；可选择只生成画面（无声）或同时生成带对白/环境声的镜头（带同步音频）。
你提供的输入字段：

起始帧（必要）以及可选的结束帧
镜头运动/动作描述（可选但建议）
时长、分辨率等偏好（可选，受具体模型限制）
是否需要镜头自带对白/环境声（可选）


输出形式：视频片段资产（可能包含或不包含音频，取决于你的选择）。
常见失败原因/限制：

时长/分辨率受模型约束：有的模型只支持 5 秒或 10 秒等固定时长。
动作过于复杂或提示词不明确会导致运动奇怪、人物变形。
带同步音频的镜头可能与后期旁白轨重叠，需要提前规划是否使用镜头自带对白。
部分模型对素材合规更敏感，包含某些敏感设定时可能直接失败。


示例请求：用这张起始帧生成 6 秒视频：镜头缓慢推近，主角抬头微笑并点头，背景屏幕光线闪烁，画面写实，生成无声版本。

8) 修改/重生成某张图或某个镜头


用途：当结果不满意时，按你的反馈定向修正（人物一致性、表情、构图、背景、风格等）。
你提供的输入字段：

需要修改的目标（哪张图/哪个镜头）
具体反馈（哪里不对、想怎么改）
可选参考（你更喜欢的版本、参考图）


输出形式：更新后的图片/视频新版本（可对比选择）。
常见失败原因/限制：

反馈太泛：只说'不好看'，缺少要改的点，会导致多次来回。
同时改太多维度：既要换风格又要换构图又要换角色外观，建议分批修改。
如果你希望严格保留某个版本的主体特征，最好指定'以哪个版本为基准'。


示例请求：把镜头 2 的关键帧重做：保留主角脸型和发型不变，把背景改成更明亮的开放式办公室，镜头角度从俯拍改为平视，整体风格更偏写实。

9) 生成配乐（纯音乐）


用途：给视频加背景氛围音乐。
你提供的输入字段：

音乐风格与情绪（紧张/温暖/科技感等）
时长（通常与视频时长匹配）
是否循环/段落结构偏好（可选）


输出形式：音频文件（配乐）。
常见失败原因/限制：

描述过于抽象：只说'高级感'，建议补充节奏、配器、情绪曲线。
要求'像某位知名歌手/乐队'可能触发合规或导致结果不可控，建议用风格元素描述替代。
成片需要精确卡点时，单次生成未必完全贴合，需要多版本或后期剪辑适配。


示例请求：生成 60 秒纯音乐配乐：轻快科技感，100 BPM 左右，合成器主导，前 10 秒铺垫，中段更有律动，结尾收束，适合 9:16 科普短视频。

10) 生成歌曲（含歌词演唱）


用途：为视频制作主题曲/片尾曲。
你提供的输入字段：

歌词（或你希望我先帮你写歌词）
曲风与人声感觉
时长（可选）


输出形式：歌曲音频文件。
常见失败原因/限制：

歌词节奏与段落不清（主歌/副歌/桥段），会导致演唱结构不稳定。
明确指定'模仿某歌手'有较高合规风险，建议改成'女声清亮、气声、流行 R&B'等描述。
歌曲长度与视频长度不一致时，通常需要后期裁切或循环处理。


示例请求：用下面歌词生成一首 90 秒歌曲：曲风是轻摇滚+电子，男声，副歌要更燃。歌词：……

11) 生成旁白/配音（TTS）


用途：把脚本旁白变成可用的人声轨。
你提供的输入字段：

旁白文本
语言
声音偏好（性别、年龄感、语速、情绪等，可选）


输出形式：旁白音频文件（可多版本选择）。
常见失败原因/限制：

文本不适合口语：长句太多、缺少停顿标记，会影响自然度。
语言/口音/角色设定不清：比如要'台湾腔'或'普通话播音腔'未说明。
需要多人对话但只提供一段文本，未标注角色与分句，会难以分配声音。


示例请求：把这段中文口播生成旁白：女声 25-35 岁，语速稍快但清晰，语气专业又亲和。文本：……

12) 组装成片（时间线剪辑与音频叠加）


用途：把镜头视频/图片按分镜顺序拼成完整视频，并叠加配乐与旁白。
你提供的输入字段：

已生成的镜头资产（图片/视频）
音频资产（配乐/旁白，可选）
基本剪辑意图（例如每段时长、是否需要某段音乐覆盖某些镜头，可选）


输出形式：可预览的成片版本（时间线中的完整序列）。
常见失败原因/限制：

素材不全：缺镜头视频或缺音频，会导致成片无法完整拼接。
高级后期能力限制：不支持加字幕、转场、滤镜、复杂动效等（需要导出后去专业剪辑软件做）。
音频层冲突：镜头自带声音 + 旁白 + 配乐同时存在时，若不指定优先级可能听感拥挤。


示例请求：把镜头 1-8 按分镜顺序组装成 60 秒成片，配乐全程铺底，旁白覆盖镜头 2-8，镜头自带声音全部关闭。

13) 调整成片剪辑（顺序/时长/替换镜头/音频层）


用途：对已组装的成片做结构性微调。
你提供的输入字段：

你想改的点（例如把第 3 个镜头提前、替换某个镜头版本、配乐音量更低等）


输出形式：更新后的成片版本（可预览）。
常见失败原因/限制：

指令不定位：未说明是'第几个镜头'或'哪个时间点'，修改会不精确。
需要复杂剪辑（花字、转场、卡点特效）超出当前组装能力，建议导出后在剪辑软件完成。
替换镜头版本但未指定用哪个版本，会造成反复确认。


示例请求：把镜头 3 挪到镜头 5 后面；镜头 2 时长从 6 秒改为 4 秒；配乐音量降低一点，让旁白更突出。

14) 分析你上传的素材（图/音频/文档）


用途：从你的素材里提取关键信息，辅助做分镜、风格对齐或内容改写。
你提供的输入字段：

上传的文件
你希望我从中提取什么（例如人物设定、口播要点、画面风格）


输出形式：结构化分析结果（文字/要点/可用于创作的提炼信息）。
常见失败原因/限制：

你没说'希望我提取什么'，分析目标不明确会导致输出不聚焦。
文档过长且缺少关注范围（例如只想要第 3 章），会浪费时间并影响可用性。
图片/音频质量过低会影响提取准确度。


示例请求：我上传了一份品牌手册 PDF，请提取：主色/辅色、字体风格、语气关键词，以及任何明确的禁用元素，并整理成可用于分镜与画面提示词的要点。

15) 联网搜索与资料整理（可选）


用途：为脚本或画面设定补充事实资料、背景信息、术语解释等。
你提供的输入字段：

你要查的主题与范围
偏好的来源类型（可选）


输出形式：搜索摘要与要点整理（文字）。
常见失败原因/限制：

搜索范围太宽：比如'讲讲新能源'，建议限定国家/年份/细分主题。
对来源要求不清：需要学术、媒体报道还是官方统计，决定摘要可信度与表述方式。
即使做了摘要，最终脚本仍建议你对关键事实做人工复核（尤其是数据与时间敏感信息）。


示例请求：帮我搜集并整理 2023-2025 年'AIGC 在电商客服应用'的公开案例与关键数据，优先官方/大厂白皮书，其次权威媒体报道，输出 10 条要点并附来源链接。
No results found