| date created | date modified |
|---|---|
2026-01-07 |
2026-01-07 |
请列出你对最终用户公开、且允许用户触发的能力/动作清单(不要包含内部函数名、实现细节)。对每项能力给出:用途、我需要提供的输入字段、输出形式、常见失败原因/限制、一个示例请求。
- 用途:把你的想法整理成可执行的视频创作方向(题材、受众、风格、基调、时长建议等)。
- 你提供的输入字段:
- 主题或一句话创意
- 目标受众(可选)
- 风格/参考方向(可选)
- 视频时长(可选)
- 画幅比例(可选,如 16:9、9:16、1:1)
- 成片语言(可选,如中文/英文,用于旁白或对白)
- 输出形式:项目创意概述(文字),作为后续脚本/分镜/生成依据。
- 常见失败原因/限制:
- 需求过于笼统:只有一句'做个视频',缺少主题、受众、风格或时长目标。
- 目标互相冲突:比如要求'严肃金融科普'同时又要'无厘头搞笑'但未说明优先级。
- 未给出成片语言或画幅,导致后续脚本与镜头节奏难以对齐。
- 示例请求:请帮我做一个 60 秒的短视频创意概述,主题是'AI 如何改变电商客服',受众是新入行运营,风格偏科技感但轻松,画幅 9:16,成片中文。
- 用途:产出完整旁白/对白、情节结构、节奏(适合做成视频)。
- 你提供的输入字段:
- 故事/要点/大纲 或 你已有脚本
- 目标时长
- 语言
- 叙事口吻(科普/广告/纪录片/剧情等,可选)
- 输出形式:脚本文本(可阅读、可再迭代修改)。
- 常见失败原因/限制:
- 缺少时长与结构要求:同一主题可写成 30 秒或 5 分钟,节奏差异巨大。
- 事实性内容未给来源或关键点,容易出现信息不完整或你期望的观点缺失。
- 口吻不明确:广告、科普、纪录片、剧情的写法差别很大。
- 示例请求:把下面要点写成 90 秒中文口播脚本,语气像 B 站科普,结尾要有行动号召:要点是……
- 用途:把脚本/想法拆成可拍的镜头清单:镜头描述、时长分配、关键画面、可能的音频层需求。
- 你提供的输入字段:
- 脚本或故事描述
- 镜头风格偏好(写实/动画/手绘等,可选)
- 是否需要关键角色/道具设定(可选)
- 输出形式:结构化分镜(镜头列表 + 关键元素设定 + 音频层规划)。
- 常见失败原因/限制:
- 原始脚本缺少场景信息:比如只有抽象观点,没有可视化元素,分镜会偏概念化。
- 对镜头风格无约束:写实/动画/手绘会影响镜头描述用词与可生成性。
- 需要'大量镜头'但总时长很短,导致每镜头时长过短不利于观看。
- 示例请求:根据这段 60 秒口播脚本,帮我拆成 8 个镜头的分镜,偏 2D 动画风,每镜头写清楚画面主体、镜头运动和大致时长。
- 用途:根据分镜,给出更适合稳定出片的生成路径建议(例如先出角色设定图,再做镜头关键帧,再转视频)。
- 你提供的输入字段:
- 分镜内容
- 偏好的生成方式或模型偏好(可选)
- 画质/速度倾向(可选)
- 输出形式:生成方案说明(文字),用于指导后续批量出图/出视频。
- 常见失败原因/限制:
- 目标不清:更看重一致性还是速度/画质,决定了推荐路径。
- 需要强一致性的角色多镜头但不愿先做角色设定图,会显著增加返工概率。
- 部分视频模型对提示词与素材合规要求更严格,可能出现生成失败,需要备选方案。
- 示例请求:我想做 30 秒的连续剧情短片,有固定主角。请给我一条稳定的一致性生成方案,说明先做哪些设定图、再做哪些关键帧、最后怎么转视频。
- 用途:先把关键角色/物件定下来,提升后续镜头一致性。
- 你提供的输入字段:
- 角色/道具/场景描述(外观、服装、材质、年代、情绪等)
- 风格要求(写实/二次元/3D 等)
- 参考图(可选)
- 输出形式:图片资产(可多版本),用于锁定统一视觉。
- 常见失败原因/限制:
- 角色描述不完整:没说年龄感、发型、服装、材质、标志物,导致版本差异大。
- 参考图风格混杂:多张参考彼此矛盾,会拉扯出不稳定结果。
- 需要'完全复刻某个知名 IP 角色'会触发合规限制或风格不稳定,建议改为原创化描述。
- 示例请求:生成主角设定图:25 岁女性工程师,短黑发,浅灰连帽外套+工牌,手持平板电脑,表情自信,赛博朋克写实风,干净背景,出 4 个版本供我选。
- 用途:为每个镜头确定具体画面构图与内容,便于再转成视频或直接作为定帧画面。
- 你提供的输入字段:
- 镜头描述(分镜里已有时通常无需重复)
- 参考图/角色设定图(可选,但强烈建议用于一致性)
- 画面风格与构图偏好(可选)
- 输出形式:图片资产(按镜头组织)。
- 常见失败原因/限制:
- 没有锁定角色设定就直接出多镜头关键帧,一致性容易漂移。
- 镜头描述缺少构图信息:景别、机位、主体动作不清会导致画面随机性大。
- 需要复杂多人互动但不给站位/动作关系,容易出现肢体错误或关系混乱。
- 示例请求:为镜头 3 生成起始帧和结束帧:主角走进办公室,镜头从走廊跟拍推进到工位,景别从中景到近景,整体色调冷白,保持与主角设定图一致。
- 用途:让镜头动起来;可选择只生成画面(无声)或同时生成带对白/环境声的镜头(带同步音频)。
- 你提供的输入字段:
- 起始帧(必要)以及可选的结束帧
- 镜头运动/动作描述(可选但建议)
- 时长、分辨率等偏好(可选,受具体模型限制)
- 是否需要镜头自带对白/环境声(可选)
- 输出形式:视频片段资产(可能包含或不包含音频,取决于你的选择)。
- 常见失败原因/限制:
- 时长/分辨率受模型约束:有的模型只支持 5 秒或 10 秒等固定时长。
- 动作过于复杂或提示词不明确会导致运动奇怪、人物变形。
- 带同步音频的镜头可能与后期旁白轨重叠,需要提前规划是否使用镜头自带对白。
- 部分模型对素材合规更敏感,包含某些敏感设定时可能直接失败。
- 示例请求:用这张起始帧生成 6 秒视频:镜头缓慢推近,主角抬头微笑并点头,背景屏幕光线闪烁,画面写实,生成无声版本。
- 用途:当结果不满意时,按你的反馈定向修正(人物一致性、表情、构图、背景、风格等)。
- 你提供的输入字段:
- 需要修改的目标(哪张图/哪个镜头)
- 具体反馈(哪里不对、想怎么改)
- 可选参考(你更喜欢的版本、参考图)
- 输出形式:更新后的图片/视频新版本(可对比选择)。
- 常见失败原因/限制:
- 反馈太泛:只说'不好看',缺少要改的点,会导致多次来回。
- 同时改太多维度:既要换风格又要换构图又要换角色外观,建议分批修改。
- 如果你希望严格保留某个版本的主体特征,最好指定'以哪个版本为基准'。
- 示例请求:把镜头 2 的关键帧重做:保留主角脸型和发型不变,把背景改成更明亮的开放式办公室,镜头角度从俯拍改为平视,整体风格更偏写实。
- 用途:给视频加背景氛围音乐。
- 你提供的输入字段:
- 音乐风格与情绪(紧张/温暖/科技感等)
- 时长(通常与视频时长匹配)
- 是否循环/段落结构偏好(可选)
- 输出形式:音频文件(配乐)。
- 常见失败原因/限制:
- 描述过于抽象:只说'高级感',建议补充节奏、配器、情绪曲线。
- 要求'像某位知名歌手/乐队'可能触发合规或导致结果不可控,建议用风格元素描述替代。
- 成片需要精确卡点时,单次生成未必完全贴合,需要多版本或后期剪辑适配。
- 示例请求:生成 60 秒纯音乐配乐:轻快科技感,100 BPM 左右,合成器主导,前 10 秒铺垫,中段更有律动,结尾收束,适合 9:16 科普短视频。
- 用途:为视频制作主题曲/片尾曲。
- 你提供的输入字段:
- 歌词(或你希望我先帮你写歌词)
- 曲风与人声感觉
- 时长(可选)
- 输出形式:歌曲音频文件。
- 常见失败原因/限制:
- 歌词节奏与段落不清(主歌/副歌/桥段),会导致演唱结构不稳定。
- 明确指定'模仿某歌手'有较高合规风险,建议改成'女声清亮、气声、流行 R&B'等描述。
- 歌曲长度与视频长度不一致时,通常需要后期裁切或循环处理。
- 示例请求:用下面歌词生成一首 90 秒歌曲:曲风是轻摇滚+电子,男声,副歌要更燃。歌词:……
- 用途:把脚本旁白变成可用的人声轨。
- 你提供的输入字段:
- 旁白文本
- 语言
- 声音偏好(性别、年龄感、语速、情绪等,可选)
- 输出形式:旁白音频文件(可多版本选择)。
- 常见失败原因/限制:
- 文本不适合口语:长句太多、缺少停顿标记,会影响自然度。
- 语言/口音/角色设定不清:比如要'台湾腔'或'普通话播音腔'未说明。
- 需要多人对话但只提供一段文本,未标注角色与分句,会难以分配声音。
- 示例请求:把这段中文口播生成旁白:女声 25-35 岁,语速稍快但清晰,语气专业又亲和。文本:……
- 用途:把镜头视频/图片按分镜顺序拼成完整视频,并叠加配乐与旁白。
- 你提供的输入字段:
- 已生成的镜头资产(图片/视频)
- 音频资产(配乐/旁白,可选)
- 基本剪辑意图(例如每段时长、是否需要某段音乐覆盖某些镜头,可选)
- 输出形式:可预览的成片版本(时间线中的完整序列)。
- 常见失败原因/限制:
- 素材不全:缺镜头视频或缺音频,会导致成片无法完整拼接。
- 高级后期能力限制:不支持加字幕、转场、滤镜、复杂动效等(需要导出后去专业剪辑软件做)。
- 音频层冲突:镜头自带声音 + 旁白 + 配乐同时存在时,若不指定优先级可能听感拥挤。
- 示例请求:把镜头 1-8 按分镜顺序组装成 60 秒成片,配乐全程铺底,旁白覆盖镜头 2-8,镜头自带声音全部关闭。
- 用途:对已组装的成片做结构性微调。
- 你提供的输入字段:
- 你想改的点(例如把第 3 个镜头提前、替换某个镜头版本、配乐音量更低等)
- 输出形式:更新后的成片版本(可预览)。
- 常见失败原因/限制:
- 指令不定位:未说明是'第几个镜头'或'哪个时间点',修改会不精确。
- 需要复杂剪辑(花字、转场、卡点特效)超出当前组装能力,建议导出后在剪辑软件完成。
- 替换镜头版本但未指定用哪个版本,会造成反复确认。
- 示例请求:把镜头 3 挪到镜头 5 后面;镜头 2 时长从 6 秒改为 4 秒;配乐音量降低一点,让旁白更突出。
- 用途:从你的素材里提取关键信息,辅助做分镜、风格对齐或内容改写。
- 你提供的输入字段:
- 上传的文件
- 你希望我从中提取什么(例如人物设定、口播要点、画面风格)
- 输出形式:结构化分析结果(文字/要点/可用于创作的提炼信息)。
- 常见失败原因/限制:
- 你没说'希望我提取什么',分析目标不明确会导致输出不聚焦。
- 文档过长且缺少关注范围(例如只想要第 3 章),会浪费时间并影响可用性。
- 图片/音频质量过低会影响提取准确度。
- 示例请求:我上传了一份品牌手册 PDF,请提取:主色/辅色、字体风格、语气关键词,以及任何明确的禁用元素,并整理成可用于分镜与画面提示词的要点。
- 用途:为脚本或画面设定补充事实资料、背景信息、术语解释等。
- 你提供的输入字段:
- 你要查的主题与范围
- 偏好的来源类型(可选)
- 输出形式:搜索摘要与要点整理(文字)。
- 常见失败原因/限制:
- 搜索范围太宽:比如'讲讲新能源',建议限定国家/年份/细分主题。
- 对来源要求不清:需要学术、媒体报道还是官方统计,决定摘要可信度与表述方式。
- 即使做了摘要,最终脚本仍建议你对关键事实做人工复核(尤其是数据与时间敏感信息)。
- 示例请求:帮我搜集并整理 2023-2025 年'AIGC 在电商客服应用'的公开案例与关键数据,优先官方/大厂白皮书,其次权威媒体报道,输出 10 条要点并附来源链接。