文档首页/ 盘古大模型 PanguLargeModels/ 最佳实践/ 从基模型训练出行业大模型/ 打造短视频营销文案创作助手

更新时间：2025-01-14 GMT+08:00

打造短视频营销文案创作助手

场景介绍

随着互联网的发展，短视频已成为了日常生活中不可或缺的一部分，凭借其独特的形式和丰富的内容吸引了大量流量，并为企业和个人提供了一个全新的营销平台。短视频用户希望借助大模型快速生成高质量的口播文案，以提升营销效果和效率。在这种场景下，用户只需提供一些基本信息，大模型就能生成需求的文案，从而大大提高文案的质量和效率。

除了短视频风格的口播文案，营销文案还可以根据需求生成不同风格的文案，如小红书风格、知乎风格，或爆款标题等。

选择基模型/基础功能模型

盘古-NLP-N2-基础功能模型

准备训练数据

本场景不涉及自监督训练，无需准备自监督数据。

微调数据来源：

来源一：真实业务场景数据。

来源二：基于大模型的数据泛化。基于目标场任务的分析，通过人工标注部分数据样例，然后利用大模型（如盘古提供的任意规格的基础功能模型）采用self-instruct等方式，泛化出更多的业务场景数据。

方法一：在大模型输入的Prompt中包含“人设赋予”、“任务描述”、“任务具体要求”和“输出格式要求”等部分后，模型通常能够生成质量较高的数据。示例如下：

大模型输入：

你是一名短视频的知名带货博主，你的日常工作在短视频平台上进行各类产品的带货直播。你很擅长根据一段简要的产品介绍，创作出高质量的带货口播。
请根据如下产品介绍，生成一篇字数不超过200个字的高质量带货口播，产品介绍如下：
```
%s
```
生成的内容必须满足以下要求：
1.生成内容的字数要求为200个字左右；
2.生成的内容必须生动有趣、丰富多样；
3.生成内容的语言风格必须口语化；
4.生成的内容开头必须能足够引起观众的兴趣，比如可以采取对目标观众反问、对比等方式；
5.生成的内容结尾必须要引导观众购买；
6.生成的内容必须紧扣产品本身，突出产品的特点，不能出现不相关的内容；
7.生成的内容必须完整，必须涵盖产品介绍中的每个关键点，不能丢失任何有价值的细节；
8.生成的内容必须符合客观事实，不能存在事实性错误；
9.生成的内容必须语言通顺；
10.生成的内容中不能出现“带货口播”等这一类字样；
输出格式：口播如下：
xxx

方法二：产品介绍可以来源于真实的产品信息，也可以通过in-context-learning方式生成。示例如下：

大模型输入：

你是一个广告策划，你的工作是为不同的产品写宣传文案。
以下是一些优秀的宣传文案样例，请参考这些样例，为产品：“%s”编写一段宣传文案。
 
宣传文案样例1：
XXXXX
 
宣传文案样例2：
YYYY
 
注意：宣传文案中需要包含产品名称；需要突出产品特性；不超过40个字。
输出格式：宣传文案：xxx

微调数据要求：

数据格式样例：JSONL格式，每行是一条JSON，包含“context”和“target”两个字段。示例如下：

{"context":"轻便折叠户外椅，舒适随行\n请根据以上的内容和要求扩写一篇带货口播文案，注意：1.开头引起观众的兴趣2.扩写要保留以上内容全部信息，结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": "嗨！亲爱的朋友们，你们是不是也常常遇到户外活动时找不到合适的座椅，坐地上又硬又不舒服？那么，我今天要介绍的产品就能解决你的困扰！它就是轻便折叠户外椅，让你的户外时光更加舒适随行！\n\n这款户外椅不仅轻巧便携，折叠起来只有一只手的大小，非常方便携带！无论是野餐、露营还是旅行，它都能轻松满足你的需要，为你的舒适提供保障！\n\n它采用高质量的材料制造而成，坚固耐用，可以承受220磅的重量，稳如泰山，安全可靠。而且，它的面料柔软舒适，采用透气网布设计，不仅排汗透气，而且可根据你的身体曲线自主调节，提供全方位的支撑和舒适度。\n\n亲爱的朋友们，快来选购这款轻便折叠户外椅，让你的户外生活更加舒适、随心随行！赶快单击下方链接，实现你的户外梦想！"} 
{"context":"产品：毛绒玩具\n特点：柔软可爱，陪伴成长，给孩子无限温暖的拥抱。\n请根据以上的内容和要求扩写一篇带货口播文案，注意：1.开头引起观众的兴趣2.扩写要保留以上内容全部信息，结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": "小伙伴们，我来给你们介绍一款超可爱的毛绒玩具！它柔软可爱，真的是陪伴成长、给孩子无限温暖的拥抱！\n\n它是宝宝的小伙伴，不离不弃地陪伴着他们的成长。而且这款毛绒玩每一个细节都呈现出了无限的童真和天真，真的是太可爱了！\n\n除了可爱外，这款毛绒玩具还有一个很重要的功能，它能给孩子带来无限温暖的拥抱。当孩子感到孤独或者失落时，它就像一个亲密的好友一样，安慰着他们的心灵。就像你给亲人一个紧紧的拥抱，让他们感受到你的爱一样，这款毛绒玩具也能给孩子带来同样的温暖和关怀。\n\n所以，我相信这款毛绒玩具一定能成为你宝贝的最爱，给他们带来无尽的欢乐和温暖。现在就单击下方链接，购买一只给宝贝一个最温暖的拥抱吧！"}

数据量级要求：本场景使用了5000条数据进行微调。
说明：类似场景需要的微调数据量视具体情况而定。从经验上来说，如果实际场景相对单一，比如只需要构建短视频口播文案生成的场景，则使用5000条数据即可；如果场景中涵盖多个细分场景，比如短视频口播生成、小红书风格文案生成等等，则每个子场景各需要准备至少5000条数据。
数据质量要求：
- 保证微调数据中的输入（context字段）不重复，否则会造成模型效果不佳。
- 保证微调数据内容干净，不包含异常字符。
- 保证输出（target字段）内容符合业务场景需求。例如，短视频口播场景要求文风可以引起观众兴趣、不丢失产品特点且可以引导观众购买。

微调数据清洗：

下表中列举了本场景常见的数据质量问题以及相应的清洗策略，供您参考：

表1 微调数据清洗步骤
数据问题	清洗步骤与手段	清洗前	清洗后
问题一：数据中存在超链接、异常符号等。	删除数据中的异常字符。	{"context":"轻便折叠户外椅，舒适随行\n请根据以上的内容和要求扩写一篇带货口播文案，注意：1.开头引起观众的兴趣2.扩写要保留以上内容全部信息，结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": " ????嗨！亲爱的朋友们，你们是不是也常常遇到户外活动时找不到合适的座椅，坐地上又硬又不舒服？那么，我今天要介绍的产品就能解决你的困扰！它就是轻便折叠户外椅，让你的户外时光更加舒适随行！\n\n这款户外椅不仅轻巧便携，折叠起来只有一只手的大小，非常方便携带！无论是野餐、露营还是旅行，它都能轻松满足你的需要，为你的舒适提供保障！\n\n它采用高质量的材料制造而成，坚固耐用，可以承受220磅的重量，稳如泰山，安全可靠。而且，它的面料柔软舒适，采用透气网布设计，不仅排汗透气，而且可根据你的身体曲线自主调节，提供全方位的支撑和舒适度。\n\n亲爱的朋友们，快来选购这款轻便折叠户外椅，让你的户外生活更加舒适、随心随行！赶快单击下方链接，实现你的户外梦想！"}	{"context":"轻便折叠户外椅，舒适随行\n请根据以上的内容和要求扩写一篇带货口播文案，注意：1.开头引起观众的兴趣2.扩写要保留以上内容全部信息，结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": "嗨！亲爱的朋友们，你们是不是也常常遇到户外活动时找不到合适的座椅，坐地上又硬又不舒服？那么，我今天要介绍的产品就能解决你的困扰！它就是轻便折叠户外椅，让你的户外时光更加舒适随行！\n\n这款户外椅不仅轻巧便携，折叠起来只有一只手的大小，非常方便携带！无论是野餐、露营还是旅行，它都能轻松满足你的需要，为你的舒适提供保障！\n\n它采用高质量的材料制造而成，坚固耐用，可以承受220磅的重量，稳如泰山，安全可靠。而且，它的面料柔软舒适，采用透气网布设计，不仅排汗透气，而且可根据你的身体曲线自主调节，提供全方位的支撑和舒适度。\n\n亲爱的朋友们，快来选购这款轻便折叠户外椅，让你的户外生活更加舒适、随心随行！赶快单击下方链接，实现你的户外梦想！"}
问题二：存在未转义的字符。	进行转义。	{"context":"舒适随行的"骆驼牌"轻便折叠户外椅，\n请根据以上的内容和要求扩写一篇带货口播文案，注意：1.开头引起观众的兴趣2.扩写要保留以上内容全部信息，结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": …}	{"context":"舒适随行的\"骆驼牌\"轻便折叠户外椅\n请根据以上的内容和要求扩写一篇带货口播文案，注意：1.开头引起观众的兴趣2.扩写要保留以上内容全部信息，结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": …}
问题三：存在重复数据。	删除重复数据。	略	略

训练模型

自监督训练：

不涉及

有监督微调：

本场景采用了下表中的微调参数进行微调，您可以在平台中参考如下参数进行训练：

表2 微调核心参数设置
训练参数	设置值
数据批量大小（batch_size）	8
训练轮数（epoch）	4
学习率（learning_rate）	7.5e-05
学习率衰减比率（learning_rate_decay_ratio）	0.067
热身比例（warmup）	0.01

评估和优化模型

模型评估：

您可以从平台的训练日志中获取到每一步的Loss，并绘制成Loss曲线。本场景的一个Loss曲线示例如下：

图1 Loss曲线

通过观察，该Loss曲线随着迭代步数的增加呈下降趋势直至稳定，证明整个训练状态是正常的。若Loss曲线呈现轻微阶梯式下降，为正常现象。

模型持续优化：

本场景采用了下表中的推理参数进行解码，您可以在平台部署后参考如下参数调试：

表3 推理核心参数设置
推理参数	设置值
最大Token限制（max_token）	4096
温度（temperature）	0.3
核采样（top_p）	1.0
话题重复度控制（presence_penalty）	0

部署推理服务后，可以采用人工评测的方案来评估模型效果。若评测过程中出现如下问题，可以参考解决方案进行优化：

问题一：模型答案没有按照Prompt要求回答。例如，要求文案在300字以内，但是模型回答字数仍然超出300字。
解决方案：在数据质量要求中提到要求训练数据的输出（target字段）需要符合业务场景需求。因此，针对该问题，需要严格控制数据质量。若输入（context字段）要求文案300字以内，则输出必须要满足300字以内。
问题二：模型生成的文案中重复讨论一个相同的话题。
解决方案：对于这种情况，可以尝试修改推理参数。例如，降低“话题重复度控制”参数的值。若调整推理参数不生效，则检查数据质量，确认数据中不存在重复数据和高度相似数据。

父主题： 从基模型训练出行业大模型

上一篇：从基模型训练出行业大模型

下一篇：打造政务智能问答助手

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

打造短视频营销文案创作助手

场景介绍

选择基模型/基础功能模型

准备训练数据

训练模型

评估和优化模型

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线