使用技能创建器生成PDF按章节拆分Skill
日常办公中,手册、报告、论文、标书等长PDF文档处理较为常见,人工拆分章节、逐一对文件重命名不仅耗时,也影响文档处理效率。为了解决这一痛点,您可以通过华为云码道(CodeArts)代码智能体,使用技能市场中提供的技能创建器(skill‑creator),快速生成专属的PDF拆分Skill。
skill‑creator是华为云码道(CodeArts)代码智能体技能市场提供的技能创建器。您可以在市场中找到技能创建器,完成安装后进行使用。当您需要一个技能时,可以直接说出“帮忙创建一个Skill”并描述Skill所需要的详细能力,华为云码道会为您生成对应的Skill技能包。
- 长文档拆解:把几百页的手册/报告,拆成单章文件,方便单独发、单独看。
- 规范归档:拆分完直接按章节名命名,不用手动改名,一键入库。
- 定向分发:只发某一章内容,不用发整个大文件,更安全、更省流量。
整个流程如图1所示。
准备工作
在使用华为云码道前,您需要先创建一个项目,用于集中存放工程中的各类文件。项目创建完成后,建议开启自动批准功能,AI将自动处理相关操作,无需人工干预。
- 参考快速启动中操作,登录华为云码道。
- 创建一个项目,用于存放工程中的文件。
- 在IDE工具顶部菜单栏中,单击“文件(F)”,选择,进入新建项目页面。
- 选择项目存放位置,输入项目名称(例如pdf-skill-demo),单击“确定”。
项目名称必须以字母开头,可包含字母、数字、中划线或下划线,且总长度不能超过64个字符。
项目创建完成后,在“资源管理器”中可以查看到已创建的PDF-SKILL-DEMO项目。
- (可选)选择智能体运行模式并授权自动化操作。
- 单击华为云码道IDE右上角的设置图标
,进入华为云码道IDE全局设置页面。 - 在中,选择智能体执行终端命令的运行策略,本实践使用默认运行策略,即沙箱运行。
- 在“对话流 > 智能体 > 自动批准”中,单击
以开启所需的自动批准项目。 授权自动化操作后,复杂工程级代码生成流程中的各项任务可自动执行。如果您未开启自动化操作授权,在使用华为云码道进行编码时,部分操作将需要您手动确认。
开启自动批准存在操作风险,请在开启前充分评估风险,并在安全可信环境中使用。本实践不开启自动批准功能。
表1 自动批准参数说明 参数
说明
示例
编辑
允许智能体调用edit、write、deleteFile等工具来编辑您计算机上的文件。
开启
使用浏览器
允许智能体在浏览器中访问网站。
开启
网页抓取工具
允许智能体访问并抓取指定网页的内容。
开启
- 退出当前页面,完成授权操作。
- 单击华为云码道IDE右上角的设置图标
在市场中安装技能创建器(skill-creator)
- 单击华为云码道IDE右上角的设置图标
,进入华为云码道IDE全局设置页面。 - 在左侧导航栏中单击“技能与规则”,进入技能与规则页面。
- 单击“市场”,进入“市场”页签,查找“技能创建器”。 图2 在市场中查找到skill-creator
- 在指定技能后,单击添加图标
,安装位置选择“项目级”,单击“确定”。 安装成功后,该技能后的
变为“已安装”。
生成PDF拆分Skill
- 在华为云码道聊天界面的输入框中,输入如下提示词。
调用skill-creator,生成专业PDF按章节拆分Skill,严格按以下规则执行: 【触发规则】 - 只要用户说“PDF按章节拆分”“按标题拆PDF并命名”“拆分PDF章节”,开始启用 【执行规则】 - 自动识别PDF里的章节标题和章节边界 - 按章节把原PDF拆成多个独立PDF - 每个拆分后的文件,用对应的章节名称命名 【交付要求】不丢页、不错拆,做完返回所有拆分好的文件
- 确认创建信息,单击“提交”,等待技能创建成功。 图3 确认创建信息
技能创建成功后,在资源管理器的PDF-SKILL-DEMO目录下会生成“pdf-chapter-splitter”的技能包。图4 查看生成的技能包
- 将待拆分的PDF文件放置于当前项目目录下,在聊天界面的输入框中,输入如下提示词。
调用pdf-chapter-splitter,完成码道用户指南PDF按章节拆分
图5 拆分完成
图6 在对应目录下查看拆分结果
当前展示的效果图仅是示例,请以最终实际生成的效果为准。
提示词优化
在上一节中,生成Skill的提示词给出基础核心功能,只能完成简单拆分,缺少统一的章节识别规则、命名规则与异常情况处理。当PDF文档内容较为复杂或需要批量处理时,常会出现识别准确率下降、处理时间延长以及命名异常等问题。
您可以进一步对提示词进行优化,比如明确章节识别样式、增加前置文件校验规则,拆分要求与拆分后文件名规范,补充异常提示,让Skill的执行效果更加贴合业务,并且能够长期稳定可靠的运行。
优化后的提示词
调用skill-creator,生成专业PDF按章节拆分Skill,严格按以下规则执行: 【触发规则】 - 正向触发:用户提出PDF按章节拆分、按标题拆分并自动命名相关需求时,启用本技能。 - 排他约束:本技能不执行PDF合并、加密解密、文本提取、格式转换等其他操作,杜绝功能冲突。 【标准化处理流程】 1. PDF文件预处理:检测PDF文件状态,识别加密文件,异常则给出明确提示并主动弹窗提示用户。 2. 章节识别解析:识别层级标题,支持“第X章”“1.1”“第一章”“1”等常见格式,自动剔除封面、目录页 3. 精准文档拆分:按照章节边界完成分页拆分,保证章节内容完整连贯,无缺页、漏页、内容截断、页面错乱问题。 4. 拆分后文件命名:以对应章节名称作为拆分后文件名称,自动清除文件名内/ \ : * ? " < > |等系统禁用特殊字符,兼容Windows、Mac系统 5. 结果回执:拆分完成后同步输出拆分明细单,清晰标注各文件对应章节名称与起止页码,有序返回全部拆分完成文件。 【质量要求】 保障拆分结果准确无误,文件命名无乱码,全面兼容市面主流常规PDF格式,满足日常办公及批量生产使用需求。
提示词优化技巧总结
Skill执行偏差、文件命名异常等问题,多源于提示词语义模糊、规则缺失等。您可以在写作提示词时,遵循以下实用写作技巧进行规范撰写,能够全面优化技能执行效果,有效减少运行偏差,大幅提升PDF章节拆分技能的实用性与稳定性。
| 技巧点 | 好的样例 | 坏的样例 |
|---|---|---|
| 明确章节识别规则 | 识别层级标题,支持“第X章”、“1.1”、“第一章”、“1”等常见格式,自动剔除封面、目录页 | 自动识别PDF里的章节 |
| 明确排他规则,避免大模型误触发其他操作 | 不处理合并、加密、提取文本等其他PDF操作,避免冲突 | 未提供该内容 |
| 考虑异常场景 |
| 未提供该内容 |
