本文为智九人工智能梦想社区举办的“智能变革:AI如何重塑各行各业未来”大会上,胡显煜分享主题《AIGC工具提示词技巧》的文字稿。
- 01-
提示词的本质。
相信大家对于提示词已经不陌生。简单来讲,就像写出一篇好的作文或者演讲,需要过往的积累,需要一些技巧。
比如写一篇命题作文,或者回答一个政治题,用什么样的框架、什么样的方向、什么样的开场,内容如何填充,用怎样的结构性语言?这是提示词工程重要的内容。
以前,我们和软件对话用的是搜索的逻辑:把我们想要的结果、方向描述出来放到浏览器、搜索引擎做检索。而现在,给机器或者程序一个具体指令,比如背景、原因、想要的结果等,需要用结构化语言告诉模型。
提示词的写法框架。
常规写法采用正向提示词,就是正常说话写文章的行文逻辑。在正常的一个语法结构里面,正向提示词是符合大多数人思维习惯的。
但在图像生成和视频生成领域,生成一个人物形象的时候,像手指是否畸形、五官是否贴切、肢体是否正常等细节方面,需要灌输一些反向提示词,让它避免出现我们不想要的效果。如果想要提高结果的正确率,降低答案、绘图、视频结果的细节误差,就需要使用反向提示词做不良效果规避。
目前,许多工具都支持正向提示词,就是把我们的想法,类似于原先搜索引擎与检索的思路,输入到输入框和工具进行交互。输入内容和我们的语法结构没有太大区别,即包括:主体描述、基础设定和风格细节。
大多数人对主体描述都能讲清楚,知道自己要什么,哪怕简短的一句话也能让工具给出一个看着像样的答案。
但是后两个要素,基础设定和风格细节方面,因为大家词汇和知识储备不同,使用的提示词不同,最终AI工具根据给定的提示词给出生成的效果也会不同。这个不同是有比较明显的等级区分的,提示词的质量会很大概率决定输出结果的质量。
比如,专业摄影师在光线、构图、主体姿态、视频转场等效果上,对细节的描述可以更具体;
比如,建筑设计师、室内设计师、材料设计师、工业设计师,会对具体的材质、工艺、流程,一些细节处理上,有更加详细的词汇表述。
与之相比,在这些专业词汇和处理流程领域,普通大众缺少必要的行业认知和know how。目前,大部分人还是用传统搜索引擎的语言或逻辑去编写提示词,就是大家想到什么就说什么,但在结果生成上会有很大差距。所以,如何写好一个优质的提示词,需要掌握一些必要的技巧。
提示词构成的写法。
1、提示词的书写要清晰,带有明确的指令:使用分隔符清楚地指示输入的不同部分,便于维护。在交互式对话中将复杂的任务分解为一系列更简单的提示。
2、英文。正反提示词。部分场景需求中英文提示词都使用,看看哪种效果更好。用简单的英语写文章/文本/段落。
3、一定的框架结构,还有测试表单。许多词汇效果需要微调,一般一组提示词我会测试3遍,然后进行词汇的调整和修饰。
4、使用不同的工具,审读平台的技术文档 产品手册,了解字段、参数配置和概念的功能定义。了解产品的不同版本和最近迭代的新功能。
5、指明固定格式输出结果:如JSON、HTML等。
6、引导chatbot,告诉他一个扮演的角色,或者具体的场景指令。
7、在书写提示词时,常用的分隔符包括但不限于以下几种:“|”:用于分隔指令和上下文,有助于模型更好地理解何时切换到不同的任务或上下文;“#”:用于分隔指令和上下文,有助于模型更好地理解何时切换到不同的任务或上下文;“::”:用于将完整的描述词分割为两个或多个单独的概念,还可以通过在“::”后添加数字,为不同的概念分配不同的权重,使生成的图像在内容上产生变化;“,”:用于分隔提示词中的多个描述性词汇,一般为英文词汇和英文逗号。
8、让模型检测条件是否被满足。
9、格式化提示时,以#Instruction#开头,然后是#Example#或#Question#(如果相关)。随后展示你的内容。使用一个或多个换行符用于分隔指令、示例、问题、上下文和输入数据。
另外,大家可以多参照OpenAI提示词官方技术文档,以及根据一些关键词,在小红书、公众号里面搜索学习行业领域先驱者的分享。
- 02 -
这张图很好,我该怎么描述它呢?
我们在构思一次绘画创作的时候,有两个思维方式:一种是我们自己去想提示词,让工具来实现我们的想法创意;另一种是我们看到一个图或一个东西,但是我们不知道它具体的提示词是怎么样去拆解的,就是机器怎样去理解这个图或是这个视频。
造梦日记:
详细的用户手册文档,帮你爱上AI绘画
造梦日记给了一个特别详细生动的用户操作手册,不需要花费很多的时间学习,我们就可以把想要内容的提示词描述一整块结构梳理出来。
在大家日常使用的场景,尤其是工作中或者说自己想发个朋友圈,想做一个复杂的效果图时,我们还可以去小红书,搜到许多Midjourney词典。它会对这些词有一个画面效果非常直观的解释,我们如果不太理解纯文本的内容,比如说玻璃状或者说水晶状,还是说其他一个词汇,我们可以在网上找到公开的一些资料,它会给你一些不同的图的效果,帮助你去更好的使用这个工具。
百度千帆社区:提示词模板
项目地址:https://cloud.baidu.com/qianfandev/prompt
AI视频重大突破:Sora
去年我们在编写书时,大家用的更多的还是文生文和文生图这个领域,而文生视频在去年做的都比较糙。我使用了主流的几个工具,像Runway,Pika ,PixVerse,StableVideo,Dreamina,都使用这些平台做了一些视频。但是我们对Sora的评价是,它对于物理细节或者说是质感的理解还是更深的。
我们可以看到像Sora,在我们使用一些文生视频工具时,它提示词也没有那么复杂。在网上、公众号上可以搜索sora提示词,有许多公众号的作者做了系统的收集。目前为止OpenAI放出来的sora的一些视频片段,他们都有对应的提示词,有的特别多。
像这块中英文提示词都有,目前许多国内的用户更多的一个使用习惯是我自己先想个中文,然后丢到翻译软件里面,去转换成英文。因为像国外的一些工具,他们对于英文的理解会更加细致一些,会减少一些不必要的泛化,或者说一些胡言乱语。
国内大模型工具测试
我们可以看到在这方面,把他想要的一个效果图写的特别丰富的话,有些词大家能够理解,然后像广角效果、镜头、近逆光、脸部特写,真人摄影效果等等,就比较偏专业一些了。我这块是拿一段提示词,做了各种改写,在通义、文心、kimi以及智谱清言,国内许多的大模型工具上都做过测试。
目前文心一言的效果是比较符合大家对于一个很好的照片或者是图片的理解的。大家只需要拿同样提示词放到不同的工具里面去做一些测试,就可以看到文心一言对于生成这块的理解,是比较好的。
然后像大模型工具,不管是国内的还是国外的,比如我用Midjourney去做一些扑克牌或者是文字、符号的设定时,他在这种符号细节上,他能理解你的意思,但在生成最终的图案时,会出现细节做的不是很精细的情况。包括我在做一些文生视频时,我想要一个文字或者说一个文本,但是它最后出来的是一些奇怪的符号,不太符合我们想要的一个结果。
目前我了解到的文生视频或者是做的比较好的一个图片,都是前期我先用Midjourney把我想要的一个效果图先做出来,再把那个图导入到我们不同的视频工具里面,比如说字节的Dreamina,Runway和PixVerse里面生成视频片段,最后再用工具去做后期的处理,把想要的文字P上去。
- 03 -
1.编写清晰的指令——提供细节和背景
2.编写清晰的指令——角色扮演
3. 使用分隔符清晰标示输入的不同部分
4. 指定任务所需步骤
这在agent里面又会用的比较多。我们在使用字节的扣子或者阿里的魔搭时,我们自己搭建agent智能体会先给他一个角色设定,同时也会给他一个初始化的语言。然后告诉它说我需要让你扮演一个什么样的角色,同时要给我完成一个什么样的任务,会像教我自己的一个下属,告诉他12345怎样去落地
5.提供样例
6. 指定输出长度
一般就是在结尾时加一个“需要多少字”。
- 04 -
通义听悟。
是我目前日常生活中使用最多的一个工具。比如说今天这样一个场景分享,或者是我去参加一些行业大会时,我基本上就是电脑或者说手机放那录音,然后我拿相机去拍他的PPT,或者是整个的场景。这样我一边听人家嘉宾的分享,同时等我活动结束,一键就可以转成我们智能的会议纪要,而且能够区分多人的语言发音。
Suno。
是目前AI生成音乐里面做的比较好的。他之前的版本其实也有许多人使用,但在今年三月份,就是上个月的时候,Suno做了它最新版本的更新。现在在AI生成音乐上的话,已经达到了比较好的效果。
Runway。
Runway支持视频,图像,3D以及其他的一些生成。像文本生成图像,我们可以看到在右边它可以选不同的尺寸大小,有些工具会有不同的模型的选择、比例,以及单次生成图像的数量。
PixVerse。
(全文经录音整理,受篇幅限制,部分文字、图片有所删减)