您现在的位置是:主页 > 行业 > 资讯 >
这个 AI 生图神器太好玩了,连提示词都不用写
来源:爱范儿 2024-12-21 18:45:36 阅读:
提要别写复杂的提示词了,直接把图片端上来就行。...

只需输入三张图片,subject(主题)、scene(场景)、style(风格),Whisk 就可以生成一张博采众长的图片。

举个例子,主题是老人,场景是藤蔓,风格是 90 年代复古动漫,写上「角色骑着飞行自行车」的提示词,等待一会儿,一张类似吉卜力画风的新图片诞生了。

Whisk 的长处便在这里——让我们少写、不写提示词的同时,轻松玩转各种风格,妈妈再也不担心我不会写提示词了。
别写复杂的提示词了,直接把图片端上来就行
别看只需要几张图片,Whisk 的玩法简单,却又无穷无尽。
刷刷刷上传三张图片——主题图片,麦当劳薯条;场景图片,莫奈画作《睡莲》;风格图片,像素风游戏《星露谷物语》。
不写提示词,直接生成,Whisk 给出的结果,一张更比三张强。







另外,Whisk 的每一次生成,场景和风格只能选择一个参考图片,但主题可以选择多个。这意味着什么?我们可以让多个角色同框了!
比如,让马斯克、奥特曼、扎克伯格通通变成珐琅徽章。

虽然 Whisk 减少了写提示词的需求,但你需要写的话,Whisk 也鼓励。
在对话框加上一句「角色们都举着一块告示牌,上面写着 AGI」,徽章小人们轻轻松松地遵循了提示词。

解决方式很简单,没有图片,那就写提示词,让 Whisk 临场发挥一个。



既生图又识图,把复杂的工作流包装成有趣的「打蛋器」
Whisk,其实是 Google 多模态模型秀肌肉的一种方式。
为了让我们少写提示词,Whisk 整合了视觉理解和图片生成能力。
Gemini 模型识别图片,自动生成详细的描述,然后这些描述会被输入到 Google 的图片生成模型 Imagen 3,由 Imagen 3 生图。
Whisk 是这样的,用户只要上传和生成图片就可以了,但它自己要考虑的事情就很多了。

如果把一个人作为主题图片,Whisk 会详细地描述他的外貌特征,场景图片也是类似的。

风格图片略有些不同,如果把一张动画截图作为风格参考,Whisk 不会说,画面里有三个人,而是描述这幅画的色彩、光线、线条 ......

所以,Whisk 不是精准地复制图片,而是提取图片的特点和精髓,将主题、场景、风格自然地融合在一起,各司其职,互不干扰。
同时,Whisk 也叠了甲——只从图片提取少量关键特征,结果可能和预期不同。这也解释了,为什么 Whisk 做不到人脸的精准还原。
所以,哪怕选择不那么抽象的复古胶片风格,三位大佬的脸也是和本尊都不挨着,但其他细节都很准确。



当我让 Whisk 生成蒙娜丽莎的乐高小人,出来的结果让我两眼一黑,但多加一句提示词,「让角色更像乐高人物」,Whisk 又能模仿个七八成。

其实,Whisk 好玩就够了,它更适合做一些不追求精准的创意探索,俗称整活。
Whisk 可以翻译为「搅拌」或者「打蛋器」,Google 的这个名字取得即视感很强,可不就是把食材都混搭在一起吗?
Whisk 的不精准,也让它的定位和传统的图片编辑器不同,更像是一种创意工具。有了什么脑洞,由它实现粗略的视觉效果。

以前实现 Whisk 这种风格化的效果,跑通一整个图像生成的流程,我们可能需要在 ComfyUI 搭建工作流。
但现在有了 Whisk,好像就在玩抽卡游戏或者开盲盒,而且只要能登录(限美国地区),目前还免费。
体验指路
https://labs.google/fx/zh/tools/whisk
Google 领先的模型能力固然是前提和基础,但设计出被大家需要的产品,仍然需要创造力和审美。
很喜欢 Whisk 的 slogan:「prompt less, play more.」(少写提示词,多玩耍。)

强大的模型能力,有新意的产品,开放的心态,曾经似乎被 OpenAI 威胁的 Google,风轻云淡地展现出了王者归来的姿态。