关于 Midjourney 一些别人不会告诉你的东西

如果只是想尝尝新鲜,不是专业研究目的,10 刀的套餐大概也 OK,大约二百张图,一般用不到这么多图就失去兴趣了。

要求不高的情况下,200 张图都 足够满足日常做 PPT 的配图需求了。

200 张包括废图吗?有时候一张满足要求的图要通过多次出图来选,消耗比较大。如果成品图有 200 张倒可以接受。

这不是设计

我今天认真参考别人的描述,结合自己的思考,发现自己走进了一个错误的思路里。我一直是有一个构想,对画面的预期,然后描述这个画面,看它给出的结果能和这个画面吻合到什么程度。这是传统设计思路,我打一个腹稿,然后用工具呈现这个构思。

但这,不是传统设计工具啊!

所以应该用领导分配任务式的描述,我要一个兔子和企鹅的结合体,至于怎么结合,哪里取兔子的特征,哪里取企鹅的特征,这你自己斟酌(给 AI 足够发挥的空间)。

然后呢,要讲清楚自己要的口味,对,就像是我们去买煎饼果子,对于核心(这个煎饼果子的制作)我们不要指手画脚,但是对于最终的调味(画面风格)要讲清楚,这样才能吃到适合我们的……(嘛,流口水了

从这个角度讲,做设计的人反倒更不容易上手这个工具,就像一个做煎饼果子几十年的人去另一个煎饼果子摊儿,内心总是在挑剔着每一个细节,这样就很难对最后的食物感到满意。

对于侧重和预期,要有合理的取舍。

包括,但依然很可能够用,大概没几个人高强度的尝试一个月吧。

我们三个人目前(两天半)才生成了七十多次。虽然这里为了平衡,我压制了自己尝试的欲望,但考虑后期肯定没这么频繁的尝试,大概这个数字也能说明点问题。

我现在使用频率已经在降低了,虽然很惊艳,总玩也没啥意思,开始思考怎么写出更好的关键字,尝试总结技术要点,这些都是要用时间思考的。想好了再尝试一下,然后再想……


主要是在一些限定下合租也比较难受,除非的特别熟的人一起,而且不建议超过三个人。

1 个赞

翻译中的细节变更

我想尝试用它给 WinSize 做个图标,这是一个窗口管理软件,这句话在中文没有歧义,但是当我写下 windows 我就知道完蛋!

我想画个树桩,当我描述年轮的时候,翻译软件给的是 rings,然后一些图就在树桩上面摆放一个戒指,或者是个空心树桩。

当描述巨大的时候,我们一般都用 big,翻译软件也是类似比较稳妥的翻译,但这种描述有时候效果并不好。

虽然我现在倾向于简短的描述,但我写的并不快,得用翻译软件反复翻译,避免这种歧义。

我的状态基本就是这样的:

局限性

昨晚生成的图,我很满意。

In the forest, Hamster, Stand, Walk, Bow head, Contemplation, Medieval clothing, cinematic lighting, ray tracing, from side --ar 16:9 --v 5 --q 2 --s 750

  • 描述的准确度(是否有准确且被普遍认同的专业名词,且无歧义)
  • AI 的理解能力
  • AI 的素材库(训练数据集)

我有一个咖啡杯,随手杯,但是我怎么告诉 AI 杯子的样子?这很难,一些杯子并没有准确的名称来描述。

当然,你可以尝试将很多细节讲给 AI 听,但是 AI 并不能听懂人类的语法,而是要素点的拼合,这导致一些人类惯用的描述手法变得失效。而且,重要的是,要点越少越好,所以还是回归上面,怎么找到一个或者几个专用,准确的词汇去描述。

你看上面四只仓鼠是不是挺像的?如果你用它画熊猫,那么……

注意看眼圈和耳朵,是不是具有非常高的一致性。

我觉得只是训练素材不足导致的,但面面俱到的训练肯定是不可能的,所以想要在某个方向足够专业,还得自己训练模型。

听说画手的问题已经解决了?想知道手部细节处理的怎么样

一分钟出图,用 1050 跑 stable diffusion 出一张 512x512 也差不多是这么长时间

到底是买张卡划算还是用这个划算:person_facepalming:

v5 模型手部基本没问题了。

不知道未来的发展方向,不太好讲哪个划算。仅说现在的话,单纯玩玩或者一般需求就买个会员尝试一下,挺好。

但如果不喜欢全是支愣着耳朵的熊猫,或者对这方面细节要求比较高,大概就只能走自己训练模型的路。但估计未来会有针对不同方向模型的产品诞生,比如可能出现一家公司就专注于训练动物相关的模型这样。

1 个赞

长描述未必有用

仔细观察之后发现,画廊中那些看起来非常惊艳的作品,有时候和他们的描述之间关系也不太大。

可爱吧,我的描述是:A hamster, Stand, Smile, Raise a hand, Say hello, Wearing a hooded sweater, Standing in the bright sunshine, Fujicolor, high detail, Sony FE GM, film grain --q 2 --s 750 --v 5

你会发现举起一只手这件事儿就完全被忽视了。

再来一个:

The explorer's desktop, An old treasure map, Compass, Sheepskin wine bag, Rope, The cowhide notebook contains a lot of note paper., Coffee stain, The sun shines in through the window, A broken pen, Exquisite Damascus knife, cinematic lighting, Fujicolor, high details --aspect 16:9 --v 5 --q 2 --s 750

其实我觉得只说中世纪探险家的书桌就差不多,你看,指南针、绳索、钢笔,这些元素都不太好确认。

依然认为这些问题是训练素材集不足造成的 AI 回避自己不擅长的东西的结果。你可能说仓鼠举手好像应该没什么问题,那么仓鼠的手心是什么样子的呢?

MJ 负责惊艳,我们能告诉他的很少,最多也就是在画面风格上指手画脚一番。

2 个赞

一秒刷爆

有一个语法,可以批量生成任务(jobs),就是用大括号书写多个关键词,比如:

a penguin {--niji 5, --v 5}

就是用这两个模型分别生成一遍。然后,大括号不止可以有一个。

{a penguin, a hamster, a rabbit} {--niji 5, --v 5}

这就是六个任务,用两个模型分别生成企鹅、仓鼠、兔子

然后,这种用法只能在 fast 模式下使用,合租账号的话,大概可以一条指令用掉所有 fast 限额了。(太坏了

1 个赞

穷,只用得起stalbe diffusion,感觉那个也好玩。

那才是我玩不起的,我只有集成显卡

搞张3060吧,买了显卡没玩过一次游戏,全折腾人工智能了。

好长啊,还没仔细阅读到底儿,我在精读

仍在理解范围之内

在初看惊艳之后,渐渐的就开始探索它的边界,然后尝试理解他的工作。发现这一切并没有在我们的理解范围之外,虽然确实效果非常超乎预期。

融合

首先讲融合,在p图界融合是一项非常重要的技能。我们不可能自己去绘制所有的内容,这时候就会拿各种素材拼接在一起,而拼接之后效果的融洽程度就是融合能力的体现。这确实很难,边界的自然过渡以及光线方向和滤镜色调的统一,都是非常难做到的。

但如果让程序去解决这些问题,大概可以做得更好,因为这里面是有一些套路的。但以往这些套路背后的运算都是由人脑去完成的。比如哪里应该再弯曲一点,使得线条能够完美拼接;哪里应该模糊一下,使得过渡自然;哪里的色调应该调节,使得画面整体统一……如果你用过photoshop就知道,这里面的许多调节其实是非常感性的, Photoshop本身就不是一个理性的工具,没有办法非常精确的去实现一些图形。(这里肯定有人想抬杠,但如果你用过类似 AutoCAD 之类的行业工具之后,你就会有不一样的感想)

如果设计师手动进行的调节是感性的,不那么精确的,那么使用同样套路的程序,可以做到更加精准的调节,即完美的融合。这是可以理解的。(作为设计师,好希望能够把这个功能放到作图软件上去。比如我把一堆素材放在图像中合适的位置,然后启动自动融合就能生成一张非常舒适的图片。当然未来这个功能肯定是会有的。

素材

下一个问题就是素材。很多时候的设计就是把各种素材拼凑在一起。这些素材有的是在网络上寻找的,有的是自己制作的。其中自己制作的素材在多数时候或多或少的有着其他素材的影子。各个行业都是这样,很难有绝对自己原创出来的大型的东西,都是对前人的模仿同时不断提升着。

现在 AI 模拟的也是类似的过程,融合能力更多是算法的精妙,这是一个很令人赞叹的进步。而用来体现这个效果的就是他拥有的素材库。当然也可能被称作训练的数据集,我不管他叫什么或者是什么,我要按照我自己的方法去理解一下。

首先是素材的细致程度。对于一般设计师来说,一个仓鼠的图像就是一个单独的素材;但是如果是画手可能就要更细致一些,比如仓鼠的耳朵是圆形的,仓鼠的小爪爪是什么样子的……感觉目前AI对于素材的分解程度大概介于两者之间,然后更偏向画手一些。

如果他真的具体到了某一个器官,那我说长着兔子耳朵的企鹅,它大概是可以给我准确做出来的。然而现在还是差那么点意思。

他目前掌握的素材数量并不是特别大,当然这是相对而言,相对于我们的需求来说并不是特别大,比如你画大量的仓鼠,你会发现他们长得比较一致,或者翻来覆去就是那么几个形象,就是因为他拥有的素材就那么多,经过排列组合之后也只有这么多结果。当然相对于一般设计师的素材储备,他的素材量还是相当惊人的。

素材的处理

设计师储存素材的时候要加上相应的描述,这是什么,比如这张图片是一只仓鼠。

其实这样的描述远远不够,所以可能还要再加上标签,比如说橙黄色,比如说圆眼睛……然后你发现了这个工作量是巨大的,因为最合理的情况是我们用文字将图片上的所有要点都概括出来,这样便于检索。但是当标签事无巨细之后,你又会发现它变得失效了。你搜索橙黄色出来的内容太多太杂,几乎就没有意义。这里面的取舍就很难。

感觉现在AI对他所拥有的素材也是按照类似上面所描述的方式去理解的。当然,现在 AI 可以具备识图能力,所以这个过程可能是被内化的。但这其中也有人类干预的因素,比如,五根手指。

昨天我尝试绘制一个装在热水袋里的鲸鱼。

这时候不需要尝试,我们非常简单的思考一下,如果让他画一个装在热水袋里的金鱼,肯定不会是相同的效果。为什么这条鲸鱼就这么充满了整个容器?满满的包裹感和囚禁感。

我的理解是,很可能对于鲸鱼这个素材,它有着一个巨大的标签,所以在绘制的时候总是在想着去体现它的大。

然后我尝试画一只猫( tabby)坐在汤碗里以及一只企鹅(penguin)坐在汤碗里,这两次描述的区别只是动物不同。

虎斑猫偏棕色的色调我能够理解,毕竟猫咪就是这个颜色,那么用棕色的汤碗整个画面就比较和谐。

企鹅呢,企鹅是黑白橙色的,他和蓝色有什么关系?!但你会发现这四幅画都是蓝色调的。因为企鹅生活在冰雪之中,只有这样解释才能够说得通。显然,这不是用一张企鹅图片能够训练出来的理解。更仿佛是在企鹅这个素材上绑定了相应的描述:他所处的环境更应该是蓝白色调,有冰有水。

你看同样的描述,同样的汤碗。猫咪的碗里面就很难辨认出有汤,但企鹅的碗基本都满的溢出来。

所以呢

Midjourney “吃”了许多的艺术家,许多的艺术流派,许多的相机,许多的镜头……然后还拥有着非常高超的融合技巧。这太厉害了。

单纯上面这些能力排列组合之后,就足够让众多设计师感动到哭。还是前面说的那个场景,如果我把各种素材在画面上摆好之后,能够通过简单的选择这些参数,来生成一幅完美融合的画作,这样的未来是多么美好。

为什么有时候他没有办法生成我所期望的画面?就是受素材和素材本身标签的影响。首先它要有相应可供参考的素材,比如没有仓鼠的背影,它就很难生成一个仓鼠的背影,那他只能选择忽略掉相应的描述。然后要了解每种素材所具有的潜台词,比如企鹅,就会倾向于将环境设置为蓝白色,这时候你就要加上相应的设定,去覆盖掉这个预设。

你会发现这太烦了。所以现在很多时候,我们并不能够对画面进行更多的指挥,只能大致说一下有什么,然后给AI留下比较多的发挥空间。倒是在风格、滤镜、相机、镜头、光线这些他确定了解的参数上可以更多的指手画脚。

至于种子(Seed)

一个扰动参数吧,相同的种子会选择相似的素材集,相似的处理方法(集),然后得到类似的结果。

未来?!

不知道,我想要这个智能融合工具。但是真有了还要我这个笨蛋设计干嘛,普通用户拉几个素材一融合就有了想要的东西。对了,素材也可以通过 AI 来检索。

倒是素材集是个问题,谁家 AI 的素材集更大,更全,标签更精准细致,然后 AI 运用这些素材的能力更好(标签权重合理,融合完美),谁家产品就更好用喽。这好像就是现在 AI 训练的过程。

读过了老鼠的长篇,点一下下面的图片吧,你懂得(球球了,为了这些内容,大老鼠花了小钱钱和大时间的

image

1 个赞

有心了

赞下,感谢把使用体会、分析与理解,分享出来

现在怎么样了

半个月了,大家早就玩腻了。我都好几天没打开它了。说到底,很惊艳,但也只停留在乍一看。真用起来,挺开盲盒的,原因上面都讲了。

Subscription: Standard (Active monthly, renews next on 2023年5月7日下午12点30分)
Job Mode: Fast
Visibility Mode: Public
Fast Time Remaining: 14.46/15.0 hours (96.38%)
Lifetime Usage: 212 images (5.67 hours)
Relaxed Usage: 133 images (4.71 hours)

你看,快速模式都没怎么用。当然现在大家上去都用快速模式了,一方面真的用不完,一方面龟速模式现在真的挺龟的,而且一些特性在龟速下还用不了。

我们这次合租成员还是挺有代表性的。一个我,半吊子程序员+半吊子设计;一个插画师;一个水彩画师。他们都是用这个找找灵感,实际用来出作品还是完全不够的。我更多的是思考背后的运行逻辑。

以后还买么

没找到啥变现方法,当然我可以给大家生成头像啥的回回血,但是大家合租的我这么用就不地道了。但如果自己单独购买的,那五块钱一个头像兴许能回本。

所以目前没啥想法,或许有技术更新了还会买。

但如果日常有设计工作,用这个做个灵感启发工具,和人合租一个倒是挺不错的。

然而还是买了

确切地说是然而还是会买。

这个月的余量……还有惊人的 13 小时上下,差不多就是剩余 80%+,亏死了。所以下个月 6~8 人合租,目前凑到六个人,可以开车。

按照 180 元计算,6 人分摊是 30 元/人,8 人是 22.5 元/人,但是人越多越不好协调,所以也并不追求了,基本是相熟的人,这样比较能够保证体验。

然后提前几天开车,这样新来的人就可以利用这月的余量熟悉工具,不太用担心下月额度不足了。

为什么续费呢?因为合租的其他小伙伴都打算继续用,而今天开始 MJ 升级到了 v5.1,啊,出了新版本谁不想试试呢,听说很快还有 5.2,似乎还有 6 ……(被套牢了啊

但换个角度想:每月三十元,买一个快速获得自己需要素材的工具,从生产力的角度去思考,应该是划算的。