关于 Midjourney 一些别人不会告诉你的东西

和人合租了一个月,去了解,去探索。以下流水账,都是我遇到的问题,但是比较少被别人提及的,即:在购买之前我完全没了解到的。

希望大家发电帮老鼠回血,这玩意儿,它贵啊!!!——老鼠爱发电

真的挺简单的

写出描述,不一定很长,几个关键词也可以,翻译,放进去就行了。

龟速不慢

白天用基本一分钟出图,足够足够了。fast 留着出大图就好。所以 30 刀的套餐足够一般用户折腾了。(n 个人合租榨取就另说,如果大家都能很节制的在必要的情况下才 fast 就很好,否则,怕不是有人开局一路 fast 浪完了。

但是到了晚上,大概 19:00 或者 20:00 往后,开始变慢,龟速模式大概出图要两分钟往上,大概是欧美用户起床了。

龟速模式会随着使用逐渐降速

PS:2023-04-08 16:32:43 似乎龟速模式也会随着使用量的增加而降低排队的权重(耗费更多的等待时间),我才用一两天,目前还无法观测。但因为是合租,就得控制自己的用量,避免自己一通输出,别人都只能使用超级龟速。

会卡死

搜了一下,网络上也有人遇到各类问题,然后重置起来可能比较麻烦(官方没提供简易方案),就很玄学。

我遇到的情况小尴尬。兴奋的玩了一天,晚上想和妈妈展示一下现代人工智能的强大,结果这次生成卡了,到了 62% 死活不动,它也显示这个工作进行中。嗯,到现在 10 个小时了,纹丝不动。

好消息是卡住一个工作并不会影响后续继续生成,所以到现在我也没解决这个问题。

取消生成任务(job)

见六楼

擅长卡通

如果用 chibi 这个单词开头,可以生成卡通效果,很不错,很讨人喜欢。多数情况下可以直接拿来做头像什么的。

反正我是喜欢死了!

并不万能

它对于动物的了解主要限于正面,或者说我们直观印象的一面,比如我想绘制一个仓鼠一头扎进雪地里,只露着后腿和屁股在外面的图像,大家一听就知道,就是那个狐狸扎进雪地的翻版,很俏皮可爱。

上次用 bing 测试,因为“屁股”而导致无限期审核了,尻,汝无臀呼?!

说正题,这个东西用各种模型跑出来的结果基本是这样的:

对,死活给个正脸,因为“一头”嘛。我尝试过各种描述,基本不能让它转过身去,对于 back,觉得似乎它没有足够的素材。

类似的,两个动物的融合也很难,比如兔子脑袋的企鹅

啊,这张是我自己 P 的,AI 我调教不出来这种效果。

这已经是其中比较能看的了,我把上面图片垫进去才堪堪如此。也不懂为什么它一直热衷在企鹅边上放个鸭子。

我开始以为是用 with 表达的缘故,但换成 has 也没什么改善。

当然如果换成卡通形式,都能感受到 AI 长舒一口气:

MJ 的脑回路

见七楼

擅长色彩和视觉冲击

高饱和度,色彩搭配和谐,画面整体视觉冲击力拉满。不放图了,看各种演示图都能感受到

视觉冲击力这点,没几年设计经验的设计师都很难做到的。

可以辅助工作

如果不是设计行业,比如只是做 PPT,需要点氛围图片,这个足够用。

a web page for blog,可以看出,它基本理解了 blog 的常见样式。

First-person perspective, drawing distant peaks in travel notes, coffee steaming around,也确实在本子上绘制了远山。

带来灵感

设计工作者可以用它给自己寻找灵感,就像程序员用 ChatGPT 寻找灵感一样。(说的都是我自己

想到蘑菇屋,让它画一个出来。这比自己寻找素材激发灵感可快多了。

英文是个门槛

毕竟它只理解英文,咖啡能理解,豆浆就未必,这很正常。还有很多表达上的细节也是问题,单纯依靠翻译软件很容易产生这种细节上的偏差。如果具有更强的英文表达能力,应该会得心应手。

它并不理解什么是什么

我让它摆一堆文具出来看看。

整齐,治愈,但你仔细看,里面一堆似是而非的奇怪东西。你让它画动物(不指定具体物种)也会有类似的情况。

然后 EDC 物品,味对了,但你也不知道这是些什么。当然,我很惊讶,它理解 EDC

不要期待

内心对结果毫无想法的时候,它常常是让你感到惊艳的,比如寻找灵感;对画面有清晰地预期时,你会觉得它非常难以调教,怎么就死活不听话呢?!

不是描述

其实不是用句子描述,而是给出关键点,而且默认情况下单词的权重逐个递减。

而这些关键点中涉及风格、样式、相机参数……的地方很多专业名词或者人名,想做到更好的控制需要一定程度的背书。这就决定了不是对这些深入了解的设计师基本上很难迅速的任意输出想要的风格(无法形成机器能理解的准确表达)

这不是设计

见十五楼

翻译中的细节变更

见十七楼

长描述未必有用

见二十一楼

关于合租(速度)

见五楼

局限性

见十八楼

一秒刷爆

见二十二楼

仍在理解范围之内

见二十七楼

现在怎么样了

见三十楼

以后还买么

见三十一楼

然而还是买了

见三十二楼

关于 v5.1

见三十三楼

v5.1 的激进和修正

见三十六楼

彩蛋

一只写代码的猫(图三完美诠释用脚写代码


后续有任何感受还会发上来,以及——老鼠爱发电

2 个赞

你画的图好可爱!文具那个也真得随机。

很有意思,期待后续

在更新中……

关于合租(速度)

/fast 快速模式,有时长限制,30 刀的套餐是 15 小时,但是某些生成可能会有更高的消耗
/relax 龟速模式,这个付费之后没有时长限制,但是随着使用次数的增加,会逐渐降低排队的权重,即耗时增加,绝了。

想一下吧,几个人合租,如果没有有效的沟通和自觉,按着黑暗森林理论,你不用别人就会用掉,所以快速模式的时长会被飞快的用掉。然后你不早用后面就得花超长的时间等,所以开始尽快榨取龟速模式的权重。如果这种状况持续发展,大概多数人用不到一个月。

即:要么自己单独购买,要么几个相熟,自觉,不会吵架的人合租,并且尽可能少的人共用。


Append: 2023-04-09 17:55:21

目前用龟速模式生成了 80 images (3.14 hours),粗略感觉大约每满一个小时降一次权重。现在已经非常明显的感受到慢了,大概一次耗时两分钟多。

按照这样估计(盲猜),累积到 10 hours 左右已经慢的有点让人不耐烦了,比如 10 mins 完成。所以虽然说是无限使用龟速模式,但其实能用这个模式跑三百次大概也就是一般用户的极限了。而 30 刀套餐的 fast 时长是 15 hours,据说折合一千张左右。这么看,龟速模式的量也就是个添头。

1 个赞

取消生成任务(job)

进度卡住不动,这种现象还是比较常见的。正确的操作方法是:在消息上右键(手机上长按)——弹出菜单——App——Cancel Job

错误的操作是:反应——:x:。我就被这个坑了,这只是删掉消息,任务还卡着。幸亏我卡的是龟速任务,如果快速任务(套餐限制只能有三个快速任务并发)我就得和合租小伙伴谢罪了。

如果希望更加保险的操作,可以先记录 job ID,这样万一像我一样删掉了消息,还能用 /show 重新找回。(我没记录,哇哇大哭

获取 Job ID 的方法: Midjourney Show Job Command

MJ 的脑回路

A penguin has rabbit head,一个有兔子脑袋的企鹅。但这是人类语言的表达。MJ理解:企鹅、兔子、脑袋。

我也开始理解为什么我生成的这类描述的画面中经常有个鸭子了——兔子的头+企鹅的嘴=类似鸭子的奇怪生物。

两个东西融合到一起,用介词 as,不过在两个非常不相干的情况下可能比较好用,反正我用 as 也没成功。

另一种方式,将其描述为杂交(混血)(考验英文词汇量啊喂!

penguin rabbit hybri

所以必须用英文描述对于国人来说太难了。

2 个赞

我一般去官网hot图去找灵感

另外,说一句,除了60刀套餐,其余套餐所有的图都是默认公开的,别人都能看到,所以垫图把自己照片转卡通风格的时候要小心隐私泄露,因为别人可以通过你的prompt看到你垫图的链接,从而获得你上传的图。

再有就是官方在内测自己的独立作图网站,不用通过难用的ds bot作图,但目前内测门槛是作图达到1w张。(叹息)

下一步我也打算认真的参考一下别人做的图,寻找一下灵感。当然,学习过程是循序渐进的,没有前边一段的瞎折腾,我去看那些教程也会不知所云;而无头苍蝇一般乱撞一通之后再去看教程,就觉得各种豁然开朗并能够迅速理解到自己的差距在哪里。

因为是大家合租,所以垫图肯定不会放有隐私内容的东西,信息泄露的问题倒是不用担心。

现在就是不好确定未来科技的走向,即便今天把这种描述能力练习的炉火纯青,可能明天就被淘汰掉了。就好像一夜之间,那些传统的绘画作图技能似乎……虽然说被取代很不礼貌,但是肯定受到了巨大的冲击。所以也不敢认为自己现在这样是在学习一项新的技能,只是尝试去理解 ai 和理解这个时代吧。

一万张图啊!如果我自己开账户的话,可能一个月努努力能达到。前提是他不能给我降低龟速模式的排队权重,否则时间就全都用在排队上了。但现在合租,我疯狂起来其他人的速度都受到影响,就只能尽力收敛,认真的理解思考之后再去尝试一下。

这个事情有点尴尬,自己一个人单开账户200多块钱一个月,实在是……

我感觉,对于工作中用得到图的人,比如淘宝店、游戏原画、插画师,mj是增加效率的工具,对于工作中用不到图的人,玩这个就只是爱好了,就是体验一下出一点好看的图,自己看着开心就。

反正我是这个心态。

再分享一点跑出来的图:





是大佬!按住 rua~

自己单独买的费用实在太高了,本想淘宝买个合租账户来用一下……

想掉头去玩 Stable Diffusion 了

如果只是想尝尝新鲜,不是专业研究目的,10 刀的套餐大概也 OK,大约二百张图,一般用不到这么多图就失去兴趣了。

要求不高的情况下,200 张图都 足够满足日常做 PPT 的配图需求了。

200 张包括废图吗?有时候一张满足要求的图要通过多次出图来选,消耗比较大。如果成品图有 200 张倒可以接受。

这不是设计

我今天认真参考别人的描述,结合自己的思考,发现自己走进了一个错误的思路里。我一直是有一个构想,对画面的预期,然后描述这个画面,看它给出的结果能和这个画面吻合到什么程度。这是传统设计思路,我打一个腹稿,然后用工具呈现这个构思。

但这,不是传统设计工具啊!

所以应该用领导分配任务式的描述,我要一个兔子和企鹅的结合体,至于怎么结合,哪里取兔子的特征,哪里取企鹅的特征,这你自己斟酌(给 AI 足够发挥的空间)。

然后呢,要讲清楚自己要的口味,对,就像是我们去买煎饼果子,对于核心(这个煎饼果子的制作)我们不要指手画脚,但是对于最终的调味(画面风格)要讲清楚,这样才能吃到适合我们的……(嘛,流口水了

从这个角度讲,做设计的人反倒更不容易上手这个工具,就像一个做煎饼果子几十年的人去另一个煎饼果子摊儿,内心总是在挑剔着每一个细节,这样就很难对最后的食物感到满意。

对于侧重和预期,要有合理的取舍。

包括,但依然很可能够用,大概没几个人高强度的尝试一个月吧。

我们三个人目前(两天半)才生成了七十多次。虽然这里为了平衡,我压制了自己尝试的欲望,但考虑后期肯定没这么频繁的尝试,大概这个数字也能说明点问题。

我现在使用频率已经在降低了,虽然很惊艳,总玩也没啥意思,开始思考怎么写出更好的关键字,尝试总结技术要点,这些都是要用时间思考的。想好了再尝试一下,然后再想……


主要是在一些限定下合租也比较难受,除非的特别熟的人一起,而且不建议超过三个人。

1 个赞

翻译中的细节变更

我想尝试用它给 WinSize 做个图标,这是一个窗口管理软件,这句话在中文没有歧义,但是当我写下 windows 我就知道完蛋!

我想画个树桩,当我描述年轮的时候,翻译软件给的是 rings,然后一些图就在树桩上面摆放一个戒指,或者是个空心树桩。

当描述巨大的时候,我们一般都用 big,翻译软件也是类似比较稳妥的翻译,但这种描述有时候效果并不好。

虽然我现在倾向于简短的描述,但我写的并不快,得用翻译软件反复翻译,避免这种歧义。

我的状态基本就是这样的:

局限性

昨晚生成的图,我很满意。

In the forest, Hamster, Stand, Walk, Bow head, Contemplation, Medieval clothing, cinematic lighting, ray tracing, from side --ar 16:9 --v 5 --q 2 --s 750

  • 描述的准确度(是否有准确且被普遍认同的专业名词,且无歧义)
  • AI 的理解能力
  • AI 的素材库(训练数据集)

我有一个咖啡杯,随手杯,但是我怎么告诉 AI 杯子的样子?这很难,一些杯子并没有准确的名称来描述。

当然,你可以尝试将很多细节讲给 AI 听,但是 AI 并不能听懂人类的语法,而是要素点的拼合,这导致一些人类惯用的描述手法变得失效。而且,重要的是,要点越少越好,所以还是回归上面,怎么找到一个或者几个专用,准确的词汇去描述。

你看上面四只仓鼠是不是挺像的?如果你用它画熊猫,那么……

注意看眼圈和耳朵,是不是具有非常高的一致性。

我觉得只是训练素材不足导致的,但面面俱到的训练肯定是不可能的,所以想要在某个方向足够专业,还得自己训练模型。

听说画手的问题已经解决了?想知道手部细节处理的怎么样

一分钟出图,用 1050 跑 stable diffusion 出一张 512x512 也差不多是这么长时间

到底是买张卡划算还是用这个划算:person_facepalming:

v5 模型手部基本没问题了。

不知道未来的发展方向,不太好讲哪个划算。仅说现在的话,单纯玩玩或者一般需求就买个会员尝试一下,挺好。

但如果不喜欢全是支愣着耳朵的熊猫,或者对这方面细节要求比较高,大概就只能走自己训练模型的路。但估计未来会有针对不同方向模型的产品诞生,比如可能出现一家公司就专注于训练动物相关的模型这样。

1 个赞