关于 Midjourney 一些别人不会告诉你的东西

长描述未必有用

仔细观察之后发现,画廊中那些看起来非常惊艳的作品,有时候和他们的描述之间关系也不太大。

可爱吧,我的描述是:A hamster, Stand, Smile, Raise a hand, Say hello, Wearing a hooded sweater, Standing in the bright sunshine, Fujicolor, high detail, Sony FE GM, film grain --q 2 --s 750 --v 5

你会发现举起一只手这件事儿就完全被忽视了。

再来一个:

The explorer's desktop, An old treasure map, Compass, Sheepskin wine bag, Rope, The cowhide notebook contains a lot of note paper., Coffee stain, The sun shines in through the window, A broken pen, Exquisite Damascus knife, cinematic lighting, Fujicolor, high details --aspect 16:9 --v 5 --q 2 --s 750

其实我觉得只说中世纪探险家的书桌就差不多,你看,指南针、绳索、钢笔,这些元素都不太好确认。

依然认为这些问题是训练素材集不足造成的 AI 回避自己不擅长的东西的结果。你可能说仓鼠举手好像应该没什么问题,那么仓鼠的手心是什么样子的呢?

MJ 负责惊艳,我们能告诉他的很少,最多也就是在画面风格上指手画脚一番。

2 个赞

一秒刷爆

有一个语法,可以批量生成任务(jobs),就是用大括号书写多个关键词,比如:

a penguin {--niji 5, --v 5}

就是用这两个模型分别生成一遍。然后,大括号不止可以有一个。

{a penguin, a hamster, a rabbit} {--niji 5, --v 5}

这就是六个任务,用两个模型分别生成企鹅、仓鼠、兔子

然后,这种用法只能在 fast 模式下使用,合租账号的话,大概可以一条指令用掉所有 fast 限额了。(太坏了

1 个赞

穷,只用得起stalbe diffusion,感觉那个也好玩。

那才是我玩不起的,我只有集成显卡

搞张3060吧,买了显卡没玩过一次游戏,全折腾人工智能了。

好长啊,还没仔细阅读到底儿,我在精读

仍在理解范围之内

在初看惊艳之后,渐渐的就开始探索它的边界,然后尝试理解他的工作。发现这一切并没有在我们的理解范围之外,虽然确实效果非常超乎预期。

融合

首先讲融合,在p图界融合是一项非常重要的技能。我们不可能自己去绘制所有的内容,这时候就会拿各种素材拼接在一起,而拼接之后效果的融洽程度就是融合能力的体现。这确实很难,边界的自然过渡以及光线方向和滤镜色调的统一,都是非常难做到的。

但如果让程序去解决这些问题,大概可以做得更好,因为这里面是有一些套路的。但以往这些套路背后的运算都是由人脑去完成的。比如哪里应该再弯曲一点,使得线条能够完美拼接;哪里应该模糊一下,使得过渡自然;哪里的色调应该调节,使得画面整体统一……如果你用过photoshop就知道,这里面的许多调节其实是非常感性的, Photoshop本身就不是一个理性的工具,没有办法非常精确的去实现一些图形。(这里肯定有人想抬杠,但如果你用过类似 AutoCAD 之类的行业工具之后,你就会有不一样的感想)

如果设计师手动进行的调节是感性的,不那么精确的,那么使用同样套路的程序,可以做到更加精准的调节,即完美的融合。这是可以理解的。(作为设计师,好希望能够把这个功能放到作图软件上去。比如我把一堆素材放在图像中合适的位置,然后启动自动融合就能生成一张非常舒适的图片。当然未来这个功能肯定是会有的。

素材

下一个问题就是素材。很多时候的设计就是把各种素材拼凑在一起。这些素材有的是在网络上寻找的,有的是自己制作的。其中自己制作的素材在多数时候或多或少的有着其他素材的影子。各个行业都是这样,很难有绝对自己原创出来的大型的东西,都是对前人的模仿同时不断提升着。

现在 AI 模拟的也是类似的过程,融合能力更多是算法的精妙,这是一个很令人赞叹的进步。而用来体现这个效果的就是他拥有的素材库。当然也可能被称作训练的数据集,我不管他叫什么或者是什么,我要按照我自己的方法去理解一下。

首先是素材的细致程度。对于一般设计师来说,一个仓鼠的图像就是一个单独的素材;但是如果是画手可能就要更细致一些,比如仓鼠的耳朵是圆形的,仓鼠的小爪爪是什么样子的……感觉目前AI对于素材的分解程度大概介于两者之间,然后更偏向画手一些。

如果他真的具体到了某一个器官,那我说长着兔子耳朵的企鹅,它大概是可以给我准确做出来的。然而现在还是差那么点意思。

他目前掌握的素材数量并不是特别大,当然这是相对而言,相对于我们的需求来说并不是特别大,比如你画大量的仓鼠,你会发现他们长得比较一致,或者翻来覆去就是那么几个形象,就是因为他拥有的素材就那么多,经过排列组合之后也只有这么多结果。当然相对于一般设计师的素材储备,他的素材量还是相当惊人的。

素材的处理

设计师储存素材的时候要加上相应的描述,这是什么,比如这张图片是一只仓鼠。

其实这样的描述远远不够,所以可能还要再加上标签,比如说橙黄色,比如说圆眼睛……然后你发现了这个工作量是巨大的,因为最合理的情况是我们用文字将图片上的所有要点都概括出来,这样便于检索。但是当标签事无巨细之后,你又会发现它变得失效了。你搜索橙黄色出来的内容太多太杂,几乎就没有意义。这里面的取舍就很难。

感觉现在AI对他所拥有的素材也是按照类似上面所描述的方式去理解的。当然,现在 AI 可以具备识图能力,所以这个过程可能是被内化的。但这其中也有人类干预的因素,比如,五根手指。

昨天我尝试绘制一个装在热水袋里的鲸鱼。

这时候不需要尝试,我们非常简单的思考一下,如果让他画一个装在热水袋里的金鱼,肯定不会是相同的效果。为什么这条鲸鱼就这么充满了整个容器?满满的包裹感和囚禁感。

我的理解是,很可能对于鲸鱼这个素材,它有着一个巨大的标签,所以在绘制的时候总是在想着去体现它的大。

然后我尝试画一只猫( tabby)坐在汤碗里以及一只企鹅(penguin)坐在汤碗里,这两次描述的区别只是动物不同。

虎斑猫偏棕色的色调我能够理解,毕竟猫咪就是这个颜色,那么用棕色的汤碗整个画面就比较和谐。

企鹅呢,企鹅是黑白橙色的,他和蓝色有什么关系?!但你会发现这四幅画都是蓝色调的。因为企鹅生活在冰雪之中,只有这样解释才能够说得通。显然,这不是用一张企鹅图片能够训练出来的理解。更仿佛是在企鹅这个素材上绑定了相应的描述:他所处的环境更应该是蓝白色调,有冰有水。

你看同样的描述,同样的汤碗。猫咪的碗里面就很难辨认出有汤,但企鹅的碗基本都满的溢出来。

所以呢

Midjourney “吃”了许多的艺术家,许多的艺术流派,许多的相机,许多的镜头……然后还拥有着非常高超的融合技巧。这太厉害了。

单纯上面这些能力排列组合之后,就足够让众多设计师感动到哭。还是前面说的那个场景,如果我把各种素材在画面上摆好之后,能够通过简单的选择这些参数,来生成一幅完美融合的画作,这样的未来是多么美好。

为什么有时候他没有办法生成我所期望的画面?就是受素材和素材本身标签的影响。首先它要有相应可供参考的素材,比如没有仓鼠的背影,它就很难生成一个仓鼠的背影,那他只能选择忽略掉相应的描述。然后要了解每种素材所具有的潜台词,比如企鹅,就会倾向于将环境设置为蓝白色,这时候你就要加上相应的设定,去覆盖掉这个预设。

你会发现这太烦了。所以现在很多时候,我们并不能够对画面进行更多的指挥,只能大致说一下有什么,然后给AI留下比较多的发挥空间。倒是在风格、滤镜、相机、镜头、光线这些他确定了解的参数上可以更多的指手画脚。

至于种子(Seed)

一个扰动参数吧,相同的种子会选择相似的素材集,相似的处理方法(集),然后得到类似的结果。

未来?!

不知道,我想要这个智能融合工具。但是真有了还要我这个笨蛋设计干嘛,普通用户拉几个素材一融合就有了想要的东西。对了,素材也可以通过 AI 来检索。

倒是素材集是个问题,谁家 AI 的素材集更大,更全,标签更精准细致,然后 AI 运用这些素材的能力更好(标签权重合理,融合完美),谁家产品就更好用喽。这好像就是现在 AI 训练的过程。

读过了老鼠的长篇,点一下下面的图片吧,你懂得(球球了,为了这些内容,大老鼠花了小钱钱和大时间的

image

1 个赞

有心了

赞下,感谢把使用体会、分析与理解,分享出来

现在怎么样了

半个月了,大家早就玩腻了。我都好几天没打开它了。说到底,很惊艳,但也只停留在乍一看。真用起来,挺开盲盒的,原因上面都讲了。

Subscription: Standard (Active monthly, renews next on 2023年5月7日下午12点30分)
Job Mode: Fast
Visibility Mode: Public
Fast Time Remaining: 14.46/15.0 hours (96.38%)
Lifetime Usage: 212 images (5.67 hours)
Relaxed Usage: 133 images (4.71 hours)

你看,快速模式都没怎么用。当然现在大家上去都用快速模式了,一方面真的用不完,一方面龟速模式现在真的挺龟的,而且一些特性在龟速下还用不了。

我们这次合租成员还是挺有代表性的。一个我,半吊子程序员+半吊子设计;一个插画师;一个水彩画师。他们都是用这个找找灵感,实际用来出作品还是完全不够的。我更多的是思考背后的运行逻辑。

以后还买么

没找到啥变现方法,当然我可以给大家生成头像啥的回回血,但是大家合租的我这么用就不地道了。但如果自己单独购买的,那五块钱一个头像兴许能回本。

所以目前没啥想法,或许有技术更新了还会买。

但如果日常有设计工作,用这个做个灵感启发工具,和人合租一个倒是挺不错的。

然而还是买了

确切地说是然而还是会买。

这个月的余量……还有惊人的 13 小时上下,差不多就是剩余 80%+,亏死了。所以下个月 6~8 人合租,目前凑到六个人,可以开车。

按照 180 元计算,6 人分摊是 30 元/人,8 人是 22.5 元/人,但是人越多越不好协调,所以也并不追求了,基本是相熟的人,这样比较能够保证体验。

然后提前几天开车,这样新来的人就可以利用这月的余量熟悉工具,不太用担心下月额度不足了。

为什么续费呢?因为合租的其他小伙伴都打算继续用,而今天开始 MJ 升级到了 v5.1,啊,出了新版本谁不想试试呢,听说很快还有 5.2,似乎还有 6 ……(被套牢了啊

但换个角度想:每月三十元,买一个快速获得自己需要素材的工具,从生产力的角度去思考,应该是划算的。

关于 v5.1

官方通知如下,我做了一下翻译(机翻)。

嘿,@所有人,我们今晚有几个消息要宣布:

  1. 我们正在测试5.1版本的图像系统
  • V5.1更有主见(就像V4一样),而且更容易使用,提示很短。
  • V5.1有一个 "非意见 "模式(类似于V5.0的默认模式),称为 “RAW模式
  • 不要担心V5仍然可用(和以前一样)。

V5.1与V5.0的其他变化

  • 更高的连贯性
  • 文本提示更准确
  • 更少的不需要的边框或文字假象
  • 改进了锐利度

如何启用V5.1:

  • 进入/设置并点击 “V5.1”(在第二行)或在提示后输入`–v 5.1’。
  • 对于RAW模式,点击/设置下的RAW模式按钮(点击V5.1后)或输入--style raw

其实,我没看懂。我主观感受是 5.1 的图片更耐看了,少了一些它故意模糊掉的细节。

你们怎么合租的?登录同一个账号?

是的,似乎也只能这个办法(或者自己搞个 bot 进行中转,我懒

v5.1 的激进和修正

太创意了,有点不好控制,我强调一只企鹅,它坚决给我画一屏幕企鹅。

这时候或者使用 v5/v4 模型,或者坚持 v5.1,但是使用 Raw Mode。

关于 Raw Mode 引用一名用户的评价:

more photo realistic/ugly(更真实/丑陋的照片)

结果会更贴近你的描述。

方法是加上这个参数:--style raw,也可以在 /settings 中开启