关于 Midjourney 一些别人不会告诉你的东西

dms · 2023 年4 月 10 日 23:04

长描述未必有用

仔细观察之后发现，画廊中那些看起来非常惊艳的作品，有时候和他们的描述之间关系也不太大。

可爱吧，我的描述是：A hamster, Stand, Smile, Raise a hand, Say hello, Wearing a hooded sweater, Standing in the bright sunshine, Fujicolor, high detail, Sony FE GM, film grain --q 2 --s 750 --v 5

你会发现举起一只手这件事儿就完全被忽视了。

再来一个：

The explorer's desktop, An old treasure map, Compass, Sheepskin wine bag, Rope, The cowhide notebook contains a lot of note paper., Coffee stain, The sun shines in through the window, A broken pen, Exquisite Damascus knife, cinematic lighting, Fujicolor, high details --aspect 16:9 --v 5 --q 2 --s 750

其实我觉得只说中世纪探险家的书桌就差不多，你看，指南针、绳索、钢笔，这些元素都不太好确认。

依然认为这些问题是训练素材集不足造成的 AI 回避自己不擅长的东西的结果。你可能说仓鼠举手好像应该没什么问题，那么仓鼠的手心是什么样子的呢？

MJ 负责惊艳，我们能告诉他的很少，最多也就是在画面风格上指手画脚一番。

dms · 2023 年4 月 10 日 23:14

一秒刷爆

有一个语法，可以批量生成任务（jobs），就是用大括号书写多个关键词，比如：

a penguin {--niji 5, --v 5}

就是用这两个模型分别生成一遍。然后，大括号不止可以有一个。

{a penguin, a hamster, a rabbit} {--niji 5, --v 5}

这就是六个任务，用两个模型分别生成企鹅、仓鼠、兔子

然后，这种用法只能在 fast 模式下使用，合租账号的话，大概可以一条指令用掉所有 fast 限额了。（太坏了

lilyhcn1 · 2023 年4 月 11 日 00:37

穷，只用得起stalbe diffusion，感觉那个也好玩。

dms · 2023 年4 月 11 日 09:09

那才是我玩不起的，我只有集成显卡

lilyhcn1 · 2023 年4 月 11 日 10:54

搞张3060吧，买了显卡没玩过一次游戏，全折腾人工智能了。

alenh · 2023 年4 月 11 日 15:37

好长啊，还没仔细阅读到底儿，我在精读

dms · 2023 年4 月 11 日 23:56

仍在理解范围之内

在初看惊艳之后，渐渐的就开始探索它的边界，然后尝试理解他的工作。发现这一切并没有在我们的理解范围之外，虽然确实效果非常超乎预期。

融合

首先讲融合，在p图界融合是一项非常重要的技能。我们不可能自己去绘制所有的内容，这时候就会拿各种素材拼接在一起，而拼接之后效果的融洽程度就是融合能力的体现。这确实很难，边界的自然过渡以及光线方向和滤镜色调的统一，都是非常难做到的。

但如果让程序去解决这些问题，大概可以做得更好，因为这里面是有一些套路的。但以往这些套路背后的运算都是由人脑去完成的。比如哪里应该再弯曲一点，使得线条能够完美拼接；哪里应该模糊一下，使得过渡自然；哪里的色调应该调节，使得画面整体统一……如果你用过photoshop就知道，这里面的许多调节其实是非常感性的， Photoshop本身就不是一个理性的工具，没有办法非常精确的去实现一些图形。（这里肯定有人想抬杠，但如果你用过类似 AutoCAD 之类的行业工具之后，你就会有不一样的感想）

如果设计师手动进行的调节是感性的，不那么精确的，那么使用同样套路的程序，可以做到更加精准的调节，即完美的融合。这是可以理解的。（作为设计师，好希望能够把这个功能放到作图软件上去。比如我把一堆素材放在图像中合适的位置，然后启动自动融合就能生成一张非常舒适的图片。当然未来这个功能肯定是会有的。

素材

下一个问题就是素材。很多时候的设计就是把各种素材拼凑在一起。这些素材有的是在网络上寻找的，有的是自己制作的。其中自己制作的素材在多数时候或多或少的有着其他素材的影子。各个行业都是这样，很难有绝对自己原创出来的大型的东西，都是对前人的模仿同时不断提升着。

现在 AI 模拟的也是类似的过程，融合能力更多是算法的精妙，这是一个很令人赞叹的进步。而用来体现这个效果的就是他拥有的素材库。当然也可能被称作训练的数据集，我不管他叫什么或者是什么，我要按照我自己的方法去理解一下。

首先是素材的细致程度。对于一般设计师来说，一个仓鼠的图像就是一个单独的素材；但是如果是画手可能就要更细致一些，比如仓鼠的耳朵是圆形的，仓鼠的小爪爪是什么样子的……感觉目前AI对于素材的分解程度大概介于两者之间，然后更偏向画手一些。

如果他真的具体到了某一个器官，那我说长着兔子耳朵的企鹅，它大概是可以给我准确做出来的。然而现在还是差那么点意思。

他目前掌握的素材数量并不是特别大，当然这是相对而言，相对于我们的需求来说并不是特别大，比如你画大量的仓鼠，你会发现他们长得比较一致，或者翻来覆去就是那么几个形象，就是因为他拥有的素材就那么多，经过排列组合之后也只有这么多结果。当然相对于一般设计师的素材储备，他的素材量还是相当惊人的。

素材的处理

设计师储存素材的时候要加上相应的描述，这是什么，比如这张图片是一只仓鼠。

其实这样的描述远远不够，所以可能还要再加上标签，比如说橙黄色，比如说圆眼睛……然后你发现了这个工作量是巨大的，因为最合理的情况是我们用文字将图片上的所有要点都概括出来，这样便于检索。但是当标签事无巨细之后，你又会发现它变得失效了。你搜索橙黄色出来的内容太多太杂，几乎就没有意义。这里面的取舍就很难。

感觉现在AI对他所拥有的素材也是按照类似上面所描述的方式去理解的。当然，现在 AI 可以具备识图能力，所以这个过程可能是被内化的。但这其中也有人类干预的因素，比如，五根手指。

昨天我尝试绘制一个装在热水袋里的鲸鱼。

这时候不需要尝试，我们非常简单的思考一下，如果让他画一个装在热水袋里的金鱼，肯定不会是相同的效果。为什么这条鲸鱼就这么充满了整个容器？满满的包裹感和囚禁感。

我的理解是，很可能对于鲸鱼这个素材，它有着一个巨大的标签，所以在绘制的时候总是在想着去体现它的大。

然后我尝试画一只猫（ tabby）坐在汤碗里以及一只企鹅（penguin）坐在汤碗里，这两次描述的区别只是动物不同。

虎斑猫偏棕色的色调我能够理解，毕竟猫咪就是这个颜色，那么用棕色的汤碗整个画面就比较和谐。

企鹅呢，企鹅是黑白橙色的，他和蓝色有什么关系？！但你会发现这四幅画都是蓝色调的。因为企鹅生活在冰雪之中，只有这样解释才能够说得通。显然，这不是用一张企鹅图片能够训练出来的理解。更仿佛是在企鹅这个素材上绑定了相应的描述：他所处的环境更应该是蓝白色调，有冰有水。

你看同样的描述，同样的汤碗。猫咪的碗里面就很难辨认出有汤，但企鹅的碗基本都满的溢出来。

所以呢

Midjourney “吃”了许多的艺术家，许多的艺术流派，许多的相机，许多的镜头……然后还拥有着非常高超的融合技巧。这太厉害了。

单纯上面这些能力排列组合之后，就足够让众多设计师感动到哭。还是前面说的那个场景，如果我把各种素材在画面上摆好之后，能够通过简单的选择这些参数，来生成一幅完美融合的画作，这样的未来是多么美好。

为什么有时候他没有办法生成我所期望的画面？就是受素材和素材本身标签的影响。首先它要有相应可供参考的素材，比如没有仓鼠的背影，它就很难生成一个仓鼠的背影，那他只能选择忽略掉相应的描述。然后要了解每种素材所具有的潜台词，比如企鹅，就会倾向于将环境设置为蓝白色，这时候你就要加上相应的设定，去覆盖掉这个预设。

你会发现这太烦了。所以现在很多时候，我们并不能够对画面进行更多的指挥，只能大致说一下有什么，然后给AI留下比较多的发挥空间。倒是在风格、滤镜、相机、镜头、光线这些他确定了解的参数上可以更多的指手画脚。

至于种子（Seed）

一个扰动参数吧，相同的种子会选择相似的素材集，相似的处理方法（集），然后得到类似的结果。

未来？！

不知道，我想要这个智能融合工具。但是真有了还要我这个笨蛋设计干嘛，普通用户拉几个素材一融合就有了想要的东西。对了，素材也可以通过 AI 来检索。

倒是素材集是个问题，谁家 AI 的素材集更大，更全，标签更精准细致，然后 AI 运用这些素材的能力更好（标签权重合理，融合完美），谁家产品就更好用喽。这好像就是现在 AI 训练的过程。

读过了老鼠的长篇，点一下下面的图片吧，你懂得（球球了，为了这些内容，大老鼠花了小钱钱和大时间的

adoin · 2023 年4 月 12 日 08:48

有心了

alenh · 2023 年4 月 13 日 08:23

赞下，感谢把使用体会、分析与理解，分享出来

dms · 2023 年4 月 20 日 22:44

现在怎么样了

半个月了，大家早就玩腻了。我都好几天没打开它了。说到底，很惊艳，但也只停留在乍一看。真用起来，挺开盲盒的，原因上面都讲了。

Subscription: Standard (Active monthly, renews next on 2023年5月7日下午12点30分)
Job Mode: Fast
Visibility Mode: Public
Fast Time Remaining: 14.46/15.0 hours (96.38%)
Lifetime Usage: 212 images (5.67 hours)
Relaxed Usage: 133 images (4.71 hours)

你看，快速模式都没怎么用。当然现在大家上去都用快速模式了，一方面真的用不完，一方面龟速模式现在真的挺龟的，而且一些特性在龟速下还用不了。

我们这次合租成员还是挺有代表性的。一个我，半吊子程序员+半吊子设计；一个插画师；一个水彩画师。他们都是用这个找找灵感，实际用来出作品还是完全不够的。我更多的是思考背后的运行逻辑。

dms · 2023 年4 月 20 日 22:47

以后还买么

没找到啥变现方法，当然我可以给大家生成头像啥的回回血，但是大家合租的我这么用就不地道了。但如果自己单独购买的，那五块钱一个头像兴许能回本。

所以目前没啥想法，或许有技术更新了还会买。

但如果日常有设计工作，用这个做个灵感启发工具，和人合租一个倒是挺不错的。

dms · 2023 年5 月 5 日 10:27

然而还是买了

确切地说是然而还是会买。

这个月的余量……还有惊人的 13 小时上下，差不多就是剩余 80%+，亏死了。所以下个月 6~8 人合租，目前凑到六个人，可以开车。

按照 180 元计算，6 人分摊是 30 元/人，8 人是 22.5 元/人，但是人越多越不好协调，所以也并不追求了，基本是相熟的人，这样比较能够保证体验。

然后提前几天开车，这样新来的人就可以利用这月的余量熟悉工具，不太用担心下月额度不足了。

为什么续费呢？因为合租的其他小伙伴都打算继续用，而今天开始 MJ 升级到了 v5.1，啊，出了新版本谁不想试试呢，听说很快还有 5.2，似乎还有 6 ……（被套牢了啊

但换个角度想：每月三十元，买一个快速获得自己需要素材的工具，从生产力的角度去思考，应该是划算的。

dms · 2023 年5 月 5 日 10:31

关于 v5.1

官方通知如下，我做了一下翻译（机翻）。

嘿，@所有人，我们今晚有几个消息要宣布：

我们正在测试5.1版本的图像系统。

V5.1更有主见（就像V4一样），而且更容易使用，提示很短。

V5.1有一个 "非意见 "模式（类似于V5.0的默认模式），称为 “RAW模式”

不要担心V5仍然可用（和以前一样）。

V5.1与V5.0的其他变化

更高的连贯性

文本提示更准确

更少的不需要的边框或文字假象

改进了锐利度

如何启用V5.1：

进入/设置并点击 “V5.1”（在第二行）或在提示后输入`–v 5.1’。

对于RAW模式，点击/设置下的RAW模式按钮（点击V5.1后）或输入--style raw。

其实，我没看懂。我主观感受是 5.1 的图片更耐看了，少了一些它故意模糊掉的细节。

ncepuzs · 2023 年5 月 5 日 12:27

你们怎么合租的？登录同一个账号？

dms · 2023 年5 月 5 日 13:04

是的，似乎也只能这个办法（或者自己搞个 bot 进行中转，我懒

dms · 2023 年5 月 5 日 14:14

v5.1 的激进和修正

太创意了，有点不好控制，我强调一只企鹅，它坚决给我画一屏幕企鹅。

这时候或者使用 v5/v4 模型，或者坚持 v5.1，但是使用 Raw Mode。

关于 Raw Mode 引用一名用户的评价：

more photo realistic/ugly（更真实/丑陋的照片）

结果会更贴近你的描述。

方法是加上这个参数：--style raw，也可以在 /settings 中开启

话题		回复	浏览量
【零泉-素材管理工具】一键采集“图片,视频,音频,Midjourney,Stable Diffusion提示词”,支持云同步,支持Ps,Ai设计软件插件拓展发现频道 🔎 chrome , appinned , windows	79	10786	2024 年5 月 15 日
【自荐】团队开发的文档协作工具「妙记多 Mojidoc」，希望为轻量化协同和笔记用户带来一些改变讨论分享	1	434	2022 年10 月 14 日
皮帶的妙用（不許笑）闲聊灌水生活小技巧	33	1576	2022 年5 月 2 日
【自荐】好用的自我提升效率工具（主线程小程序）发现频道 🔎	5	1803	2019 年12 月 15 日
【预发布】桌面上的信息面板稻米鼠的频道🐹	11	2114	2022 年7 月 12 日