啥时候AI能出一个功能，找不到就说不知道而不是胡编啊……还有就是屏蔽过犹不及了

CCR · 2023 年7 月 10 日 03:47

如题，今天用通义千问帮我爸做题，结果：

问题就在于，我查遍资料也没明白1987是怎么编出来的……

更离谱的来了：

此外，我发现通义千问在针对历史、政治问题时极其敏感，这屏蔽的有点太狠了啊……
我问了个中华人民共和国的建立，结果因为伟人的名字出现而被屏蔽了……问题是中国的几乎所有的大事都有那几位伟人的身影啊，甚至在例如开国大典、土地改革、改革开放等等重大历史进程和转折点中具有不可替代的神圣作用，我问个开国大典也给屏蔽就离谱……

MiN · 2023 年7 月 10 日 07:03

尽量别用它问历史、政治等有关方面的东西，
不知是有意还是无意，有些问答，是带意识形态和制造“历史虚无主义”的

CCR · 2023 年7 月 10 日 07:05

看出来了，是真·“虚无”，生造历史了纯纯

neo_chen · 2023 年7 月 10 日 07:21

因为AI不知道“他在胡说八道”。简单点，他就是一个“升级版”搜索引擎，只是表现得像是一个在和你对话的“虚拟人物”。“升级版”只是代表更新颖，潜力可能更大，不代表现在就更强，也不代表未来会更强。

CCR · 2023 年7 月 10 日 07:27

ai也是可以推测自身回答的置信度的，我真不太相信第一个回答他自己给自己打分的话置信度会很高……

yevve · 2023 年7 月 10 日 07:38

问题是AI也不知道自己回答的是什么（
那又怎么让他分辨是否在胡编乱造呢？

11119 · 2023 年7 月 10 日 08:10

那你直接用搜索引擎呗

Debatrix · 2023 年7 月 10 日 08:18

不过说实话这个置信度的置信度也不是很高，毕竟原本模型就是无监督训练的，监督信号也只能让语法通顺，而让结果合乎逻辑一方面是由训练数据确保（但是互联网真的可信吗？），另一方面就是看起来就非常tricky的各种对齐……
而且这种看上去挺明确的问题直接搜索引擎可能会更合适，我个人感觉语言模型最好还是只做点语言本身的工作，比如组织语言、润色文稿和编废话……

CCR · 2023 年7 月 10 日 08:20

有道理奥，原始训练数据好像本身的置信度就不怎么高的样子……

w568w · 2023 年7 月 10 日 13:42

AI 专业的来强答一波。

首先这个标题的说法有点古怪啊，相当于 「啥时候汽油车能出一个功能，不用加油」。正如汽车不加油就不能跑一样，这样的现象同样是内蕴于当前 AI 设计思路的「硬伤」。

一个模型在不知道答案的情况下强行拼凑错误答案的情况，一般称为「幻觉」（Hallucination）。有些论文用「禁欲」（Abstain）一词来描述抑制这一现象的手段。

模型出现幻觉的可能原因是多样的，目前仍在探索中。一种比较认可的解释是：在大规模监督学习中，我们向模型提供许多问题及其正确答案（例如：小众论坛网址是多少？答：https://meta.appinn.net/），并训练模型学会所提供的答案。使用时有两种情况：

模型「知道」答案。在这种情况下，监督训练正确地推动它将答案与问题相关联，希望推动它执行类似的步骤来回答类似的问题。这是我们期望的行为；
模型「不知道」答案。模型只能记住它学过的特定的问答对。

这不是很有效，因为我们的目标是让模型「泛化」，也就是学习回答没见过的问题，而不仅仅是训练数据中给定的问题。我们希望模型能够泛化。但是，如果我们成功地训练模型在情况 2 下进行泛化，那么我们基本上就是在教模型去扯谎。坏消息是，「监督学习」可能「鼓励」模型扯谎，因为它一般只包括正反馈。

（换句话说，对于「知道」的答对了有奖励，对于「不知道」瞎答惩罚也没那么大。如果你是模型，肯定倾向于瞎扯咯）

之所以要强调这是内蕴于当前 AI 设计思路的「硬伤」，是因为很多人可能以为 AI 和计算机数据库一样，把知识全部记录下来，然后查询回答，因此对 AI 瞎答感到困惑——数据库有就是有，没有就是没有，你瞎说个什么劲呢？实际上，AI 的知识以模糊而稀疏的方式储存于权重之中，基于 Transformer 大型语言模型的本质依然是「概率语言模型」——编码输入，以模糊的方式激活注意力层（说白了就是矩阵运算），然后给出回答里所有单词的概率分布。由于模型本身是连续的，想让它显示出高度不线性的特征，可得花一番大功夫。目前学术界的一个热门研究方向也在这里。

可参考 InstructGPT 这篇 [2203.02155] Training language models to follow instructions with human feedback 来了解一下此前幻觉现象的研究进展。

haitao · 2023 年7 月 10 日 14:26

AI的模式、机制很多，
现在最热的GPT只是一种，是根据它已有的内容按概率生成内容，它就不存在真假了，只有与它已有的信息的符合度。
符合度不一定百分百，否则就是搜索了。
已有内容又不一定是正确、真实的。

屏蔽是因为ZZ原因额外加的。。。。国外也有

Baiyssy · 2023 年7 月 11 日 08:34

我试过让ChatGPT给自己的每个回答评一个置信度，结果他每个都是满分

Baiyssy · 2023 年7 月 11 日 08:36

用国内的AI问中国近代史，你算是找对人了，一步可以踩一百个陷阱。

LambertCrofts · 2023 年7 月 11 日 15:20

不光是历史啊，问数学或者其他问题也会这样，就瞎编，乍一看还挺有理有据的，经不起推敲。你说它讲错了，他就立马改口

对话式 AI 只适合做辅助性的事情，比如提供一个解决问题的思路，列出一些建议之类的。

它并不能提供一个准确回答，不知道问题答案的人无法区分回答正确与否，知道问题答案的又不会去提问

hanzy · 2023 年7 月 11 日 16:50

这种问题建议直接反馈给阿里客服。

CCR · 2023 年7 月 11 日 16:57

可以理解这种涉政问题肯定保守，反馈基本无用……

hanzy · 2023 年7 月 11 日 16:59

不反馈更无用

CCR · 2023 年7 月 11 日 17:01

反馈过的，悄无声息，所以基本认为反馈无用了

RachelSherman · 2023 年7 月 11 日 20:33

chatgpt这类的ai并不是在一个预生成的数据库里查找回答，而是在已知前文的基础上继续文字接龙游戏，跟搜索引擎是完全不同的思路。

在经过大量的预料训练之后，ai基于训练获得的文法知识在判断接龙的匹配概率，但和“事实”完全无关，在ai眼里没有事实，所有的预料都是同等“真实”的。

hanzy · 2023 年7 月 12 日 07:15

无语了

话题		回复	浏览量
书译 - AI 全书翻译工具，能够在几分钟之内完整地翻译一本书发现频道 🔎	0	1817	2023 年5 月 6 日
这需求，你还别说，举全群之力，两天没搞明白｜如何用 ChatGPT 写脚本过程全公开青蛙的应用	13	1785	2023 年11 月 18 日
AI导航 - 最前沿的AI人工智能工具大全发现频道 🔎	0	907	2023 年7 月 18 日
chatGPT也没有传说中的那么强大啊讨论分享 chatgpt	11	1455	2023 年3 月 23 日
[自荐]AI好物——根据一句话推荐商品发现频道 🔎	14	825	2024 年3 月 6 日

啥时候AI能出一个功能，找不到就说不知道而不是胡编啊……还有就是屏蔽过犹不及了

相关话题