啥时候AI能出一个功能,找不到就说不知道而不是胡编啊……还有就是屏蔽过犹不及了

如题,今天用通义千问帮我爸做题,结果:


问题就在于,我查遍资料也没明白1987是怎么编出来的……


更离谱的来了:


此外,我发现通义千问在针对历史、政治问题时极其敏感,这屏蔽的有点太狠了啊……
我问了个中华人民共和国的建立,结果因为伟人的名字出现而被屏蔽了……问题是中国的几乎所有的大事都有那几位伟人的身影啊,甚至在例如开国大典、土地改革、改革开放等等重大历史进程和转折点中具有不可替代的神圣作用,我问个开国大典也给屏蔽就离谱……

尽量别用它问历史、政治等有关方面的东西,
不知是有意还是无意,有些问答,是带意识形态和制造“历史虚无主义”的

1 Like

看出来了,是真·“虚无”,生造历史了纯纯

1 Like

因为AI不知道“他在胡说八道”。简单点,他就是一个“升级版”搜索引擎,只是表现得像是一个在和你对话的“虚拟人物”。“升级版”只是代表更新颖,潜力可能更大,不代表现在就更强,也不代表未来会更强。

1 Like

ai也是可以推测自身回答的置信度的,我真不太相信第一个回答他自己给自己打分的话置信度会很高……

问题是AI也不知道自己回答的是什么(
那又怎么让他分辨是否在胡编乱造呢?

那你直接用搜索引擎呗

不过说实话这个置信度的置信度也不是很高,毕竟原本模型就是无监督训练的,监督信号也只能让语法通顺,而让结果合乎逻辑一方面是由训练数据确保(但是互联网真的可信吗?),另一方面就是看起来就非常tricky的各种对齐……
而且这种看上去挺明确的问题直接搜索引擎可能会更合适,我个人感觉语言模型最好还是只做点语言本身的工作,比如组织语言、润色文稿和编废话……

有道理奥,原始训练数据好像本身的置信度就不怎么高的样子……

AI 专业的来强答一波。

首先这个标题的说法有点古怪啊,相当于 「啥时候汽油车能出一个功能,不用加油」正如汽车不加油就不能跑一样,这样的现象同样是内蕴于当前 AI 设计思路的「硬伤」。

一个模型在不知道答案的情况下强行拼凑错误答案的情况,一般称为「幻觉」(Hallucination)。有些论文用「禁欲」(Abstain)一词来描述抑制这一现象的手段。

模型出现幻觉的可能原因是多样的,目前仍在探索中。一种比较认可的解释是:在大规模监督学习中,我们向模型提供许多问题及其正确答案(例如:小众论坛网址是多少?答:https://meta.appinn.net/),并训练模型学会所提供的答案。使用时有两种情况:

  1. 模型「知道」答案。在这种情况下,监督训练正确地推动它将答案与问题相关联,希望推动它执行类似的步骤来回答类似的问题。这是我们期望的行为;
  2. 模型「不知道」答案。模型只能记住它学过的特定的问答对。

这不是很有效,因为我们的目标是让模型「泛化」,也就是学习回答没见过的问题,而不仅仅是训练数据中给定的问题。我们希望模型能够泛化。但是,如果我们成功地训练模型在情况 2 下进行泛化,那么我们基本上就是在教模型去扯谎。坏消息是,「监督学习」可能「鼓励」模型扯谎,因为它一般只包括正反馈。

(换句话说,对于「知道」的答对了有奖励,对于「不知道」瞎答惩罚也没那么大。如果你是模型,肯定倾向于瞎扯咯)

之所以要强调这是内蕴于当前 AI 设计思路的「硬伤」,是因为很多人可能以为 AI 和计算机数据库一样,把知识全部记录下来,然后查询回答,因此对 AI 瞎答感到困惑——数据库有就是有,没有就是没有,你瞎说个什么劲呢?实际上,AI 的知识以模糊而稀疏的方式储存于权重之中,基于 Transformer 大型语言模型的本质依然是「概率语言模型」——编码输入,以模糊的方式激活注意力层(说白了就是矩阵运算),然后给出回答里所有单词的概率分布。由于模型本身是连续的,想让它显示出高度不线性的特征,可得花一番大功夫。目前学术界的一个热门研究方向也在这里。

可参考 InstructGPT 这篇 [2203.02155] Training language models to follow instructions with human feedback 来了解一下此前幻觉现象的研究进展。

4 Likes

AI的模式、机制很多,
现在最热的GPT只是一种,是根据它已有的内容按概率生成内容,它就不存在真假了,只有 与它已有的信息的符合度。
符合度不一定百分百,否则就是搜索了。
已有内容又不一定是正确、真实的。

屏蔽是因为ZZ原因额外加的。。。。国外也有

我试过让ChatGPT给自己的每个回答评一个置信度,结果他每个都是满分

用国内的AI问中国近代史,你算是找对人了,一步可以踩一百个陷阱。

不光是历史啊,问数学或者其他问题也会这样,就瞎编,乍一看还挺有理有据的,经不起推敲。你说它讲错了,他就立马改口 :sweat_smile:

对话式 AI 只适合做辅助性的事情,比如提供一个解决问题的思路,列出一些建议之类的。

它并不能提供一个准确回答,不知道问题答案的人无法区分回答正确与否,知道问题答案的又不会去提问 :sweat_smile:

这种问题建议直接反馈给阿里客服。

可以理解这种涉政问题肯定保守,反馈基本无用……

不反馈更无用

反馈过的,悄无声息,所以基本认为反馈无用了

chatgpt这类的ai并不是在一个预生成的数据库里查找回答,而是在已知前文的基础上继续文字接龙游戏,跟搜索引擎是完全不同的思路。

在经过大量的预料训练之后,ai基于训练获得的文法知识在判断接龙的匹配概率,但和“事实”完全无关,在ai眼里没有事实,所有的预料都是同等“真实”的。

无语了