非常有意思的数据剖析方法:
OpenAI 拥有一个由 Discourse 托管的官方开发者社区,该社区是人们寻求有关 OpenAI API、ChatGPT、提示等帮助和对话的中心场所。
该论坛于 2021 年 3 月推出,自那时以来,已有 20,000 多名用户发布了 100,000 多个帖子。
鉴于论坛上主题的规模和集中度,它是了解开发人员的总体情绪、识别用户面临的常见问题和兔子洞以及收集有关 OpenAI 产品的反馈的重要资源。
主要过程是从 Discourse 获取数据,通过使用 Playwright 自动化浏览器,将原始数据收集到单个 JSONL 文件中。
然后选取特征,进行情绪判断、向量嵌入,最终数据分析以及可视化输出。
有意思的是本论坛也可以这样做
实际上后台已经有情绪判断 AI 了,不过难度是需要本地部署模型,目前还做不到…
甚至还有 NSFW 判断、毒性判断(?这个我也不知道是什么)