ChatGPT

低质量的中文互联网造成的隐藏恶果

有这样一个现象：当用户用英文向ChatGPT提问事实性问题时，往往能够得到正确的答案，但是当用户用中文问同样的问题时，ChatGPT却往往会犯错，哪怕这个问题是以中国为背景的。以下是我自己做的一个实验，当我用英文问，Which company developed JX online 3? Chatgpt十次都给出了正确的回答。但如果我问“哪家公司开发了剑网3？”则Chatgpt在十次中每次回答都不一样，并且里面充斥着类似盛大，完美，腾讯这样的错误答案。

究其原因，中文互联网上充斥着各种低质量的文本，如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中，就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练，以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题，那么模型就会学到错误的知识，导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据，自然造成其表现变差。

在将来的数年，欧美各国可能会将ChatGPT引入各行各业，许多行业和个人将会从中受益，甚至有可能带来生产力的爆发式增长。然而，ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性（哪怕翻墙）。中国也将无法享受ChatGPT带来的社会经济红利。

不止如此，中文互联网因为没有言论自由，并有严重的和谐词问题，所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下，研发类似ChatGPT的AI产品需要数年的时间来收集数据，效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言，已经沦为了互联网上的笑柄。

综上所述，中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代，中国可能无AI可用

分享 2023-03-25

18 个评论

fb_china_today

这是一个政治隐喻

中国的下一代好比语言模型, 垃圾进垃圾出

不想自己子孙如此可以考虑颜色革命

[已注销]

借您吉言。

无法内斗

顺带一提，我本来准备用ChatGPT帮我写这个帖子，但是无论我怎么要求他，他写到最后一段的时候一定会话锋一转开始吹捧中国的AI的技术发展……真的是让我大跌眼镜。最后我只好亲自动笔。

这也是中文互联网的低质量造成的，不允许“负能量”只允许“正能量”，导致AI都不知道怎么写负能量……AI大约以为在文章最后唱高调是中文的语言规范吧

unis14wis

可能就是中文的先天缺陷导致的，英文作为分析语也存在大量歧义的情况，但感觉英文AI算法可以很有效地过滤掉一些容易导致AI判断出现错误的垃圾信息，而对于中文来说可能就没有太好的办法。当然土共应该是意识到了这个问题，中国人工智能的研究算是苯鸟先飞了，也出了各种纸面上的结果，但现在开发出的还是个垃圾，可能也是和信息太垃圾有关。

两个确立一键加速

纯中文语料训练很难，比如谐音梗、歧义、阴阳怪气之类的，对现在的ai来说难度太高无法理解。

但是基于优质语料训练好的模型，有一定的智力水平之后，再拿中文语料retrain，往往有意想不到的效果。

类似不能给小学生上初中课程，但是小学毕业了再来学习就能更上一层楼了。

驱蚊花露水

这就是结果，凡是只能使用中文的就是支那人，无论肤色。

zzzzz11111

这个确实是未来极有可能出现的情况,中文互联网大量的各个利益集团的水军五毛会极大地降低ai的训练质量甚至可能导致大量的垃圾输出

骂完就走

那繁体中文什么水平

elsaanna

这就和几十年前认为中国会错过电脑技术的发展、因为中国文没法输入到电脑一样。未来的ai新技术是有潜力实现去伪存真的。而且由于中文互联网环境更需要这项技术，可能在这方面投入更多，反而实现对欧美的反超

然而，这需要时间，中国的ai应用会比欧美慢，这个窗口期是欧美解体中共极权的黄金时间

OrphenOfKos 回复 fb_china_today

>>这是一个政治隐喻中国的下一代好比语言模型, 垃圾进垃圾出不想自己子孙如此可以考虑颜色革命

还不如让自己子孙放弃支那人的身份认同不少支那家长都有让二代学一辈子都用不上的中文我是不会这么做的

红白蓝回复 elsaanna

>>这就和几十年前认为中国会错过电脑技术的发展、因为中国文没法输入到电脑一样。未来的ai新技术是有潜力实...

不是慢一点的问题
毕竟电脑业，中国亦步亦趋从386-486-奔腾，方向没错，只是先后问题
但是AI用到的中文数据，是整个质量差，有大量不实信息，甚至随着党国管控加强越来越多谎言。这是方向性问题

语言程序交友

不談是非。

因爲 baidu 利益導向。

所以有太多的貌似專業，官方，實則誘導誤導，甚至詐騙的網站，網頁出現和充斥互聯網。

各種詐騙公司，詐騙集團的散布假消息的網站，網址，

只要給了錢，支付了推廣費，都會進入首頁和重點位置進行推廣。

在錯誤的路子上，很難結出正確的果實。

Aeona 回复 elsaanna

>>这就和几十年前认为中国会错过电脑技术的发展、因为中国文没法输入到电脑一样。未来的ai新技术是有潜力实...

问题汉字输入最开始是IBM搞的，后来传到日本日本开始开发，再后来才传到大陆，大陆才学会。
所以我一直认为只要说中文或者用汉字，最后一定会被大中华胶吃掉，就是这么个道理。

~~四邑漁農牧工商總會~~ ^观察

中文互聯網太多奇怪東西，幾年前看到個中國人移民美國的網頁，一堆留言罵，叫中國人别去美國搞亂他們（美籍華人的平靜生活），當時就猜到是網警反串

還有很搞笑的信息污染，不想讓大陸人上TG，結果在大陸上架的電報Telegram居然是約會約炮dating app。還有個很搞笑的網警視姦backdoor版batchat蝙蝠聊天，好像是成都某公司開發的，想騙人用它私聊，幾年前香港+852號碼無法註冊，早幾天試了下852也能註冊帳號了，但不建議使用

黨國的做法總是特别有幽默感