低质量的中文互联网造成的隐藏恶果

有这样一个现象:当用户用英文向ChatGPT提问事实性问题时,往往能够得到正确的答案,但是当用户用中文问同样的问题时,ChatGPT却往往会犯错,哪怕这个问题是以中国为背景的。以下是我自己做的一个实验,当我用英文问,Which company developed JX online 3? Chatgpt十次都给出了正确的回答。但如果我问“哪家公司开发了剑网3?”则Chatgpt在十次中每次回答都不一样,并且里面充斥着类似盛大,完美,腾讯这样的错误答案。

究其原因,中文互联网上充斥着各种低质量的文本,如百家号、百度文库等。这些低质量的文本如果混入AI的训练数据中,就会导致AI表现变差。这是因为机器学习的模型需要大量高质量的数据来训练,以此来提高模型的准确性。但是如果这些数据本身就存在误导性或者低质量的问题,那么模型就会学到错误的知识,导致它们在真实应用中表现不佳。Chatgpt从中文互联网上爬取训练数据,自然造成其表现变差。

在将来的数年,欧美各国可能会将ChatGPT引入各行各业,许多行业和个人将会从中受益,甚至有可能带来生产力的爆发式增长。然而,ChatGPT中文表现不佳的问题将导致中国人无法完全享受ChatGPT带来的便利性(哪怕翻墙)。中国也将无法享受ChatGPT带来的社会经济红利。

不止如此,中文互联网因为没有言论自由,并有严重的和谐词问题,所以更加难以收集足够的高质量训练数据—这些“高质量数据”可能甚至并不存在。这使得中文类似AI的研发受到了限制。在这种条件下,研发类似ChatGPT的AI产品需要数年的时间来收集数据,效率极为低下。恐怕ChatGPT的技术会成为短期内中国难以完全复制的一种技术。例如近期出现的文心一言,已经沦为了互联网上的笑柄。

综上所述,中国有很大可能会错过当下这波AI带来的技术革命。在将来人人都会用AI人人都需要用AI的时代,中国可能无AI可用
28
分享 2023-03-25

18 个评论

这是一个政治隐喻

中国的下一代好比语言模型, 垃圾进垃圾出

不想自己子孙如此可以考虑颜色革命
借您吉言。
顺带一提,我本来准备用ChatGPT帮我写这个帖子,但是无论我怎么要求他,他写到最后一段的时候一定会话锋一转开始吹捧中国的AI的技术发展……真的是让我大跌眼镜。最后我只好亲自动笔。

这也是中文互联网的低质量造成的,不允许“负能量”只允许“正能量”,导致AI都不知道怎么写负能量……AI大约以为在文章最后唱高调是中文的语言规范吧
可能就是中文的先天缺陷导致的,英文作为分析语也存在大量歧义的情况,但感觉英文AI算法可以很有效地过滤掉一些容易导致AI判断出现错误的垃圾信息,而对于中文来说可能就没有太好的办法。当然土共应该是意识到了这个问题,中国人工智能的研究算是苯鸟先飞了,也出了各种纸面上的结果,但现在开发出的还是个垃圾,可能也是和信息太垃圾有关。
纯中文语料训练很难,比如谐音梗、歧义、阴阳怪气之类的,对现在的ai来说难度太高无法理解。

但是基于优质语料训练好的模型,有一定的智力水平之后,再拿中文语料retrain,往往有意想不到的效果。

类似不能给小学生上初中课程,但是小学毕业了再来学习就能更上一层楼了。
这就是结果,凡是只能使用中文的就是支那人,无论肤色。
这个确实是未来极有可能出现的情况,中文互联网大量的各个利益集团的水军五毛会极大地降低ai的训练质量甚至可能导致大量的垃圾输出
那繁体中文什么水平
这就和几十年前认为中国会错过电脑技术的发展、因为中国文没法输入到电脑一样。未来的ai新技术是有潜力实现去伪存真的。而且由于中文互联网环境更需要这项技术,可能在这方面投入更多,反而实现对欧美的反超

然而,这需要时间,中国的ai应用会比欧美慢,这个窗口期是欧美解体中共极权的黄金时间
>>这是一个政治隐喻中国的下一代好比语言模型, 垃圾进垃圾出不想自己子孙如此可以考虑颜色革命


还不如让自己子孙放弃支那人的身份认同 不少支那家长都有让二代学一辈子都用不上的中文 我是不会这么做的
>>这就和几十年前认为中国会错过电脑技术的发展、因为中国文没法输入到电脑一样。未来的ai新技术是有潜力实...

不是慢一点的问题
毕竟电脑业,中国亦步亦趋从386-486-奔腾,方向没错,只是先后问题
但是AI用到的中文数据,是整个质量差,有大量不实信息,甚至随着党国管控加强越来越多谎言。这是方向性问题
不談是非。

因爲 baidu 利益導向。


所以 有太多的 貌似 專業,官方,實則 誘導 誤導,甚至 詐騙 的網站,網頁 出現和 充斥互聯網。



各種詐騙公司,詐騙集團 的 散布 假消息 的 網站,網址,

只要給了錢,支付了 推廣費,都會 進入 首頁 和重點位置進行推廣。



在錯誤 的 路子上,很難 結 出正確的 果實。
>>这就和几十年前认为中国会错过电脑技术的发展、因为中国文没法输入到电脑一样。未来的ai新技术是有潜力实...


问题汉字输入最开始是IBM搞的,后来传到日本日本开始开发,再后来才传到大陆,大陆才学会。
所以我一直认为只要说中文或者用汉字,最后一定会被大中华胶吃掉,就是这么个道理。
中文互聯網太多奇怪東西,幾年前看到個中國人移民美國的網頁,一堆留言罵,叫中國人别去美國搞亂他們(美籍華人的平靜生活),當時就猜到是網警反串

還有很搞笑的信息污染,不想讓大陸人上TG,結果在大陸上架的電報Telegram居然是約會約炮dating app。還有個很搞笑的網警視姦backdoor版batchat蝙蝠聊天,好像是成都某公司開發的,想騙人用它私聊,幾年前香港+852號碼無法註冊,早幾天試了下852也能註冊帳號了,但不建議使用

黨國的做法總是特别有幽默感
>>那繁体中文什么水平


好一些,但也是错误信息满天飞,俗称农场文。当然比墙内是好多了
>>问题汉字输入最开始是IBM搞的,后来传到日本日本开始开发,再后来才传到大陆,大陆才学会。所以我一直认...

你现在使用什么语言?
>>顺带一提,我本来准备用ChatGPT帮我写这个帖子,但是无论我怎么要求他,他写到最后一段的时候一定会...


学会了
>>纯中文语料训练很难,比如谐音梗、歧义、阴阳怪气之类的,对现在的ai来说难度太高无法理解。但是基于优质...


你说的这个不难,AI学习靠统计和关联,只要关联存在AI就能学会

要发言请先登录注册

要发言请先登录注册