大家觉得文字竖排是不是可以规避系统审核?
系|有|人|
统|人|工|
审|投|审|
核|诉|核|
呢|的|肯|
?|话|定|
|还|是|
|是|躲|
|会|避|
|中|不|
|招|了|
|的|的|
|。|,|
|但|如|
|是|果|
统|人|工|
审|投|审|
核|诉|核|
呢|的|肯|
?|话|定|
|还|是|
|是|躲|
|会|避|
|中|不|
|招|了|
|的|的|
|。|,|
|但|如|
|是|果|
看了一下,除了正则表达式老兄半桶水的水平之外,剩下的全是胡说八道。
首先正则表达式在审查中基本不会用,因为只要忽略词序,最后结果就是禁单字,共匪不主动要求,没有科技企业会自己提出来这么搞,因为搞了基本就没法发帖了。敏感词列表看起来落后,也有错杀的几率,但大家还是用这种古老的技术,除了速度快之外,技术上也是理想的平衡点。
竖排字要使用敏感词列表,需要以换行符为单位重写审核代码。这是增加维稳支出的一个没什么大用,但只有好处没有坏处的事。
同理,机器学习与其重新训练,不如加入竖排转换然后feed给机器。算是preprocess。跟上面的讨论类似,机器学习不是什么高大上的东西,重新训练竖排字是扯淡。
说几秒钟搞定的,你花几秒钟给我搞一个。编码加测试加上线加维护,就算是小公司,这个模块也价值十几万,大公司直接乘10。而且后继维护会出现各种奇葩的错杀,除了制造笑话之外,也会消耗大量维稳资源。
顺便说一句,国内审核主流还是人力,这点不要搞错。
首先正则表达式在审查中基本不会用,因为只要忽略词序,最后结果就是禁单字,共匪不主动要求,没有科技企业会自己提出来这么搞,因为搞了基本就没法发帖了。敏感词列表看起来落后,也有错杀的几率,但大家还是用这种古老的技术,除了速度快之外,技术上也是理想的平衡点。
竖排字要使用敏感词列表,需要以换行符为单位重写审核代码。这是增加维稳支出的一个没什么大用,但只有好处没有坏处的事。
同理,机器学习与其重新训练,不如加入竖排转换然后feed给机器。算是preprocess。跟上面的讨论类似,机器学习不是什么高大上的东西,重新训练竖排字是扯淡。
说几秒钟搞定的,你花几秒钟给我搞一个。编码加测试加上线加维护,就算是小公司,这个模块也价值十几万,大公司直接乘10。而且后继维护会出现各种奇葩的错杀,除了制造笑话之外,也会消耗大量维稳资源。
顺便说一句,国内审核主流还是人力,这点不要搞错。
你弄成爪哇文+竖排+图片化,或许可以。就中文竖排破解几秒钟搞定
machine learning之后,这种都毫无意义,破解起来并不复杂
紫薯紫薯紫薯
紫薯紫薯紫薯
搜索关键词 可以不用排序。同理。只要设定关键词。忽略排序就好
我覺得如果大量推廣使用說不定有效。
雖然人工審核可能還是會被刪,但目的就是要他消耗人力啊,微博動不動幾萬條留言訊息只靠人工要審多久?
只要能騙過程式演算法就行了。
雖然人工審核可能還是會被刪,但目的就是要他消耗人力啊,微博動不動幾萬條留言訊息只靠人工要審多久?
只要能騙過程式演算法就行了。
^[獨|自].*^[裁|由]
_ _ 上面的正則表達式 RE 開跨行模式就可以匹配到兩行藏頭句, 保持示例簡潔未修錯配與誤判. 非要傳播的話, 語音或寫文拍成或做成圖發吧. 圖片面臨 OCR 哪怕在圖中畫個大圈也能略作對抗, 把噪點添加到人勉强可識別的程度可高效對抗. 對外語審查度較低, 譴責共匪滅絕大陸人文化毫無問題.
_ _ 上面的正則表達式 RE 開跨行模式就可以匹配到兩行藏頭句, 保持示例簡潔未修錯配與誤判. 非要傳播的話, 語音或寫文拍成或做成圖發吧. 圖片面臨 OCR 哪怕在圖中畫個大圈也能略作對抗, 把噪點添加到人勉强可識別的程度可高效對抗. 對外語審查度較低, 譴責共匪滅絕大陸人文化毫無問題.
已隐藏
懸啊,,,建議在少許打亂順序,機器識別不了但是人腦會自動補齊