信息安全语言指纹

语言指纹识别和反检测

摘要来自《打在网上的每个字，都在泄露你的身份》

果壳网编译来源 Write yourself invisible

语言指纹包括但不限于：方言，特殊词汇，功能词（介词，连词，人称代词），句子长度，总字数，空格数，标点符号的使用，难词拼写

示例：在刑事调查中使用语言指纹

“某绑匪写了一封勒索信，要求人质的家属把赎金放在“devil strip”上。警方找到华盛顿特区乔治城大学的语言学家罗杰·舒伊（Roger Shuy）帮忙。舒伊刚好知道“devil strip”指的是人行道和车道之间的那片草地，这个说法极其罕见，罕见到只有俄亥俄州阿克伦市（Akron）的居民才会用。他问警方是否有嫌犯来自阿克伦，他们惊讶得连嘴都合不拢了。他们果然有这么个嫌犯，他后来也招供了。”

计算机代码中的语言指纹:
“计算机源代码是纯粹功能性的，但其实它们同样会泄露编码的人或者团体的许多信息。就像写作者有“笔纹”一样，编码者也有独特的“码纹”（code print），因为同样一段程序，编写的方式却有很多。”
“码纹中可能包含一些看似琐碎的选择，比如用空格键而不是制表键（tab）来缩进代码，这些选择都会留下独特的数字痕迹。即便是对计算机下达的底层指令，也会因为编写者的不同而呈现差异。”

反检测：
“当一个人想要掩盖自己的文风、模仿别人的笔触时，他却往往会在无意中流露出更多表明身份的特征。”
“躲避计量文体分析的最佳手段依然是联合写作：一个人写下文本，再由另一个人编辑。你不必依靠机器帮忙或自己动手来修改文风，只要找人合作，那么两个或更多个作者的语言指纹就自然会相互抵销。这或许也是令中本聪藏身如此之久的策略：已经有人猜想藏在比特币背后不是一个人，而是一个群体。因为语言指纹互相覆盖，他们或许还能安全地潜伏在暗处，继续窥视那些追踪者。”

想法：
人工智能和大数据会促进语言分析的进步
使用翻译软件将中文翻译成外语，然后将其重新翻译成中文可能会消除一些语言指纹
jargon（行话），如ptt经常使用“强国人”，品葱不要形成专有的jargon
目前的技术尚不成熟，因此您不必过分担心语言指纹的安全风险

有兴趣搜索：语言刑侦学，语言指纹

分享 2019-02-15

17 个评论

随便相乘

~~已删除~~

c336 ^{新注册用户}

"你不必依靠机器帮忙或自己动手来修改文风"
我只想知道机器自动修改是否能有效掩盖指纹

随便相乘回复 c336 ^{新注册用户}

实验室环境下有，现实世界的技术不成熟。
摘自《打在网上的每个字，都在泄露你的身份》
“到今天为止，唯一向公众发布的匿名工具只有“Anonymouth”，它由德雷塞尔大学的隐私、安全和自动化实验室开发。这款工具于2012年发行，旨在将计量文体分析的准确性下降到随机猜测的水平。为达到这个目的，Annonymouth使用了一款称为“JStylo”的风格分析软件，它能通过采集几篇文章样本，评估其中的句子长度、词语选择和某些字母的使用频率等特征，绘出一个作者的肖像。接着再由Annoymouth指导作者修改文字，告诉他怎样才能让作品不符合自己的肖像，比如把时态由过去时换成现在时，或者少用某个人称代词等等。

开发者宣称，JStylo只要采集6500字的样本，就能将一段文字和它已经研究过的一众作者做对比甄别，结果能达到80％至85％的准确率。今年早些时候，另有开发者宣布了一个名叫“艾玛身份”（Emma Identity）的人工智能项目，号称只凭8000字就能为一名作者建立肖像，在和匿名文本对比时的准确率达到85％。

这样的成功率还远谈不上十全十美，但它们已经比随机猜测高得多了。能有这么高的成功率，是因为分析都是在类似实验室的环境中进行的，软件要寻找怎样的计量文体特征，都有明确的指导。然而现实世界就不同了，用来训练JStylo或艾玛的样本可能只是一篇短文、或是匆匆打出的一封邮件，而需要甄别的匿名文本却可能是一封认真撰写的信件或是一篇科学论文。”

~~chobe~~ 已停用 ^?

据说用谷歌翻译就能有效解决这个问题

约定的世界岛

俺是觉得洋文确实是不安全，主要还是研究的人多。一般只写中文和我的读者交流，每次打完一段话都把生僻词简化，或写点英文机翻的味道词，或者偶尔写一点点日本轻小说格式的伪造出很呆萌的模样配上屌丝特有的头像图，以掩饰俺中年国企高管真实身份。

小钙

这个问题我早就在https://pincong.rocks/article/575说过了，建议@yichangfeng进来看看

yichangfeng 已停用 回复小钙

This article is consistent with our previous discussion and there are some new things. Machine translation seems to be a means of evading language fingerprints. This topic is worth to follow continously.