LLM中类似于Leetspeak的编码方式还有以下几种:
1. Pig Latin (猪拉丁文) - 将英文单词的第一个辅音字母移到单词末尾,然后加上"ay"。例如,"hello"变成"ello-hay"。
2. Ubbi Dubbi - 在每个元音字母前加上"ub"。例如,"hello"变成"hubellubo"。
3. Tutnese - 在每个音节后面加上"tut"。例如,"hello"变成"hel-tut-lo-tut"。
4. Boontling - 一种源自加利福尼亚州Boonville的方言,用一些特殊词汇替代普通单词。例如,"Bucky Walter"指的是一美元。
5. Rövarspråket (瑞典盗贼语) - 在每个辅音后面加上"o"和这个辅音,元音不变。例如,"hello"变成"hohelollolo"。
6. Verlan - 一种法语中的俚语,通过音节逆序构成新单词。例如,"femme"(女人)变成"meuf"。
7. Šatrovački (棚屋语) - 一种源自前南斯拉夫的俚语,通过音节重新组合构成新单词。例如,"pivo"(啤酒)变成"vopi"。
这些编码方式主要是通过字母/音节substitution, transposition, insertion等方法对原文进行变换,既能构成一定程度的加密,又不至于完全丧失可读性。一些LLM在训练语料中可能会包含这类编码文本,因而在一定程度上能够理解和生成这种编码。但总的来说这类编码方式还是相对罕见的。
原文始发于微信公众号(xsser的博客):类似leetspeak的一些思路
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论