记录处理自然语言数据集中全型字符的问题

tech2025-09-09 73

记录处理自然语言数据集中全型字符的问题

缘起全型字符unicode字符范围全型字符

缘起

进公司之后的第一个任务是处理一个大型自然语言数据集，处理成可用的格式，遇到了一些问题，在这里记录下来并给出解决方案。

全型字符unicode字符范围

全型字符真的是自然语言处理中很讨厌的东西，删除特殊字符的时候一不小心就会

除全型字母外的全型字符范围： ff00-ff20, ff3b-ff41, ff60-ffef, ff3b-ff41；全型字母范围： ff21-ff3a, ff41-ff5a；

全型字符

全型字符真的是自然语言处理中很讨厌的东西，删除特殊字符的时候一不小心就会删掉，会遗漏很多重要信息。这里记录一下对应关系和unicode值。以及python中如何进行转换。

def mapQuanxingABC(uchar): """将全型字母映射为普通字母""" return chr(ord(uchar)-65248) 全型字母全型字母的unicode普通字母普通字母的unicodeＡff21A0041Ｂff22B0042Ｃff23C0043Ｄff24D0044Ｅff25E0045Ｆff26F0046Ｇff27G0047Ｈff28H0048Ｉff29I0049Ｊff2aJ004aＫff2bK004bＬff2cL004cＭff2dM004dＮff2eN004eＯff2fO004fＰff30P0050Ｑff31Q0051Ｒff32R0052Ｓff33S0053Ｔff34T0054Ｕff35U0055Ｖff36V0056Ｗff37W0057Ｘff38X0058Ｙff39Y0059Ｚff3aZ005aａff41a0061ｂff42b0062ｃff43c0063ｄff44d0064ｅff45e0065ｆff46f0066ｇff47g0067ｈff48h0068ｉff49i0069ｊff4aj006aｋff4bk006bｌff4cl006cｍff4dm006dｎff4en006eｏff4fo006fｐff50p0070ｑff51q0071ｒff52r0072ｓff53s0073ｔff54t0074ｕff55u0075ｖff56v0076ｗff57w0077ｘff58x0078ｙff59y0079ｚff5az007a

参考文章：https://blog.csdn.net/thomashtq/article/details/39081233

最新回复(0)