进公司之后的第一个任务是处理一个大型自然语言数据集,处理成可用的格式,遇到了一些问题,在这里记录下来并给出解决方案。
全型字符真的是自然语言处理中很讨厌的东西,删除特殊字符的时候一不小心就会
除全型字母外的全型字符范围: ff00-ff20, ff3b-ff41, ff60-ffef, ff3b-ff41;全型字母范围: ff21-ff3a, ff41-ff5a;全型字符真的是自然语言处理中很讨厌的东西,删除特殊字符的时候一不小心就会删掉,会遗漏很多重要信息。这里记录一下对应关系和unicode值。以及python中如何进行转换。
def mapQuanxingABC(uchar): """将全型字母映射为普通字母""" return chr(ord(uchar)-65248) 全型字母全型字母的unicode普通字母普通字母的unicodeAff21A0041Bff22B0042Cff23C0043Dff24D0044Eff25E0045Fff26F0046Gff27G0047Hff28H0048Iff29I0049Jff2aJ004aKff2bK004bLff2cL004cMff2dM004dNff2eN004eOff2fO004fPff30P0050Qff31Q0051Rff32R0052Sff33S0053Tff34T0054Uff35U0055Vff36V0056Wff37W0057Xff38X0058Yff39Y0059Zff3aZ005aaff41a0061bff42b0062cff43c0063dff44d0064eff45e0065fff46f0066gff47g0067hff48h0068iff49i0069jff4aj006akff4bk006blff4cl006cmff4dm006dnff4en006eoff4fo006fpff50p0070qff51q0071rff52r0072sff53s0073tff54t0074uff55u0075vff56v0076wff57w0077xff58x0078yff59y0079zff5az007a参考文章:https://blog.csdn.net/thomashtq/article/details/39081233