webmagic 编码导制的问题

阅读数:52 评论数:0

跳转到新版页面

分类

python/Java

正文

<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8"> 
    <meta http-equiv="Content-Language" content="zh-CN">
  </head>
  <body>
  </body>
</html>

Content-Language:表示当前页面的语言。

charset:表示编码字符集

任何一种语言可能都会对应有几种编码字符集。比如中文的编码字符集就有中国国家标准总局编制的GB2312,GB18030,国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟编制的UTF-32,UTF-16,UTF-8。为什么有那么多的编码字符集,例如,就国标来说,GB3212覆盖了6763个汉字,很过生僻字、新字、古汉字、人名是没有覆盖到,GB18030覆盖了70244个,覆盖范围更大,UTF-32,UTF-16,UTF-8都是Unicode的编码方案,Unicode相当于国际标准的字符集。

 

对于webmagic通过site().setCharset("gb18030")可以防止生僻字。




相关推荐