python实现html代码转义转换的例子

时间：2014-12-18 编辑：简简单单来源：一聚教程网

之前记录了从网上翻来的 Python HTMLParser处理HTML转义字符文档。不过在对带有中文字符的内容进行处理的时候会报错，代码如下：

代码如下	复制代码
# cat html.py #/usr/bin/python #coding=utf-8 import HTMLParser html_parser = HTMLParser.HTMLParser() title = 'eclipse功能<template>学习。e.g : 快速在代码中插入时间戳 - 361way.com' newtitle = html_parser.unescape(title) print newtitle

报错内容如下：

代码如下

复制代码

Traceback (most recent call last):
File "html.py", line 7, in
    newtitle = html_parser.unescape(title)
File "/usr/lib64/python2.6/HTMLParser.py", line 390, in unescape
    return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|w{1,8}));", replaceEntities, s)
File "/usr/lib64/python2.6/re.py", line 151, in sub
    return _compile(pattern, 0).sub(repl, string, count)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)

解决方法如下：

代码如下	复制代码
#/usr/bin/python #coding=utf-8 import HTMLParser import sys reload(sys) sys.setdefaultencoding('utf-8') html_parser = HTMLParser.HTMLParser() title = 'eclipse功能<template>学习。e.g : 快速在代码中插入时间戳 - SegmentFault' newtitle = html_parser.unescape(title) print newtitle

需要载入sys模块，重新设置默认编码为utf8，就不会出错了。不过要处理的内容只不过是一个文章的title部分，而常用的html转义内容也就如下几个：

字符十进制转义字符
" " "
& & &
< < <
> > >
不断开空格(non-breaking space)

注：不常用的具体可以参看开源中国在线工具上的html转义字符表。

于是决定使用python的replace功能实现一个简单的转义功能函数，具体如下：

代码如下	复制代码
#/usr/bin/python #coding=utf-8 def replace_html(s): s = s.replace('"','"') s = s.replace('&','&') s = s.replace('<','<') s = s.replace('>','>') s = s.replace(' ',' ') s = s.replace(' - 361way.com','') print s replace_html(title)

优点就是快速简洁，不依赖于模块，实用时也无需再reload sys模块指定默认编码。

上一个： php调试利器之phpdbg安装配置详解
下一个： python获取和自动插入wordpress tags标签例子

推荐专题

最新下载

热门教程

python实现html代码转义转换的例子

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程