dedecms织梦内容管理系统    
首页 | java | C/C++ | PHP | 操作系统 | ajax | 脚本编程 | 安全技术 | 本站下载页 | flex | CRM | 专题 | QQ群 | 测试中心 | 会员中心 | 积分规则
  当前位置:主页>脚本编程>perl>文章内容
Python的几个文字处理技巧
来源:dirkye 作者:dirkye

1、如果获取邮件地址?

我们分析邮件的时候,从From和To头信息中会提取到类似“DIrk Ye ”的邮件地址,如果我们需要只保留完整的EMail地址,可能需要正则表达式来提取,由于邮件格式的多样性,可能比较麻烦。Python提供了一个工具函数,可以方便的使用:


import email.Utils

def getCleanMailAddress(strAddr):

emails = email.Utils.parseaddr(strAddr.lower())

return emails[1]

2、利用Mimetypes确定文件的扩展名:

在邮件分析中,经常会碰到没有指定文件名或者扩展名的附件,我们可以根据附件的MimeType来猜测其应有的扩展名:



import mimetypes

def getFileExtension(strContentType):

guessmimes = mimetypes.guess_all_extensions(strContentType)

if guessmimes:

return guessmimes[-1]

else:

return ''

另外,mimetypes.types_map中包含了所有运行系统可识别的MimeType,如果没有你期望的类型,可以通过mimetypes.add_type(’audio/midi’, ‘.mid’)方法来添加自己的东西,甚至可以作出修改。

3、使用证则表达式从字符串中提取指定的模式:

Python的正则表达式也是非常强大的,有搜索、匹配、抽取等。有时候抽取是有点麻烦但非常有用的功能。假设我们会有大量的文本类似:



n234f@mypdx.com



其中前半部分的名称都是数字和字母的组合,现在我们使用证则表达式抽取名字部分:



import re

def getUserName(strAddr):

addr_re = re.compile('^([0-9a-z]+)@(.*)')

unames = addr_re.search(strAddr)

if unames is not None:

return mptos.group(1)

else:

return ''

Python在文字处理方面还有很多特点,我只能把用到的东西列一下。有不少专门讲解Python相关东西的书籍,有的还是免费的;比如专门讲解Python文本处理的Text Processing in Python,实用而精彩,而另外一本Python Cookbook也是相当不错的读物,现在已经有第二版了,覆盖了Python2.3、2.4的新特性;去Python主站看看有什么适合你的书: http://wiki.python.org/moin/PythonBooks


上一篇:c++ 数组与指针   下一篇:构造器内部的多态方法的行为
[收藏] [推荐] [评论(0条)] [返回顶部] [打印本页] [关闭窗口]  
用户名: 新注册) 密码: 匿名评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
 §最新评论
  热点文章
·使用Perl修改Linux文件
·Perl基础指南
·Perl DBI连接MySQL数据库
·Perl DBI 入门
·Windows2003+Apache+mod_perl安
·Perl/TkFAQ如何使用某个组件来完
·用Perl语言进行Socket编程
·操作系统比对脚本[inststuff.pl]
·测试mod_perl模块
·Perl聊天室实例
·cgi中的邮件发送器1
·cgi中的邮件发送器2
  相关文章
·Perl基础指南
·使用Perl修改Linux文件
·Perl DBI 入门
·Perl DBI连接MySQL数据库
·Windows2003+Apache+mod_perl安
·Perl/TkFAQ如何使用某个组件来完
·用Perl语言进行Socket编程
·操作系统比对脚本[inststuff.pl]
·测试mod_perl模块
·Perl聊天室实例
·cgi中的邮件发送器1
·cgi中的邮件发送器2
  相关信息
copy right @ 百家拳软件项目研究室 2007 辽ICP备07011763