python:从入门到进阶

Python是一门强大的脚本语言,在网络、科学计算、数据分析等领域有广泛的应用。本文尝试提供从入门到进阶这部分的参考资料。假设读者具有编程语言基础,同时操作系统为windows系统。

配置安装

1. 安装python的windows版本
在官网上安装,有Python 2.x 和python 3.x两类版本,且不兼容,需要从中选择一类安装,目前多数资料还是针对python 2.x的,所以还是安装了python 2.x的最新版本。安装后,设置好python的环境变量。在cmd窗口中输入python,若不报错则安装成功。
2. 安装编译工具
编写调试程序有两类方式,一种是IDE平台,还有一种是文本编辑器。如果使用IDE,可以采用Eclipse+pydev的平台,或者PyCharm的社区版。使用文本编辑器,可以采用Sublime 3 或者notepad++,也可以使用绿色版的软件,设置编译环境后即可使用。自己使用的是sublime编辑器,运行的快捷键是CTRL+B,还是挺方便的。
3. 安装python包
python强大的功能是体现在各种各样的扩展包上,常用的扩展包有:
  • 科学计算:NumPy, Scipy,
  • 画图,可视化:MatPlotLib(二维画图), Mayavi2(三维图形),
  • 网络相关: urllib,urllib2,beautifulsoup
  • GUI及封装: PyQt, wxPython,py2exe
  • 机器学习: Pandas, Scikit-learn,Libsvm
  • 图片处理:PIL,pyexiv2
  • 正则表达式: re

具体安装方式是搜索到官网或者github中的安装文件后,下载扩展包对应的exe文件安装即可。如果没有exe文件,则需要先安装setuptools/pip,然后运行扩展包文件夹的setup.py文件实现安装。

参考资料:
    – python IDE开发平台介绍 http://www.cnblogs.com/rrxc/p/4159471.html
    – python基础教程(第二版)[挪威]Magnus Lie Hetland
    – python核心编程(第二版)[美]Wesley J. Chun
 

进阶练习

1. 网络爬虫-to-do list
  • 批量下载豆瓣网、人人网的相册。需要解决的问题:如何模拟登陆,http的协议及cookie的获取,如何实现多线程操作,利用正则表达式获得图片的真实链接并下载。
  • 下载某个人的微博状态,并分词、统计词频。
  • 智能识别网页中的正文的部分,实现网页剪辑的功能。
  • 对密码进行加密和解密操作。
2. 图片操作
  • 读取EXIF信息,修改后再写入EXIF信息
  • 在头像图片的右上角增加数字,类似于未读信息。
  • 实现图片批量压缩,减小分辨率。
  • a. 生成随机八位字母数字组合。b. 生成相应的验证码图片。
3. 软件编写
  • 导线拉力计算程序,添加GUI,并封装成exe文件。
  • 股票参数获取,并支持GUI显示。
4. 机器学习及数据可视化
  • SVM分类器及应用
  • 不同数据可视化的整理及绘制
参考资料
  1. 机器学习资料汇总
  2. python扩展包介绍
  3. 好东西传送门
  4. 在路上-技术博客
version 1.0 @ 2015-06-14

 

2 评论
  1. 做爬虫不需要自己解析网页哦,基本的信息可以直接通过api完成:http://open.renren.com/wiki/API2

    1. 嗯~还是这个方法正规有效~我之前想的就是模拟登陆,看过一个帖子,作者模拟登陆google账户,来来回回跳转了接近十次网址,不停更新cookie,也是醉了…

留言