Python是一门强大的脚本语言,在网络、科学计算、数据分析等领域有广泛的应用。本文尝试提供从入门到进阶这部分的参考资料。假设读者具有编程语言基础,同时操作系统为windows系统。
配置安装
1. 安装python的windows版本
在官网上安装,有Python 2.x 和python 3.x两类版本,且不兼容,需要从中选择一类安装,目前多数资料还是针对python 2.x的,所以还是安装了python 2.x的最新版本。安装后,设置好python的环境变量。在cmd窗口中输入python,若不报错则安装成功。
2. 安装编译工具
编写调试程序有两类方式,一种是IDE平台,还有一种是文本编辑器。如果使用IDE,可以采用Eclipse+pydev的平台,或者PyCharm的社区版。使用文本编辑器,可以采用Sublime 3 或者notepad++,也可以使用绿色版的软件,设置编译环境后即可使用。自己使用的是sublime编辑器,运行的快捷键是CTRL+B,还是挺方便的。
3. 安装python包
python强大的功能是体现在各种各样的扩展包上,常用的扩展包有:
- 科学计算:NumPy, Scipy,
- 画图,可视化:MatPlotLib(二维画图), Mayavi2(三维图形),
- 网络相关: urllib,urllib2,beautifulsoup
- GUI及封装: PyQt, wxPython,py2exe
- 机器学习: Pandas, Scikit-learn,Libsvm
- 图片处理:PIL,pyexiv2
- 正则表达式: re
具体安装方式是搜索到官网或者github中的安装文件后,下载扩展包对应的exe文件安装即可。如果没有exe文件,则需要先安装setuptools/pip,然后运行扩展包文件夹的setup.py文件实现安装。
参考资料:
– python IDE开发平台介绍 http://www.cnblogs.com/rrxc/p/4159471.html
– python基础教程(第二版)[挪威]Magnus Lie Hetland
– python核心编程(第二版)[美]Wesley J. Chun
进阶练习
1. 网络爬虫-to-do list
- 批量下载豆瓣网、人人网的相册。需要解决的问题:如何模拟登陆,http的协议及cookie的获取,如何实现多线程操作,利用正则表达式获得图片的真实链接并下载。
- 下载某个人的微博状态,并分词、统计词频。
- 智能识别网页中的正文的部分,实现网页剪辑的功能。
- 对密码进行加密和解密操作。
2. 图片操作
- 读取EXIF信息,修改后再写入EXIF信息
- 在头像图片的右上角增加数字,类似于未读信息。
- 实现图片批量压缩,减小分辨率。
- a. 生成随机八位字母数字组合。b. 生成相应的验证码图片。
3. 软件编写
- 导线拉力计算程序,添加GUI,并封装成exe文件。
- 股票参数获取,并支持GUI显示。
4. 机器学习及数据可视化
version 1.0 @ 2015-06-14
2 评论
做爬虫不需要自己解析网页哦,基本的信息可以直接通过api完成:http://open.renren.com/wiki/API2
嗯~还是这个方法正规有效~我之前想的就是模拟登陆,看过一个帖子,作者模拟登陆google账户,来来回回跳转了接近十次网址,不停更新cookie,也是醉了…