geek的技术日志,记录每一次技术思考的闪光点。

Python

Centos7安装Python3.6

later阅读(625)评论(0)

Centos7默认安装了python2.7.5 因为一些命令要用它比如yum 它使用的是python2.7.5 1–下载python3.6的包 在python官网https://www.python.org/downloads/releas...

Python3.x和Python2.x的区别

later阅读(255)评论(0)

最近开始学习Python了,因为看的书都是基于Python2.x,而且我安装的是Python3.1,所以书上写的地方好多都不适用于Python3.1,特意在Google上search了一下3.x和2.x的区别。特此在自己的空间中记录一下,以...

零基础12天从入门到精通Python爬虫

later阅读(2554)评论(0)

Python技术交流群 18112174 Day1 菜鸟Python学爬虫系列之一入门 菜鸟Python学爬虫系列之一入门 Day2 菜鸟Python学爬虫系列之二了解爬虫 菜鸟Python学爬虫系列之二了解爬虫 Day3 菜鸟学Pytho...

菜鸟学Python爬虫系列之十二使用多线程

later阅读(677)评论(1)

前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理。 首先声明一点! 多线程和多进程是不一样的!一个是 thread 库,一个是 multiprocessin...

菜鸟学Python爬虫系列之十一使用Scrapy框架

later阅读(387)评论(0)

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。 Windows 平台: 我的系统是 Win7,首先,你要有Python,我用...

菜鸟学Python爬虫系列之九爬虫案例实战(百度贴吧)

later阅读(847)评论(0)

上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下...

菜鸟学Python爬虫系列之八爬虫案例实战(嗅事百科)

later阅读(457)评论(0)

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故。...

菜鸟学Python爬虫系列之七学习使用正则表达式

later阅读(383)评论(0)

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 comp...

菜鸟学Python爬虫系列之六使用cookies

later阅读(379)评论(0)

为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利...

菜鸟学Python爬虫系列之五异常处理

later阅读(352)评论(0)

程序异常是不可避免的,只有恰当处理,才是好程序。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应...

菜鸟学Python爬虫系列之四使用Urllib库的高级功能

later阅读(537)评论(0)

1.设置Headers去爬虫 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Ch...

菜鸟学Python爬虫系列之三使用Urllib库

later阅读(672)评论(0)

1.使用Urllib爬网页 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便...

菜鸟Python学爬虫系列之二了解爬虫

later阅读(664)评论(0)

1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现...

菜鸟Python学爬虫系列之一入门

later阅读(1424)评论(0)

首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Pytho...

快速入门:十分钟学会Python

later阅读(499)评论(0)

初试牛刀 假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程。那么本教程将花费十分钟的时间带你走入Python的大门。本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概...

Python编程语言的发展简史

later阅读(131)评论(0)

Python是我喜欢的语言,简洁、优美、易用。前两天,我很激昂地向朋友宣传Python的好处。 “好吧,我承认Python不错,但它为什么叫Python呢?”“呃,似乎是一个电视剧的名字。”“那你说的Guido是美国人么?”“他从Googl...

10 个 Python IDE 和代码编辑器

later阅读(222)评论(0)

Python 非常易学,强大的编程语言。Python 包括高效高级的数据结构,提供简单且高效的面向对象编程。 Python 的学习过程少不了 IDE 或者代码编辑器,或者集成的开发编辑器(IDE)。这些 Python 开发工具帮助开发者加快...