geek的技术日志,记录每一次技术思考的闪光点。

later的文章

第3页
linux

linux grep命令介绍

later阅读(118)评论(0)

1.作用Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。...

linux

linux tail 命令详解

later阅读(156)评论(0)

linux —tail命令  linux中tail命令—用于查看文件内容  最基本的是cat、more和less。 1. 如果你只想看文件的前5行,可以使用head命令,如: head -5 /etc/passwd ...

Python

零基础12天从入门到精通Python爬虫

later阅读(2551)评论(0)

Python技术交流群 18112174 Day1 菜鸟Python学爬虫系列之一入门 菜鸟Python学爬虫系列之一入门 Day2 菜鸟Python学爬虫系列之二了解爬虫 菜鸟Python学爬虫系列之二了解爬虫 Day3 菜鸟学Pytho...

Python

菜鸟学Python爬虫系列之十二使用多线程

later阅读(675)评论(1)

前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理。 首先声明一点! 多线程和多进程是不一样的!一个是 thread 库,一个是 multiprocessin...

Python

菜鸟学Python爬虫系列之十一使用Scrapy框架

later阅读(387)评论(0)

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。 Windows 平台: 我的系统是 Win7,首先,你要有Python,我用...

Python

菜鸟学Python爬虫系列之九爬虫案例实战(百度贴吧)

later阅读(846)评论(0)

上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下...

Python

菜鸟学Python爬虫系列之八爬虫案例实战(嗅事百科)

later阅读(457)评论(0)

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故。...

Python

菜鸟学Python爬虫系列之六使用cookies

later阅读(379)评论(0)

为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利...

Python

菜鸟学Python爬虫系列之五异常处理

later阅读(352)评论(0)

程序异常是不可避免的,只有恰当处理,才是好程序。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应...

Python

菜鸟学Python爬虫系列之四使用Urllib库的高级功能

later阅读(537)评论(0)

1.设置Headers去爬虫 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Ch...

Python

菜鸟学Python爬虫系列之三使用Urllib库

later阅读(672)评论(0)

1.使用Urllib爬网页 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便...

Python

菜鸟Python学爬虫系列之二了解爬虫

later阅读(664)评论(0)

1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现...

Python

菜鸟Python学爬虫系列之一入门

later阅读(1424)评论(0)

首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Pytho...