geek的技术日志,记录每一次技术思考的闪光点。

later的文章

第3页
Python

菜鸟学Python爬虫系列之十一使用Scrapy框架

later阅读(323)评论(0)

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。 Windows 平台: 我的系统是 Win7,首先,你要有Python,我用...

Python

菜鸟学Python爬虫系列之九爬虫案例实战(百度贴吧)

later阅读(694)评论(0)

上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下...

Python

菜鸟学Python爬虫系列之八爬虫案例实战(嗅事百科)

later阅读(357)评论(0)

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故。...

Python

菜鸟学Python爬虫系列之六使用cookies

later阅读(298)评论(0)

为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利...

Python

菜鸟学Python爬虫系列之五异常处理

later阅读(272)评论(0)

程序异常是不可避免的,只有恰当处理,才是好程序。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应...

Python

菜鸟学Python爬虫系列之四使用Urllib库的高级功能

later阅读(427)评论(0)

1.设置Headers去爬虫 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Ch...

Python

菜鸟学Python爬虫系列之三使用Urllib库

later阅读(515)评论(0)

1.使用Urllib爬网页 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便...

Python

菜鸟Python学爬虫系列之二了解爬虫

later阅读(518)评论(0)

1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现...

Python

菜鸟Python学爬虫系列之一入门

later阅读(1155)评论(0)

首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Pytho...

PHP

PHP常见面试题及答案

later阅读(372)评论(0)

基础题:1.表单中 get与post提交方法的区别?答:get是发送请求HTTP协议通过url参数传递进行接收,而post是实体数据,可以通过表单提交大量信息. 2.session与cookie的区别?答:session:储存用户访问的全局...

mysql

MySQL数据库优化的八种方式(经典必看)

later阅读(105)评论(0)

引言: 关于数据库优化,网上有不少资料和方法,但是不少质量参差不齐,有些总结的不够到位,内容冗杂 偶尔发现了这篇文章,总结得很经典,文章流量也很大,所以拿到自己的总结文集中,积累优质文章,提升个人能力,希望对大家今后开发中也有帮助 1、选取...

mysql

sql之left join、right join、inner join的区别

later阅读(116)评论(0)

left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行 举例如下:...

PHP

2017最新PHP经典面试题总结

later阅读(872)评论(0)

1、双引号和单引号的区别 双引号解释变量,单引号不解释变量 双引号里插入单引号,其中单引号里如果有变量的话,变量解释 双引号的变量名后面必须要有一个非数字、字母、下划线的特殊字符,或者用{}讲变量括起来,否则会将变量名后面的部分当做一个整体...

core java

最近3年常见的Java面试问题总结

later阅读(470)评论(0)

Java 面试随着时间的改变而改变。在过去的日子里,当你知道 String 和 StringBuilder 的区别就能让你直接进入第二轮面试,但是现在问题变得越来越高级,面试官问的问题也更深入。 在我初入职场的时候,类似于 Vector 与...

Java

知名公司的Java面试题

later阅读(272)评论(0)

巴克莱投资: 假设有一个 getNextparson() 方法返回 Person 对象,Person 类实现了 comparable 接口,现在从文件中读取记录并排序,然后给出前 1000 条记录,纸上作答 答案见Glassdoor 写一个...

资源

100个高质量Java牛人博客

later阅读(164)评论(0)

本文的主要目的是收集全球范围内100个高质量Java开发者博客。其中会有一些博客并不是由纯粹的Java开发者撰写的,但是Java开发者们能够从中发现一些有用的或者有趣的东西。阅读这些博客将会非常有趣,有时会给你带来一些新鲜的想法。(目前还没...