工作中需要开启一个定时任务:每天晚上2点进行爬虫代码的运行,这不得不去学习一下linux 下的定时任务crontab
yum install crontabs
说明: /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 /sbin/service crond reload //重新载入配置 查看crontab服务状态:service crond status 手动启动crontab服务:service crond start 查看crontab服务是否已设置为开机启动,执行命令:ntsysv 加入开机自动启动: chkconfig crond on
内网:
内网也就是局域网,内网的计算机以NAT(网络地址转换)协议,通过一个公共的网关访问Internet。内网的计算机可向Internet上的其他计算机发送连接请求,但Internet上其他的计算机无法向内网的计算机发送连接请求。
最直观的就是像网吧,公司内部的电脑用交换机,HUB,路由连起来的
1, 打开终端:
sudo apt-get install mysql-server
2 ,接下来会让你选择y/n, 这里你选择y,
3 ,这里会出现一个让你输入mysql-server的密码,输入完后如果鼠标点击不了,可以使用Tab键+enter键继续下一步
4 ,接下来,会继续让我们输入一次密码
该文档针对爬虫系统设计目标中相应的场景给出技术方案
1、代码复用,功能模块化。可以支持上千个网站的数据爬取;
2、易扩展。爬虫框架易扩展,爬取规则、解析规则、入库规则易扩展,支持框架切换;
3、健壮性、可维护性。对数据爬取过程中的各种异常,例如:断网、反爬升级、爬“脏数据”等,需要实时的监控,以及给出准确的定位。异常处理以及降级措施需要完善;
4、后续扩展为分布式结构;
5、支持功能模块的易调整;
目录:
[TOC]
python3 3.6.4, win7 64位
pip install scrapy
使用这个命令,在win7 64位是怎么也安装不上去的,因为这已经是第二次了,
当这个命令输出完后,会出现一系列的问题。当然了,不用怕,这不是需要解决问题的方法来了嘛。