Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

搭建 PySpider 爬虫服务

搭建 PySpider 爬虫服务

2017-12-13 Comments 0 Comment

环境准备

任务时间:5min ~ 10min

前置环境部署

在开始部署前,我们需要做一些前置准备 [?]。

yum 更新 [?]

yum update -y

安装开发编译工具

yum install gcc gcc-c++ -y

安装依赖库

yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y

升级pip

pip install --upgrade pip

该步骤可选,但为了部署的稳定性,推荐执行

该步骤耗时可能较长(5~10min),请耐心等待

部署 mariadb

任务时间:10min ~ 20min

由于 CentOS 7 中 MySQL 数据库已从默认的程序列表中移除,我们使用 mariadb 代替。

安装 mariadb

yum install mariadb-server mariadb -y

启动 mariadb 服务

systemctl start mariadb

设置 root 密码

默认的root用户密码为空,你可以使用以下命令来创建 root 用户的密码:

(该步骤也可以跳过,password 后的 Password 可以改为任何你希望设置的密码)

mysqladmin -u root password "Password"

检查是否安装成功

现在你可以尝试通过以下命令来连接到 Mysql 服务器 [?]

mysql -u root -p

然后输入您刚才设置的密码 ( 默认:Password ),如果一切正常,您应该可以在命令行看到以 MariaDB [(none)]> 或 mysql> 开头的提示了,说明连接成功。

此时输入 SHOW DATABASES; 并回车,应该可以看到类似下面这样的输出,说明一切正常。

mysql> SHOW DATABASES;
+----------+
| Database |
+----------+
| mysql    |
| test     |
+----------+
2 rows in set (0.13 sec)

完成后,可以通过快捷键 Ctrl+C 或命令行键入 exit 来退出,进入下一步。

如果您未设置密码,直接使用 mysql 即可

部署 redis

任务时间:10min ~ 20min

下载、解压安装包

下载安装包

wget http://download.redis.io/redis-stable.tar.gz

解压安装包

tar -xzvf redis-stable.tar.gz

移动解压包到 /usr/local 内

mv redis-stable /usr/local/redis

编译安装

cd /usr/local/redis
make
make install

设置 redis 配置

设置配置文件路径

mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf

修改 /etc/redis/redis.conf 文件的 daemonize 配置项为如下:

daemonize yes

启动 redis 服务

/usr/local/bin/redis-server /etc/redis/redis.conf

部署 pyspider

任务时间:10min ~ 20min

安装依赖

pip install --upgrade chardet
easy_install mysql-connector==2.1.3
easy_install redis

安装 pyspider

pip install pyspider

配置 pyspider

首先创建配置目录

mkdir /etc/pyspider

然后 /etc/pyspider 目录下创建 pyspider.conf.json,参考下面的内容。

具体配置的说明文档请参考 官方文档

示例代码:/etc/pyspider/pyspider.conf.json
{
  "taskdb": "mysql+taskdb://root:Password@127.0.0.1:3306/taskdb",
  "projectdb": "mysql+projectdb://root:Password@127.0.0.1:3306/projectdb",
  "resultdb": "mysql+resultdb://root:Password@127.0.0.1:3306/resultdb",
  "message_queue": "redis://127.0.0.1:6379/db",
  "webui": {
    "username": "root",
    "password": "Password",
    "need-auth": true
  }
}

其中 mysql 配置中的 root 为您 mysql 的用户名, root: 后面的 Password 为您刚设置的密码。

webui 配置中的 username 及 password 为您访问 WebUI 时候需要的用户名,你也可以不设置用户名密码,直接将 need-auth 设为 false 即可。

启动服务

pyspider -c /etc/pyspider/pyspider.conf.json

如果一切正常,现在访问 http://<您的 CVM IP 地址>:5000,您应该可以看到 pyspider dashboard 的首页了。

服务能够正常启动后,我们需要让它能够在后台运行,您可以通过以下命令让服务在后台运行

nohup pyspider -c /etc/pyspider/pyspider.conf.json &

也可以使用官方推荐的 Supervisor 来启动,这里就不详细介绍了,具体用法可以参考 Supervisor 的文档

部署完成

任务时间:1min ~ 2min

访问服务

此时您可以访问 http://<您的 CVM IP 地址>:5000 使用您的爬虫来搜集数据了,具体 pyspider 爬虫脚本的编写及使用教程可以参考 网上资料。

大功告成

恭喜您已经完成了搭建 PySpider 爬虫服务的学习,您可以留用或者购买 Linux 版本的 CVM 继续学习。

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可分享至 Skype(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


教學資源

Post navigation

PREVIOUS
讓 Chrome 變快的簡單密技
NEXT
iMac Pro无响应怎么恢复?你需要一台Mac

發表迴響 取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
ESET NOD32
WINDOWS 10 &11 INSIDER PREVIEW
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
金融資訊
WhatsApp Stickers教學
WordPress資訊
WeChat資訊
PHP資訊
Plesk資訊
TensorFlow
教學資源
開源程序
網頁工具
SEO工具
醫療健康
旅遊及消閒
其他資訊
Content from
Content to
2017 年 12 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
    1 月 »

分類

  • 網站公告
  • 限時免費
  • ESET NOD32
  • WINDOWS 10 &11 INSIDER PREVIEW
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WhatsApp Stickers教學
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • Plesk資訊
  • TensorFlow
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 旅遊及消閒
  • 其他資訊

彙整

近期文章

  • 日本芯片公司Rapidus計劃攜手IBM 在2025年前生產2納米製程的原型產品 2023-01-27
  • 英特爾四季報及指引大幅遜於預期盤後股價大跌近9% 2023-01-27
  • 紐約市將要求Uber和Lyft在2030年前實現100%的電動化 2023-01-27
  • 索尼推出兩款高音質隨身聽NW-ZX707與NW-A306 增強音質和電池續航 2023-01-27
  • 新研發的肽噴霧劑可以在不使用抗生素的情況下殺滅傷口中的細菌 2023-01-27
  • 面向植物的新發現可能會帶來更多對蜜蜂友好的殺蟲劑 2023-01-27
  • 不是對所有人都安全:科學家識別綠茶提取物對特定人群的隱藏風險 2023-01-27
  • 行星防禦:了解碎石堆小行星的特性可能有助於人們在未來拯救地球 2023-01-27
  • 微軟並不打算中止Windows 10安裝盤的下載儘管不再售賣許可證 2023-01-27
  • 蘋果自行設計的Wi-Fi芯片開發工作已經“暫停了一段時間” 2023-01-27

熱門文章與頁面︰

  • DP vs HDMI 誰才是遊戲玩家最佳選擇?
  • ESET NOD32 LICENSE KEY (UPDATED 2023-01-17)
  • Autodesk AutoCAD 2021 正式版註冊版-簡體/繁體中文/英文版
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • 盜版Windows 7還能免費升級Windows 10嗎?
  • 天翼網盤免登陸高速下載,直鏈解析不限速
  • Koodo Reader – 免費開源的Epub 閱讀器,支持桌面版和網頁版
  • 配備F1發動機:梅賽德斯-AMG One量產車終於要來了
  • Windows及OFFICE激活密鑰+電話激活教程–自用

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.
X