node.js实现简单爬虫
工具:cheerio
cheerio 是 nodejs 特别为服务端定制的,能够快速灵活的对 JQuery 核心进行实现。它工作于 DOM 模型上,且解析、操作、呈送都很高效。
更多 API 参看: github.com/cheeriojs/c…
我们以慕课网页面为例,爬取每个视频课程的标题和课程对应 id,期望结构如下:
1 | titles = [{ |
第一步,我们用node写一个请求,获取想要爬虫的网站html,这里以慕课网为例:
1 | var http = require('http') |
第二步,我们根据需求来编写过滤HTML的函数,将过滤后的数据打印在控制台。
1 | function filterChapters(html) { |
爬虫结果:
1 | 【935】Vue+Webpack打造todo应用 |
小结:node.js使得JavaScript代码能够运行在服务端,从而进行一些操作