金狮镖局 Design By www.egabc.com
本文实例讲述了nodejs制作小爬虫功能。分享给大家供大家参考,具体如下:
1 安装nodejs
2 安装需要模块
npm install request cheerio
3 新建js文件
4 引入
const request=require("request") const cheerio=require("cheerio")
5 利用request模块发送请求
request('http://news.dgut.edu.cn/dgut/xydt/news_list.shtml',function(err,res){ if(err) { console.log('请求出错'); } else { var $ = cheerio.load(res.body, {decodeEntities: false}); $('.listList').children('ul').children('li').each(function(){ //找到li元素对象然后通过each遍历 var newsTitle = $(this).children('a').text(); //得到<a>标签的文字 var newsTime= $(this).children('span').eq(1).text();//得到第二个<span>标签的文字 var newsUrl= "http://news.dgut.edu.cn"+$(this).children('a').attr('href');//得到<a>标签的href的值 item++; console.log("已爬取"+item+"条记录"); }); } });
一个小爬虫案例就完了
附上完整代码
request('http://news.dgut.edu.cn/dgut/xydt/news_list.shtml',function(err,res){ if(err) { console.log('请求出错'); } else { var $ = cheerio.load(res.body, {decodeEntities: false}); $('.listList').children('ul').children('li').each(function(){ //找到li元素对象然后通过each遍历 var newsTitle = $(this).children('a').text(); //得到<a>标签的文字 var newsTime= $(this).children('span').eq(1).text();//得到第二个<span>标签的文字 var newsUrl= "http://news.dgut.edu.cn"+$(this).children('a').attr('href');//得到<a>标签的href的值 item++; console.log("已爬取"+item+"条记录"); }); } });
下面的带数据库
const request=require("request") const cheerio=require("cheerio") const mysql=require('mysql') const db=mysql.createPool({host:'120.79.5554',user:'root',password:'root',database:'pachong'}); var item=0; request('http://news.dgut.edu.cn/dgut/xydt/news_list.shtml',function(err,res){ if(err) { console.log('请求出错'); } else { var $ = cheerio.load(res.body, {decodeEntities: false}); $('.listList').children('ul').children('li').each(function(){ //找到li元素对象然后通过each遍历 var newsTitle = $(this).children('a').text(); //得到<a>标签的文字 var newsTime= $(this).children('span').eq(1).text();//得到第二个<span>标签的文字 var newsUrl= "http://news.dgut.edu.cn"+$(this).children('a').attr('href');//得到<a>标签的href的值 console.log(newsTitle,newsTime,newsUrl) db.query(`INSERT INTO news (newsTitle, newsTime, newsUrl) VALUE('${newsTitle}', '${newsTime}','${newsUrl}')`,function(err,data){ if(err) { console.log("数据库连接错误"); } }) item++; console.log("已爬取"+item+"条记录"); }); } });
希望本文所述对大家node.js程序设计有所帮助。
标签:
nodejs,爬虫
金狮镖局 Design By www.egabc.com
金狮镖局
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
金狮镖局 Design By www.egabc.com
暂无nodejs制作小爬虫功能示例的评论...
更新日志
2024年09月23日
2024年09月23日
- 华少翌.2005-华少翌【中唱艺能】【WAV+CUE】
- 群星《十二女声Ⅱ》[WAV/CUE/分轨][527MB]
- 大自然音乐系列《漫步在山裡》[WAV/CUE/分轨][502.8MB]
- 大自然音乐系列《星光夜语》[WAV/CUE/分轨][453.3MB]
- 史依弘《史依弘交响乐京剧演唱专辑HQ》头版限量编号[WAV+CUE]
- 曼丽2020《女人三十风继续吹》HQCD[WAV+CUE]
- 曼丽2021《女人三十2雾之恋》HQCD[WAV+CUE]
- 隔壁老樊.2019-我曾【好听音乐】【FLAC分轨】
- 高林生.1993-牵挂你的人是我【白天鹅】【WAV+CUE】
- 洪卓立.2012-找个懂我的女孩(国专)【英皇娱乐】【WAV+CUE】
- 曼丽2022《女人三十3晚秋》HQCD[WAV+CUE]
- 曼丽2018《女人三十4冬天》HQCD[WAV+CUE]
- 柏菲-《好歌30年壹》限量开盘母带ORMCD[低速原抓WAV+CUE]
- 大自然音乐系列《水舞》[WAV/CUE/分轨][424.3MB]
- 大自然音乐系列《星光夜语》[WAV/CUE/分轨][453.3MB]