python脚本爬取字体文件的实现方法

脚本专栏 2024/11/18 佚名

2 0 1

金狮镖局 Design By www.egabc.com

前言

大家应该都有所体会，为了提高验证码的识别准确率，我们当然要首先得到足够多的测试数据。验证码下载下来容易，但是需要人脑手工识别着实让人受不了，于是我就想了个折衷的办法——自己造验证码。

为了保证多样性，首先当然需要不同的字模了，直接用类似ttf格式的字体文件即可，网上有很多ttf格式的字体包供我们下载。当然，我不会傻到手动下载解压缩，果断要写个爬虫了。

实现方法

网站一：fontsquirrel.com

这个网站的字体可以免费下载，但是有很多下载点都是外链连接到其他网站的，这部分得忽略掉。

#coding:utf-8
import urllib2,cookielib,sys,re,os,zipfile
import numpy as np
#网站登陆
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]
urllib2.install_opener(opener)
#搜索可下载连接
def search(path):
 request=urllib2.Request(path)
 response=urllib2.urlopen(request)
 html=response.read()
 html=html.replace('\n',' ')#将所有的回车去掉，因为正则表达式是单行匹配。。。。。。
 urls=re.findall(r'<a href="(.*" rel="external nofollow" >(.*"htmlcode">

#coding:utf-8
import urllib2,cookielib,sys,re,os,zipfile
import shutil
import numpy as np
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]
urllib2.install_opener(opener)
items=[]
def search(path):
 request=urllib2.Request(path)
 response=urllib2.urlopen(request)
 html=response.read()
 html=html.replace('\n',' ')
 urls=re.findall(r'href=\"(http://dl.dafont.com/dl/\" >',html)
 items.extend(urls)
for i in xrange(117):
 host='http://www.dafont.com/new.php"color: #ff0000">总结
以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对的支持。

python,爬取整个网站,python,爬取网页数据,python爬取网站

标签：

python,爬取整个网站,python,爬取网页数据,python爬取网站

金狮镖局 Design By www.egabc.com

金狮镖局 免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

金狮镖局 Design By www.egabc.com

评论“python脚本爬取字体文件的实现方法”

暂无python脚本爬取字体文件的实现方法的评论...

www.egabc.com 金狮镖局

139,976影音资源

144,792福利资源

21,817软件资源

631,128技术资源

更新日志

2024年11月18日

python脚本爬取字体文件的实现方法

python,爬取整个网站,python,爬取网页数据,python爬取网站

python3实现抓取网页资源的 N 种方法

Pycharm学习教程（2）代码风格

评论“python脚本爬取字体文件的实现方法”

更新日志

友情链接

python脚本爬取字体文件的实现方法

python,爬取整个网站,python,爬取网页数据,python爬取网站

python3实现抓取网页资源的 N 种方法

Pycharm学习教程（2） 代码风格

评论“python脚本爬取字体文件的实现方法”

更新日志

友情链接

Pycharm学习教程（2）代码风格