python爬虫避免重复爬取网页 程序开发

python爬虫避免重复爬取网页

在使用爬虫爬取网页信息的时候,如果只爬取固定的网页还好,但是如果从一个网页的源码中解析出其他的链接,爬虫爬取到其他的网页,这样就会出现一个问题,如何确定这个网页我爬取过,如何设置爬取的网页不再爬取。本文地址 本篇文章实现避免重复爬取的思路是:将爬取过的网页的链接和该网页的信息以键值对的形式保存到数据...
阅读全文
数据库优化的10个建议 数据管理

数据库优化的10个建议

大多数网站的内容都存在数据库里,用户通过请求来访问内容。数据库非常的快,有许多技巧能让你优化数据库的速度,使你不浪费服务器的资源。在这篇文章中,我收录了十个优化数据库速度的技巧。 1、小心设计数据库 第一个技巧也许看来理所当然,但事实上大部分数据库的问题都来自于设计不好的数据库结构。 譬如我曾经遇见...
阅读全文
你对Vuetify框架有什么看法? 前端工程

你对Vuetify框架有什么看法?

作为一名后台程序员,在工作中还是需要懂一点前端的知识的,比如让你写个后台框架,这种事情如果让你单独的去开发那肯定是不情愿的,毕竟大多说后台程序员的审美没有逻辑那么优秀,寻找一款合适的ui框架就显得至关重要了,我之前使用的是iview框架搭建后台,它简单的api用起来很舒服,不过在设备适配的时候需要多...
阅读全文
小程序canvas组件生成与保存海报 程序开发

小程序canvas组件生成与保存海报

在开发小程序的过程中使用到了canvas来生成海报,然后添加小程序的二维码就可以生成海报图了 生成图片如下: 代码如下,在这里我是用了uni-app框架进行的开发,如果你使用的是其他的框架或者原生需要进行相应替换 html模板 <template> <view> <vi...
阅读全文
js获取指定长度的数组 前端工程

js获取指定长度的数组

使用js获取指定长度的数组 在日常工作中我们需要使用一定格式的数组,比如指定数组的长度,下面的介绍是一个得到指定长度的数组方法 代码如下 assignArray(data = , _length = 9) { if (data.length == 0) { return new Int8Array(...
阅读全文
python新手使用Beautiful Soup4常见错误 程序开发

python新手使用Beautiful Soup4常见错误

使用Beautiful Soup4的get_text方法出现的错误 作为一名pyhton新手,入手一个款html解析框架Beautiful Soup4,在使用的过程中确实非常的方便,比起自己写正则匹配要爽的多,不过在使用的过程中也遇到了一些坑,不踩一踩这些坑都不好意思说自己是一名新手。 在提取页面中...
阅读全文