Py学习  »  Python

51信仰卡因为爬虫被查?原因究竟是什么?用Python来告诉你!

Python编程 • 4 年前 • 266 次点击  
阅读 23

51信仰卡因为爬虫被查?原因究竟是什么?用Python来告诉你!

10月21日上午,在香港上市的金融独角兽 “51信用卡”遭遇杭州警方突击清查

据现场知情人士透露,“51信用卡”位于杭州西湖区紫霞街80号西溪谷国际商务中心的办公楼下,停满了12辆警车,包括4辆大巴车以及1辆特警大巴车

受此消息影响,51信用卡紧急停牌,停牌前报1.78港元,跌幅高达34.32%,成交8871万港元,最新总市值21.26亿港元。该股盘中股价最低至1.58港元,一度跌幅超过40%,为上市以来最低价。

一时间市场上议论纷纷,有传是因为爬虫,非法收集个人隐私信息

因为近段时间很多大数据服务公司爬虫被查,魔蝎科技,新颜科技,公信宝等。这些大数据公司基本都是为现金贷,p2p 等公司提供数据服务的。这些被查或者被抓的公司都涉及非法爬取个人隐私信息,暴力催收等。

在这里也和大家提个醒,因为公众号读者中做爬虫的可能居多。

1.个人隐私千万千万不要去爬取

今年的这些行动最主要就是打击违法收集个人隐私信息的,以后遇到这种任务直接和领导说或者找公司法务,将这些案列丢给领导看!如果还要你去采集,你也要拒绝,同时可以准备找下家了,因为这种公司迟早会被查。不要说什么技术无罪,爬虫是你开发出来的,你成年人了应该懂法吧,上一个说技术无罪的,去年才从里面出来!

  1. 不要把别人服务器爬崩了 说白了就是不要把别人网站爬的不能正常访问,也就是大家常说的 Dos 攻击。注意爬取速度,不要毫无限制的追求速度!当然这里说的是爬取公开的数据,非公开的数据也不能乱爬!

  2. 不要乱接外包私活 也是前段时间一篇刷屏的文章。一位老哥因为接的私活,进去了。因为你不知道对方拿你开发完的东西去做什么的,也许你问了,但是他是否如实告知你了呢。他有可能拿你开发的去做了什么违法的事情,开发这个工具的人也是有责任的!

暂时说这么多,大家要做到心中有数,要懂得敬畏法律!所以做爬虫的朋友大可不必人人自危,做到懂法,守法,不要去越过红线即可

说了这么多,难道51信用卡也是因为爬虫被查?并不是,后面杭州警方官方通告出来了

原来51信用卡涉嫌暴力催收,寻衅滋事等。像51信用卡这种大公司因为暴力催收被查,肯定不是一两件,必定是造成了很恶劣的影响,有多严重呢?

你的电话可能会被打爆,很多都是那种恐吓,辱骂的电话...

不仅是你自己的电话,你通讯录里面的朋友,家人和同事都会被电话催债。而且你还屏蔽不掉,只能关机!

不仅如此,你还可能被人肉追踪,催收方能准确的知道你的位置在哪!想想都觉得可怕吧!

这些暴力催收投诉信息都能在网上查到,都属于公开信息

高利贷、暴力催收、高额利息、砍头息...这些都是今年重点打击的..

所以我写了个爬虫把这些公开信息都爬下来了

下面是部分的爬虫代码:

def crawl_news():

	data_list = []
	for page in range(1, 11):
		url = f"https://ts.21cn.com/json/merchantPostList/merchantId/3155/listType/1/pageNo/{page}/offset/28f13d759fd1e08c"

		headers = {
			"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) "
						  "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
		}
		data_list = []
		title_set = set()
		try:
			response = requests.get(url,headers=headers, )

			json_data = response.json()
			print(json_data)
			post_list = json_data.get('postList')
		except:
			print(traceback.format_exc())
			pass

		else:
			for item in post_list:

				title = item.get('title')
				if title in title_set:
					continue
				else:
					title_set.add(title)

				intro = item.get('shortTopic')
				t = time.localtime(item.get("ctime"))
				publish = time.strftime("%Y-%m-%d",t)

				link = 'http://ts.21cn.com/tousu/show/id/' + str(item.get('id'))

				data_list.append({
					NewsKeyEnum.TITLE: title,
					NewsKeyEnum.ABSTRACT: intro,
					NewsKeyEnum.LINK: link,
					NewsKeyEnum.PUBLISH: publish,
				})
				time.sleep(0.5)
	return data_list
复制代码

有了数据就能做一些事情了,这里只是简单的做了个词云图,能直观看出被投诉最多的,高利息,砍头息,高利贷等

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/48137
 
266 次点击