文章目录:
黑客好还是不好?
《时代周刊》一次评论说:“在当今世界,一个人不懂电脑无异于既聋且盲;在未来世界,一个人不懂电脑则无异于将被开除球籍。人类未来的命运正是掌握在这些奇妙的、疯狂的然而又是伟大的计算机天才们的手中。他们是人类信息时代的幕后英雄。”
看来人们不得不承认,有时候这些幕后英雄可能也要包括黑客,不管他们干的是好事还是坏事,我们不能不面对他们的影响。某些时候,他们的坏行为也正好提醒我们,计算机系统还有太多的东西需要改进。
“黑客”一词,源于英语的“HACK”,在20世纪早期美国麻省理工学院的校园语中是“恶作剧”的意思,尤其指手段巧妙、技术高明的恶作剧,也可理解为“干了一件非常漂亮的工作”。
话不虚假,计算机黑客个个都是编程高手,在20世纪六七十年代,做一名黑客甚至是一件很荣耀的事情。但是随着时间的推移,一些黑客任意侵入别人的计算机系统,并给系统的使用者带来了巨大的损失,现在,黑客的名誉几乎已经扫地,向着非法入侵的破坏者甚至网络犯罪者发展了。
人们最为担忧的事情是网络犯罪的问题。随着社会活动信息化,网络上的电脑已经成为机密和财富最集中的宝库,这当然成为智能犯罪的主要目标。对于黑客们来说,计算机系统并不强大。美国每年因电脑盗窃、诈骗造成的损失要以10亿美元计,比其他任何一种偷盗损失都要多得多。事实上,因特网犯罪在我国也已出现。
网上犯罪的首选攻击目标是银行,通过侵入银行的计算机系统,他们可以改变资金的流向,并盗取银行保存的珍贵信息,直接获得经济利益,这和偷窃并无区别。
攻击企业网络也是经常的事情。黑客获得商业机密后,或者用来威胁企业,或者直接出售给第三方企业,以获得报酬。
网上黑客的活动还威胁着国家的军事机密。
美国国防部曾进行了一次试验,由一个通晓计算机技术的年轻军官利用一台普通电脑和一个调制解调器,潜入了世界上最强大的美国海军战舰的核心部位。这时,舰长对军舰的指挥权旁落浑然不知。然后,隐藏在电子邮件信息中的密码在各军舰计算机中不断复制,目标军舰一艘接一艘地拱手交出指挥权。这个时候,整个海军战斗团队被一根电话线操纵了。
还有一些行为十分古怪的黑客。他们并不对他人做出什么实际的损害,但常做出一些诸如改变他人的电话号码,或改变别人的网页之类的事情。林子大了,什么鸟都有,网络黑客也无奇不有。但采用什么样的网络安全措施,才能阻止这些网络黑客的侵袭,至今也没有十分有效的方法。
对于黑客,不能以“善”或“恶”一言概括,我们也不能回避现实,必须正视黑客,时代在发展,他们也在演变。自己的命运自己把握,毫无疑问,我们当然不能让黑客决定我们的命运。
学Python做web还是爬虫?未来那个发展比较好?
这个问题并不是非此即彼的。python找工作的话web会多很多,面试的机会更大;python可以用来爬数据,但是python不是专门用来做爬虫的,Python可以做很多事情。它在做爬虫方面的确有一定的优势。写起来比较方便,简洁,爬取速度快,处理cookie,验证码等等爬虫常见问题也方便。
如果你学习python往深度学习,定位全栈,这两个肯定是都要掌握的,毕竟技多不压身嘛
网络爬虫是什么?具体要学哪些内容?
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
你可以简单地想象:每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。
你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。
那么,像这样的爬虫技术一旦被用来作恶有多可怕呢?
正好在上周末,一位黑客盆友御风神秘兮兮地给我发来一份《中国爬虫图鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科技。比如他们搞了一个威胁情报系统,号称能探测到全世界的「爬虫」都在做什么。
我吹着口哨打开《图鉴》,但一分钟以后,我整个人都不好了。
我看到了另一个「平行世界」:
就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。
看到最后,我发现这哪里是《中国爬虫图鉴》,这分明是一份《中国焦虑图鉴》。
我们今天要说的,就和这些 App 有关。
一、爬虫的「骚操作」
爬虫也分善恶。
像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为「善意爬虫」。
但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为「恶意爬虫」。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)
给你看一张图:
这张图里显示的,就是各行各业被爬「叨扰」的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。
接下来,中哥就给你科普一下里面的骚操作。
1、排名第一的是出行
出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有 89.02% 的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
你还记得当年 12306 上线王珞丹和白百何的「史上最坑图片验证码」么?
这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单地机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。
没错。抢票软件也不是吃素的。它们在和铁总搞「对抗」。
有一种东西叫作「打码平台」,你可以了解一下。
打码平台雇用了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是「锅铲」,那么下次这张图片再出现的时候,系统就直接判断它是「锅铲」。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
你可能会问:为什么 12306 这么抠呢?它大方地让爬虫随意爬会死吗?
答:会死。
你知道每年过年之前,12306 被点成什么样了吗?公开数据是这么说的:「最高峰时 1 天内页面浏览量达 813.4 亿次,1 小时最高点击量 59.3 亿次,平均每秒 164.8 万次。」这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。
况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?
铁路被爬虫「点击」成这样已经够惨了,但它还有个难兄难弟,就是航空。
而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。
航空类爬虫的分布比例。
很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷 X 度假之首选。
为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。
本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。
据我所知,他们是这样玩的:
技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。
亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后 0.00001 秒之后,就帮你用你的名字预定了这张票。
「我是中间商,我就要赚差价!」这波骚操作,堪称完美。
2、排名第二的是社交
社交的爬虫重灾区,就是你们喜闻乐见的微博。
给你看张图:
这是爬虫经常光顾的微博地址。
攻击目标是银行,通过侵入银行的计算机系统,他们可以改变资金的流向,并盗取银行保存的珍贵信息,直接获得经济利益,这和偷窃并无区别。攻击企业网络也是经常的事情。黑客获得商业机密后,或者用来威胁企业,或者直接出售给第三方企业,以获得报酬。网上黑客的活动还威胁着
的命运。学Python做web还是爬虫?未来那个发展比较好?这个问题并不是非此即彼的。python找工作的话web会多很多,面试的机会更大;python可以用来爬数据,但是python不是专门用来做爬虫的,Python可以做很
悟空拔了一撮汗毛,吹出一堆猴子一样。你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新
着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。你还记得当年 12306 上线王珞丹和白百何的「史上最坑图片验证码」么?这些东西不是为了故意难为老老实实卖票的人的,而恰