盘点物联网最常见的几大安全漏洞场景

七月 20, 2018

物联网作为未来最有前景的行业之一,有着非常大的应用范围。然而,目前物联网技术发展迅猛,却并不普及,其中一大原因就是物联网的安全问题频出,同时企业和个人又不重视,也不愿花太多成本在安全方面,本文盘点物联网安全最常见的几大场景。

 远程拍录时恶意攻击

黑客有可能在主人毫不知情的情况下,黑入物联网设备,拍录主人的活动,公众知道这一点还要感谢中央情报局(CIA),而不是感谢黑客。维基解密网站披露的文件表明,这个情报机构早就知道物联网设备的众多零日攻击,但没有透露这些漏洞,原因是希望利用这些漏洞秘密录下会揭露美国敌人的活动的对话。除了Android和iOS智能手机的漏洞外,文件还提到了智能电视的漏洞。很显然,犯罪分子也可能会利用这些漏洞实施不法勾当。

  通过软件获取信息

勒索软件在家用PC和企业网络上已变得非常普遍。现在专家表示,勒索软件攻击者开始盯上智能设备只是个时间问题。安全研究人员已经演示了能够将勒索软件安装到智能恒温器上。比如说,他们可以将温度调高到95度,拒绝调回到正常温度,除非受害者同意支付用比特币支付的赎金。他们还能够对联网的车库门、车辆甚至家电发动类似的攻击。早上你肯付多少赎金来解锁自己的智能咖啡壶?

 住宅安全问题

随着智能锁和智能车库开门器变得更常见,网络犯罪分子也更有可能成为现实世界中的小偷。面对手头拥有高级工具和软件的犯罪分子,如果没有得到妥善的保护,家庭系统可能岌岌可危。令人不安的是,安全研究人员已证明,很容易黑入几家不同厂商的智能锁,智能车库门的安全性似乎并没有大大提高。

  车辆联网安全

由于车辆变得更智能,并连接到互联网,它们也容易受到攻击。黑客已证明,他们可以控制吉普车,将空调设到最高数值、换广播电台、开启雨刷器,最终让车辆停下来。这个新闻导致车企召回了140万辆车,但是这个漏洞背后的白帽研究人员表示,他们发现了另外的安全漏洞,克莱斯勒为召回车辆所打的补丁堵不了这些漏洞。虽然专家表示,汽车业在确保车辆安全方面有所改进,但几乎可以肯定的是,攻击者会在联网汽车中发现新的漏洞。

总结:尽管在上述场景下,物联网安全尚未做到非常完善,但未来这些场景下的物联网是趋势,也是刚需,随着技术发展,防止黑客攻击是从业者必备的技能包。

盘点物联网最常见的几大安全漏洞场景已关闭评论

区块链史就是一部流氓史

七月 20, 2018

引子

比特币是《指环王》中的魔戒

不要试图挑战人性,比特币就是最大的人性。

如果将区块链世界比喻为《指环王》的中土世界,那比特币就是统御众戒的至尊戒。

魔戒蛊惑心智,无论是对于人类、精灵、矮人还是霍比特人而言,它都是一个巨大诱惑,戴上魔戒的人,最后都成为魔君索伦的奴仆。

区块链世界有魔都气场,大部分戴上“比特币”戒指的人,没有多少人能够保持心性坚定,一旦身陷其中,除非内心特别强大,剩余的大部分人最后都成了这戒指的奴隶。

在人类的世界,除了金钱,还可以仰望星空,周游世界。

在互联网的世界,除了金钱,还可以打磨产品,游戏休闲。

但在区块链世界,除了金钱之外,连性生活都可以弃之如草芥。

正因为如此,无论是收割者还是韭菜,不再顾及道德伦理,将占有金钱作为唯一目的。

这样的一个世界,很自然发展成一个流氓辈出、戾气横行的“半兽人”世界。

很多天真纯粹的青年,在这个世界变成彻头彻尾的骗子。

01

欺骗史

韭菜的记忆只有7秒

这段时间对某大咖录音的口诛笔伐,仅仅只是瞬间高潮而已。

韭菜的记忆只有7秒(鱼的记忆只有7秒),这在区块链的世界里体现的尤其明显。

不用为这些大咖们担心,根本无须洗白和辩解,韭菜的健忘能力超过所有人的想象。

从2013年到2018年间,已经被无数次反复证明。

每一次争议都是一次胜利,只要收割了流量,不出三天又是站在金字塔尖的人生导师。

嘴巴上吹嘘时间戳是区块链的重大技术突破,其实在内心里并不敬畏,时间戳见证算个屁,网红才是王道。

这不是区块链世界某一个人相信的“创世法则”,而是很多大佬内心认可的“金科玉律”。不怕争议,敢于欺骗,才是名利双收的不二法宝。

如果还有一点点记忆,“烤猫7币以下随便买”,“瑞波是不错的,值得推荐”这些话言犹在耳。

没有关系,很多韭菜认为这是大实话,我们就是绿油油的SB!

好吧,大神请继续收割。

欺骗绝非独家,而是这个圈子的“通用法则”。

2017年都认为某场是骗子,但有什么关系,它一直在涨涨涨啊!

2016年都知道雷达币就是V宝币变身,但照样愿意再次支付智商税。

2015年都知道V宝币就是传销币,但有什么关系我可能不是最后一个。

2014年都知道比特币存钱罐违背商业常识,但仍然有大佬奉上比特币。

2013年都知道香港氪能可能是个骗局,但很多富豪愿意赌上身家。

…………

越到后来欺骗越是理直气壮,2017~2018年的ICO项目,来自传销界的空气币比比皆是,但没关系,只要骗到了钱,就是扑克牌里的大咖。

在这个世界有一句名言:我凭本事骗到的钱,为什么要还给你。

骗子十分得意地笑,群众九分傻逼地笑。

我看到,新一批绿油油的韭菜正在旺盛生长。

02

炫富史

给我钱,带你走向财富自由之路

炫富是一项技巧,既要显示自己碾压朋友圈的无双富贵,又要让人觉得这不是故意在显摆,否则让人觉得特别地LOW逼。

所以炫富一般是这样的:

坐在驾驶室里拍了一张照片,然后分享到朋友圈,写了一段话“今天天气真好”,是的,外面阳光明媚万里无云,但重点不在这里,你拍的照片“不小心”露出半个方向盘,展示出玛莎拉蒂的半个LOGO。

但区块链的炫耀会赤裸裸:

某90后天天在朋友圈里自称半年一不小心赚了几十亿;

一些币圈新咖天天吹自己的币又翻了1000倍;

还有一些直接晒自己在五星级夜店如何“一币一嫩模”;

更多人在称自己又喜提了LB48H兰博基尼;

有一些人说不好意思今天的币价是我拉上去的;

…………

其实目标只有一个:我很牛逼,把你的币给我,我来帮你实现财富自由。

真实情况是:把你的币给我吧,我才能走向财富自由。

比特币圈炫富鼻祖是某大咖,在2013年CCTV频道称自己有6位数的比特币。

如果真的是比特币信徒,一定不会觉得占有6位数的比特币值得炫耀。

让更多人持有加密货币,才是真正的原教旨主义,从这一件事里面就看出这是传销笔法,此人根本就不是一个真正的信徒。

炫耀者不知道自己这样很LOW吗?当然知道。

但他们知道有更多比自己更LOW的人就吃这一套。

不得不很残酷地说:人傻钱多,骗子不够。

看过李嘉诚在朋友圈里说“昨晚晚上不小心赚了3个亿,今天早晨一配来,发现又亏了4个亿”这样的话吗?

其实你只要想明白一点。他的钱跟你没有任何关系,你的钱和他却有很大关系。

孙宇晨在京东众筹出版的《财富自由革命之路》,真是一个好的寓言故事。

03

跑路史

比特币属于那些跑路最快的人

比特币不属于走的最早的人,而属于跑路最快的人。

这不完全是开玩笑,一路看过来,区块链史就是一部跑路史。

很多新生韭菜听说交易所跑路,觉得这不可能,能开交易所怎么可能跑路?这可是牛逼哄哄的人才能做的事。开交易所也没有那么牛逼,最关键是心理承压能力很牛逼。

看看牛逼的交易所的跑路史:

2013年,GBL香港交易平台人间蒸发,卷款3000万元跑路。这是早期跑路比较有影响力的平台,这个与用户对赌的比特币网站坑得血本无归,网站关闭前平台地址上还有8000枚比特币。

2014年,世界最大的比特币交易Mt.Gox宣布其交易平台的65万个比特币被盗一空,随后宣布破产。这是至今为止区块跑路史上最可怕的跑路。Mt.Gox是世界上第一个比特币交易平台,也是全世界最大交易平台,从2011年开始,早期玩家基本上都是在这个平台进行交易,而且它的价格是整个行业的风向标,Mt.Gox的跑路重创了比特币行业,2014~2016年出现漫漫寒冬,也与它的倒闭有很大关系。

2017年,世界第三大交易所BTC-E关闭跑路,虽然BTC-E没有Mt.Gox那般厉害,但也经营了当年的世界性交易所,当年就是靠着BTC-E和Bitstamp这两大平台搬砖套利发家致富。

以上是影响比较大的跑路事件。

还有很多跑路的事件:

2013年,蝴蝶矿机跑路,很多早期老人被坑。

2014年,烤猫矿机跑路(这里面隐藏了很多秘密)。

2015年,比特币存钱罐跑路,负责人王聪同学不见踪影。

2016年,香港Bitfinex黑客袭击事件损失119,756个BTC,至今纠缠不清,基本跑路。

…………

2014~2016年这段时间的传销币层出不穷,百川币、摩根币、贝塔币、V宝币、维卡币、BBT金币,一个比一个跑得快。

2017年以后的ICO项目就不说了,太空链(Space Chain)、影视链(MDC)、英雄链(HEC)等,无数项目基本都在百米跑道上,随时准备超越“博尔特”。

04

作恶史

不作恶的人不是 “好大哥”

在这个世界,有底线的人被圈子抛弃,“布道者”黯然离场。

你都不想当骗子,怎么带领我们发家致富?

你都不作恶,那怎么合作收割韭菜智商税?

你都不发ICO,我如何从你身上赚翻10倍?

区块链最开始的作恶来自于交易所的做空机制。

为了参与做空,各种谣言掺杂在各大V网红微博里,当然很多微博已经被自己删掉。

当年那些作恶者,如今摇身一变又是“教父”级人物。还记得200倍杠杆的796吗?亏光了2000个币的朱老板现在仍然是很多韭菜心中的“股神”。

在这个世界:

1、媒体必须作恶,你若不造谣,难道等你报道真相?要获得利益就必须作恶,这与传统媒体积累品牌完全不同,SO,区块链世界真的有媒体?

2、评级机构必须作恶,难道你真的以为我们相信那些数据,我们要的是告诉广大韭菜如何来接项目的盘。

3、基石投资者也在作恶,直接被早期投资者砸盘的项目还少吗?连基石都在作恶,哪个投资者不是想着套利即走。

4、项目也在作恶,各种传销套路用尽,尽可能找到接盘的韭菜。

…………

这个世界作恶不是原罪,不作恶才会让人觉得是异类。

币圈在2012年之前是相对纯粹的,那个时候主要以自由主义者和技术极客为主,在社区里以互相打赏比特币为乐。

2013年开始面向大众,投机者进来之后币圈已经不是当年那个“社会实验场”。

2017年的艾西欧这一波,传统投资圈最激进的VC入场,这些人基本上是商业时代的“异形”,每个毛孔里都滴着金钱的血液,蔡X胜、某红这些人的作恶,古老币圈里的人无法想象。

结语

区块链世界需要“甘道夫”

说区块链史是一部流氓史并非污名化“加密货币”。

反思互联网的发展,这20年来不也是一部流氓史?

中国五千年历史,鲁迅先生也说是一部“吃人”的历史。

只是在这个世界,演绎得更加明显。

区块链是充满原罪的魔域,相比于现实世界和互联网世界,它从诞生的那一天起,就在激发人类最本能的欲望。

你我都是凡人,凡人皆有欲望,我们很难控制自己,所以区块链世界更需要甘道夫和比尔博。

甘道夫作为半神的迈雅,对未来有一定预见性,对人的本质也有超强的洞察力,所以完成孤山任务时甘道夫选择了比尔博。

在区块链的世界,我们能有自己的甘道夫和比尔博吗?

区块链史就是一部流氓史已关闭评论

抓取了一千亿个网页后我才明白,爬虫一点都不简单

七月 20, 2018

  现在爬虫技术似乎是很容易的事情,但这种看法是很有迷惑性的。开源的库/框架、可视化的爬虫工具以及数据析取工具有很多,从网站抓取数据似乎易如反掌。然而,当你成规模地在网站上抓东西时,事情很快就会变得非常棘手。

  自2010年以来抓取超过1000亿个产品页面,我们将会通过系列文章来分享从中学到的经验教训,让你深入了解从电子商务商店中规模析取数据时所面临的挑战,并且跟你分享应对这些挑战的某些最佳实践。

  本文是该系列文章的第一篇,在这里我们将提供规模抓取产品数据所面临主要挑战的概览,以及Scrapinghub从抓取1000亿产品页面中学到的经验教训。

  成立于2010年的Scrapinghub是领先的数据析取公司之一,也是当今最健壮和流行的web爬虫框架Scrapy的作者。目前Scrapinghub每月抓取许多全球最大型电子商务公司的页面数超过80亿(其中30亿是产品页面)。

  对于那些对规模爬取网页技术感兴趣但对要不要建立专门的web爬取团队或者外包给专门的web爬取公司的人来说,最好看看这个免费指南,企业web爬虫:规模化web爬取技术指南

  规模爬取技术为什么重要?

  跟标准的web爬取应用不一样的是,规模爬取电子商务产品数据有一项独特挑战使得web抓取要困难许多。

  本质上这些挑战可归结为两件事情:速度和数据质量。

  由于时间通常是限制因素,规模抓取要求你的爬虫要以很高的速度抓取网页但又不能拖累数据质量。对速度的这张要求使得爬取大规模产品数据变得极具挑战性。

  挑战#1——草率而且总是在变的网站格式

  这一点很明显但也许不是最性感的挑战,但是草率而一直在变的网站格式是目前为止你在规模析取数据时将会面临的最大挑战。这未必是因为任务的复杂性,而是由于你要投入的时间和资源。

  如果你花过时间开发过电子商务商店的爬虫的话,你就会知道电子商务网站代码之草率是一种流行病。这可不仅仅是HTML完构性或者偶尔的字符编码问题。这些年来我们遇到过形形色色的问题——HTTP响应代码的误用,损坏的JavaScript代码,或者Ajax的误用:

  停掉产品时移除页面的商店在网站升级后突然间会在404错误处理程序返回200响应码。

  不恰当的JSON转义破坏了部分页面的JavaScript代码(比如‘b0rk’d’),导致你需要用正则表达式来抓取那部分数据。

  滥用Ajax调用的商店以至于你只能靠渲染该页面(这会导致爬取慢很多)或者模仿API调用(导致要付出更多的开发努力)来获得数据。

  像这样草率的代码会导致编写爬虫非常痛苦,但也会使得可视化爬取工具或者自动析取不再可行。

  在规模爬取的时候,你不仅要浏览成百上千个有着草率代码的网站,还将被迫应对不断演变的网站。一条好的经验法则是要预计你的目标网站每隔2到3个月就会发生让你的爬虫工作不了的变化。

  这也许看起来不像是多大的事,但是当你规模抓取时,那些事件就会累积。比方说,Scrapinghub有一个规模比较大的电子商务项目大概有4000个爬虫抽取约1000个电子商务网站,意味着每天可能会经历20到30次爬虫失败。

  而且网站在不同地区、语言的变化,A/B测试以及包装/定价的派生也会制造出各种问题导致爬虫失败。

  没有容易的解决方案

  不幸的是,不存在银弹可以彻底解决这些问题。很多时候这只是随着规模而扩大投入更多资源到你的项目上才能解决的事情。再拿上一个例子来说吧,那个项目有18名全职的爬虫工程师以及3名专职的QA工程师来确保客户总能得到可靠的数据流。

  不过,你的团队有经验以后就会学会如何开发出更加健壮的爬虫,从而检测并处置目标网站格式中的异常。

  如何处理目标网站有各种布局可能的情况呢?用多个爬虫也许不是最好的做法,我们的最佳实践是只用一个产品爬虫来处理不同页面布局个各种可能规则和模式。你的爬虫可配置性越强越好。

  尽管这些实践会让你的爬虫更加复杂(我们有些爬虫有好几千行),但它会确保你的爬虫更容易维护。

  由于大多数公司日常都需要析取产品数据,等待几天让你的工程团队修复任何坏掉的爬虫不是可选项。当出现这些情况时,Scrapinghub会利用自己开发的基于机器学习的数据析取工具来作为后备,直到爬虫修复好。这个基于ML的析取工具会自动识别目标网站的目标字段(产品名称、价格、货币单位、图像、SKU等)并且返回想要的结果。

  我们会在未来几周之内发布这项工具以及相关的指导文章,告诉大家如何将机器学习用到你的数据析取过程当中。

  挑战 2:可伸缩的架构

  你将面临的第二个挑战是建设一个可随每日请求数增长而扩充且性能不会下降的爬虫基础设施。

  在规模析取产品数据时,一个串行爬取的简单web爬虫是不堪此任的。通常一个串行的web爬虫会循环发出请求,每一项请求都要2到3秒钟完成。

  如果你的爬虫每天发出的请求数不到40000的话这种做法是没有问题的。然而,超过这个点你就得过渡到一种让你每天可以完成数百万请求而不会性能下降的爬虫架构。

  这个话题得用一篇文章才能说得清楚,未来几周我们将发布一篇专门的文章来讨论如何设计和开发高吞吐量的爬取架构。然而,本节的剩余部分我们将讨论一些高级原则和最佳实践。

  正如我们讨论过那样,在规模爬取产品数据时速度是关键。你需要确保在时间阈值范围内(通常是1天)可以找到并且爬取所有要求的产品页面。为此你需要做以下一些事情:

  将产品发现与产品析取分开

  为了规模爬取产品数据你需要将你的产品发现爬虫与产品析取爬虫分开。

  产品发现爬虫的目标应该是让它浏览目前产品目录(或者“货架”)然后存储该目录下的产品URL供产品析取爬虫使用。

  这个可以靠Scrapinghub 开发的开源工具Frontera之类的爬虫前端辅助完成。尽管Frontera原先的目的是配合Scrapy使用的,但它其实完全是不可知论者,可用于任何爬虫框架或者独立项目。在这篇文章中,我们分享了如何利用Frontera来规模抓取HackerNews的东西。

  分配更多资源给产品析取

  由于每一个产品目录“货架”可包含10到100种产品,而且析取产品数据需要的资源要比析取产品URL更多,发现爬虫通常运行要比产品析取爬虫更快。这种情况下,你需要有多个析取爬虫来对应每一个发现爬虫。一条好的经验法则是每10万个页面分配一个析取爬虫。

  挑战 3:维护吞吐量性能

  一级方程式的目标是将车上一切不必要的载荷都剔除掉,并且以速度之名将引擎最后一丝马力都榨干,从这个意义上来说规模抓取可以跟一级方程式相比较。规模web抓取也是一样的道理。

  在析取大量数据时,在现有硬件资源条件下,你总是会想方设法要寻找请求周期最小化爬虫性能最大化的手段。这一切都是希望你能给每个请求节省下来那么几微秒的时间。

  为此你的团队需要对web爬取框架、代理管理以及所使用的硬件具备深刻理解,这样才能对它们进行调整以优化性能。你还需要关注:

  爬取效能

  规模爬取时你应该始终把焦点放在以尽量少的请求析取所需数据上。任何额外请求或者数据析取都会放缓你爬取网站的节奏。在设计你的爬虫时请记住这些提示:

  作为最后一招,仅使用无界面浏览器,比如Splash或者Puppeteer来渲染JavaScript。用无界面浏览器渲染JavaScript同时爬取是非常耗资源的,会严重影响爬取的速度。

  如果你可以从货架页面(比如产品名称、价格、评分等)获得所需的数据而不需要向独立的产品页面提出请求的话,那就不要向产品页面发出请求。

  不要请求或者析取图像,除非迫不得已。

  挑战 4:反机器人的对策

  如果你批量抓取电子商务网站的话一定会遇到采用反机器人对策的网站。

  规模小一点的网站其反机器人对策就是些基本手段(屏蔽发送请求过量的IP)。然而,较大的电子商务网站,比如Amazon等,会采用复杂的反机器人对策,比如Distil Networks、Incapsula或者Akamai等来使得析取数据困难许多。

  代理

  了解到这一点之后,任何项目想要规模抓取才数据,首要的基本需求就是得用代理。规模抓取数据时你需要可观的代理清单,而且需要实现必要的IP轮转、请求限制、会话管理以及黑名单逻辑来预防代理被屏蔽。

  或者除非你有或者愿意用一支规模可观的团队管理你的代理,否则的话你应该把抓取流程中的这一部分外包出去。提供各种水平服务的代理服务有很多。

  然而,我们的建议是找一家能够提供单个代理配置端点并且将所有的代理管理复杂性隐藏起来的代理提供商。在没有重新发明轮子、开发和维护自己的内部代理管理基础设施的情况下规模抓取就已经很耗资源了。

  大多数大型电子商务公司都采用这种做法。一些全球最大型的电子商务网站采用Scrapinghub 开发的智能下载器Crawlera,这个东西的代理管理完全是外包的。当你的爬虫每天要发出2000万条请求时,把注意力放在分析数据而不是管理代理上会有意义得多。

  代理以外

  不幸的是,光靠使用代理服务并不足以确保你能规避大型电子商务网站的反机器人对策。越来越多的网站正在利用复杂的反机器人对策来监控你的爬虫行为,检测其是否真人访客。

  这些范机器人对策不仅使得爬取电子商务网站越来越困难,而且克服这些手段如果做得不对的话也会严重拖累爬虫性能。

  这些机器人对策有很大一部分使用到了JavaScript来确定请求是否来自于爬虫还是人(Javascript引擎检查、字体枚举、WebGL与Canvas等)。

  不过正如前面所述,规模爬取时你希望限制可编写脚本的无界面浏览器(Splash 或者Puppeteer等)的使用,因为渲染页面的任何JavaScript都非常耗资源并且放慢爬取网站的速度。

  这意味着为了确保你能取得必要的吞吐量让爬虫提交每天的产品数据,你往往需要痛苦地对目标网站采用的反机器人对策进行逆向工程,并且在不使用无界面浏览器的情况下设计你的爬虫抵消那些对策。

  挑战 5:数据质量

  从数据科学家的角度来说,任何网站爬取项目最重要的考虑是析取数据的质量。规模爬取只会令这一关注变得更加重要。

  当每天都要析取数百万数据点时,想靠人工来验证数据是否干净和完整是不可能的。变脏或者不完整的数据很容易就会流入到你的数据流里面,进而破坏了数据分析的效果。

  尤其是在抓取同一个的不同版本(不同的语言、地区等)或者不同商店上的产品时更是如此。

  在爬虫开发的设计阶段,需要进行仔细的QA流程,爬虫代码要经过同行评审和测试以确保用最可靠的方式析取到想要的数据。确保最高数据质量的最好的办法是部署一套自动化QA监控系统。

  作为任何数据析取项目的一部分,你需要计划和开发一套监控系统,这套系统将提醒你任何不一致的数据以及发生的爬虫错误。Scrapinghub开发了一个机器学习算法来检测:

  数据验证错误——每一个数据项都有定义好的遵循一致模式的数据类型和值。我们的数据验证算法会提醒项目的QA团队任何与预期数据类型不一致的数据项,然后再进行人工检查、提醒已验证或者标记为错误。

  产品差异化错误——从同一网站的多个版本(不同语言、地区)爬取相同产品数据时,有可能变量或者像产品重量或者尺寸这样本该是固定值的数据项也会不一样。这可能是网站反机器人对策向你的一到多个爬虫提供篡改信息的结果。再次地,你需要算法来识别和标记类似这样的情况。

  基于数量的不一致性——另一个关键的监控脚本是检测返回记录的任何异常变化。这可能预示网站已经做出改变或者你的爬虫被提供了篡改的信息。

  网站变化——目标网站发生的结构性改变是爬虫失效的主要原因。我们的专用监控系统会监控到这一点。该工具会对目标网站进行频繁的检查,确保自从上次抓取之后没有发生任何变化。如果改变被发现,它也会发出通知。

  我们会在稍后的文章中专门讨论自动质量保证的细节。

  总结

  正如你所看到那样,规模抓取产品数据会面临一系列的独特挑战。希望这篇文章能够让你更加意识到相关挑战,并且就如何解决这些问题获得启发。

  然而,这只是本系列文章的第一部分,所以如果你感兴趣的话可以注册我们的电子邮件列表,一旦下一篇文章发表了我们会第一时间通知你。

  原文链接:https://blog.scrapinghub.com/web-scraping-at-scale-lessons-learned-scraping-100-billion-products-pages

抓取了一千亿个网页后我才明白,爬虫一点都不简单已关闭评论

如何在Windows XP中锁定计算机?

七月 19, 2018

要快捷锁定Windows XP有两种方法:一是按下“Win+l”键即可快速锁定;二是右击桌面,选择“新建→快捷方式”并输入“%Windir%\System32\rundll32.exe user32.dll,LockworkStation”,同时将它命名为“快速锁定计算机”。以后只要双击桌面上这个快捷方式图标即可快速锁定Windows XP。

如何在Windows XP中锁定计算机?已关闭评论

Windows找不到null文件是什么原因?

七月 19, 2018

可能是某个随着系统启动自动运行的软件需要调用null文件,而这个文件丢失或损坏了。

如果在C:\WINDOWS\system32\drivers\目录下找不到null.sys文件,可以从其他计算机上复制一个。

也可以从Windows XP安装光盘上恢复,具体操作就是把安装光盘放入光驱,在“开始→运行”中输入并运行“E:\i386\expand E:\i386\null.sy_ C:\WINDOWS\system32\drivers\null.sys”(假定Windows XP安装在C盘,光驱为E盘)即可。

如果问题还不能解决,尝试找出那个自动运行的软件,卸载后重新安装。

Windows找不到null文件是什么原因?已关闭评论

论数据中心技术复杂性

七月 19, 2018

在常人眼中,数据中心不过是一座摆放了成千上万台设备的普通建筑,只要有资金,有人力,谁都可以建造上几座。而实际上,一个数据中心的复杂度远超人们想象,是“贫穷限制了想象力”。数据中心几乎将世界上最先进的信息技术都集成了起来,在这里涉及到动力、制冷、通风、建筑、网络、计算、存储、布线、消防、监控等等十几个技术门类,覆盖到数十项学科的先进技术。现在很多的云计算、大数据、人工智能、软件定义也都是在数据中心里大放异彩,数据中心是这些先进技术的实践土壤,都要到数据中心来走一遭,只有经过数据中心考验的技术才是真正的技术,能够得到业界认可的技术。

关于数据中心,维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。这个定义还不够全面,几乎没有哪个定义能够将数据中心概括清楚,因为数据中心实在是太复杂了,并非用几个词语或者几句话就能概括清楚。当然,并不是一开始数据中心就很复杂,在最开始我们甚至可以将拥有几台PC的机房也可以叫做数据中心,但数据中心规模和技术都发展太快,复杂性呈几何性增长,我们讨论数据中心的复杂性都是基于当前现状来讨论的。首先,数据中心规模增长迅速,原来占地几千平米的大型数据中心,放到现在也就属于中小型数据中心,现在的数据中心动辄10万服务器,要将这些服务器都放满就得多大的建筑空间,这还不包括网络、通风和制冷等其它不可缺少的系统。一旦规模上来,所有的系统都需要适配,这个复杂不是简单地累加,而是几何倍数的增长。比如建造大楼,建设一座50层的大楼和120层的大楼成本可不是增长两倍的关系,假如建设50层大楼,平均下来3000元一平,10万平米就是3亿。120层的话,造价应该是50层楼的10倍,3万元一平,如果是30万平方米,那就是90亿,整整差了87亿。其次,数据中心是一个多功能的建筑物,并不仅仅是一些服务器的集合,要将这些服务器互联互通起来,并且让运行的应用软件平稳运行,需要做大量系统设计工作,每个设备里跑的每一条指令都有其特定的意义。我们知道仅仅以太网的RFC就有八千多篇了,没有人能将所有网络协议都搞懂,但却要在数据中心里部署很多网络协议,复杂度可想而知。登录到任意一台网络设备,都能看出至少上百行的网络配置,多的有上万行,这里的每一条配置指令都是为整个数据中心运行服务的,不可缺少,任何一个局部微小的操作都可能导致全局业务受损,为何要建设自动化运行的数据中心,其实有一个重要的原因就是靠人的经验去管理数据中心已经不可能了,只能靠机器自动管理。第三,新技术演进太快,云计算也不过才十年之久,就已经遍地开花了,大数据、人工智能甚至区块链都来了,这些技术的寄托都是在海量数据上,哪里有海量数据,就是数据中心。还有5G、移动互联网、物联网等等,哪个能离开数据中心?数据中心真是一专多能,海纳百川,无所不能,这些应用都给数据中心提出了新的挑战,数据中心的基础设施要能满足这些应用,只能不断变化调整,系统愈发复杂。第四,人们对数据中心要求越来越高,现在的数据中心全年都不能中断,每中断一分钟都会影响业务,因为很多互联网业务是24小时的都有人访问,前几天阿里云中断一个小时,全网一片哗然,阿里云也及时坦诚不公地进行了道歉。这种事情再一再二可以,不能再三再四了,反复多次的故障很容易导致大量用户流失,最终只能关门大吉,所以数据中心提供持续无中断的能力看得比命都重要,如此必然要在数据中心的各个系统中做冗余备份设计。冗余备份设计给数据中心带来的就是增加复杂性,冗余做的越多,复杂性越高,看似安全,实则危险重重。过于复杂的系统运行起来不仅效率低,甚至在故障出现时,根本无法快速准确定位,所以要在冗余和复杂性之间做取舍,选择上做好平衡。

所以,数据中心不仅包含很多系统,每个系统还都很复杂,越来越复杂,真是“贫穷限制了想象力”。现在哪个大型数据中心不是要靠几十人的运维团队才能支撑,这是一项庞大的费用支出,而且还并不能保证支持好,数据中心涉及那么多学科技术,一个人完全掌握一项都不得了,怎么可能都掌握到。数据中心每天要疲于处理各种各样的问题:应用需求、扩容、变更、升级等等,复杂性增加了这里的每一项工作,要想一点错不出很困难,这也就不难想象一个数据中心百分之八十的故障都来自人为。这么复杂的系统,没有谁能够有百分之百的把握操作能达到预期效果,不出意外。如果我们再一味这样,将数据中心按如此的方式,不断建造下去,数据中心复杂性迟早会达到人们无法想象,无法管控的阶段,让数据中心陷入无序,这样再好的技术也是白搭。数据中心复杂性已经引起了更多人的关注,很多专家和学者也在出谋划策,给出了一些超融合解决方案,试图减轻数据中心负担。现在的数据中心必须做减法,要化繁而简,不能再去一味追求规模,新技术的引入也不能增加系统复杂性,控制好数据中心复杂度,以免失控。

论数据中心技术复杂性已关闭评论

企业越来越信任云计算,但仍必须验证

七月 19, 2018

仅仅在几年前,很多企业IT高管怀疑云计算能否取代他们可靠的现场服务器。

专家在日前关于政府使用云计算的小组讨论会上表示,随着技术的发展,云计算服务提供商遵守严格的安全标准,这种担忧已经在很大程度上消散。

根据美国国土安全部首席技术官办公室战略技术和架构主管SaraMosley的说法,三年前,各机构正试图回答有关云计算的基本问题并确定潜在的使用案例。

Mosley在由BMC联邦交易所主办的活动中表示,“如今,他们知道有什么,他们知道可以在云中做些什么。”

她表示,在许多情况下,文化变革是由低层雇员或“特派团所有者”领导的,他们希望能够更敏捷地获得面向公民的应用服务。

这也是CACI国际公司副总裁兼部门经理Gene Hayman观察到这一转变的原因。他说,,“支持使命的现场人员看到了云计算的价值,他们希望更加敏捷,能够触手可及获得信息。”

然而有时候,使命所有者仍然坚持拥有自己的基础设施的想法。但美国中小企业管理局副首席信息官GuyCavallo明确表示,去年美国遭遇三次飓风袭击时,他愿意重新考虑该机构典型的救灾模式。

灾难发生后,SBA必须管理大量的额外贷款处理,传统上这意味着要为派往该领域的员工购买数千台计算机。“当面对这样的事情时,美国中小企业管理局的传统模式就是购买硬件。”Cavallo解释说。

当风暴袭来时,该机构正在进行其初步云实施,并决定推动云实施。因此,虽然美国中小企业管理局的贷款处理器仍需要将笔记本电脑带入灾难区,但使用基于云计算的虚拟服务器和台式机无需在总部的美国中小企业管理局网络上投入昂贵的新基础设施。

Cavallo说,“但我们知道当风暴后的贷款处理工作结束时,我们会拥有数十万美元的硬件,为下一场灾难做好准备。”他补充说,云计算方法还允许部署得更快。

尽管云计算已经证明了它的实用性、敏捷性和可扩展性,但专家们强调了安全性的重要性。

根据美国卫生和人类服务部门副首席技术官Ed Simcox的说法,由于使用云计算意味着供应商一度由机构员工执行任务,而确保机构云计算环境的重要部分意味着知道谁负责什么。

Simcox表示:“因为我们开始就如何推动云计算的业务开展更成熟的对话,因此非常关心治理和合规性。”

他说,寻找坚实的安全基础的一部分是部署一个云安全管理平台,使安全成为优先事项,同时还能实时监控安全和性能。

保护云计算需要机构如何思考网络安全方面的重大转变。Mosley表示,一家代理机构不能仅仅使用传统系统上使用原有的工具,因为云计算是“完全不同的环境”。

她说:“我们必须从一个以数据为中心的角度来看待网络安全,这就是IT现代化工作的一部分。”她表示,这将意味着人们更多关注内部安全问题,而不重视保护周界。

Simcox表示,尽可能部署安装专业人员是确保安全是云计算运营优先考虑的另一种方式。

“安全必须完全根植于企业的开发和运营中。”他说。

企业越来越信任云计算,但仍必须验证已关闭评论

大数据将影响每个人工作的5种预测

七月 19, 2018

大数据曾经是数据分析师和技术专家的责任,但人们正进入这样一个时代,那就是在某种程度上,每个人都需要在自己的角色中使用数据。

商业智能软件允许企业员工在不具备SQL知识或其他IT技能的情况下访问有价值的见解,这种软件已经出现,很快,数据收集、组织或管理的某些元素可能成为每个部门的一部分。营销和客户服务可以使用它来更好地了解其客户。研发部门可以用它来制造更好的产品。管理层和人力资源部门可以用它来提高绩效。

那么为什么会发生这种变化,一旦出现这种变化,商业世界会是什么样子呢?

为什么变化正在发生?

推动这一变化的推动和拉动因素有几个:

•技术成熟。数据分析技术不断发展变得更加复杂。在某些方面,这使它更加独立。软件平台可以处理复杂的背景计算,同时仍然呈现可操作的用户界面来操纵变量并输入新的数据。这项技术越做越好,用户非每天使用就越容易。

•增加了对数据分析的需求。企业渴望获得数据。他们已经看到了大数据数字运算的强大功能,并且他们想要更多的能力,在某些情况下,这意味着需要吸收更多数据,而在其他情况下,它意味着为更多样化的应用程序收集数据。无论哪种方式,对数据分析的需求增长速度都快于专家的可用供应量。

•增加数据供应。数据也变得越来越丰富。有数百种方法可以从客户那里获取和组织数据,特别是现在几乎每个国家的人口统计数据都在几乎不变的基础上使用个人设备。

•专业知识成本高。数据科学家和分析师的薪酬很高。希望获得数据分析优势的企业可能不愿意或无法为他们提供有竞争力的薪酬。因此,他们必须求助于非专家来解决一些较低级别的责任。

对未来的预测

那么一旦它完全成熟,这种变化会是什么样子呢?

•数据分析师职业地位下降。虽然对数据分析师和科学家的需求可能在未来几年仍会增长,但从中间到遥远的时间范围可能会出现这种趋势的逆转。相反,企业将寻找所有新来的候选人,以获得与数据管理相关的轻松经验和技能。这并不意味着分析师的职位会消失,但需求会明显减少。

•整合首席数据官(CDO)。真正的数据专家将负责创建数据工具,设定高级目标,采购软件平台,以及指导组织实现数据成功。因此,如今的数据分析师和科学家的职位可能会产生分化。低级职责的工作将逐步转移到其他职位,而高级职责的工作则分组并整合到一个单一的总体职位-首席数据官(CDO)。

•WYSIWYG风格的软件。网站建设曾经是专门为那些具有设计和开发技能和经验的人所负责的,但所见即所得的编辑器彻底改变了这一场景,为日常用户提供了一个直观的界面,他们可以用来完成相同的工作。人们很快就会看到数据分析平台的出现能够实现同样的跳跃。

•关于数据管理的跨部门培训。企业将负责对各级员工进行数据管理的基本最佳实践培训。这将需要对企业培训计划进行大量投资,但最终将允许这些企业将数据管理更紧密地集成到每个现有角色中。

•数据子类型将出现。无处不在的数据将导致出现不同的数据子类型,其中包括“快速数据”,可以快速收集和快速响应实时事件,以及“可操作数据”,这将推动指导的高级见解公司的未来。企业内部的不同角色将负责不同的数据子类型集合。

机器学习和自动化有可能指导数据分析的未来。毕竟,自动化非常具有成本效益,并且不太可能出错。然而,在不久的将来,即使是最好的预测分析平台仍然需要人的头脑来处理高级分析。寻找企业中几乎所有人的角色的重大变化。

大数据将影响每个人工作的5种预测已关闭评论

欧盟对谷歌的罚款,可能是对科技公司全球监管的开始

七月 19, 2018

周三,欧盟对谷歌处以43.4亿欧元(约合50.6亿美元)的反垄断罚款,原因是谷歌的移动操作系统安卓的反竞争行为。这是欧盟委员会有史以来规模最大的反垄断罚款,超过了此前创下的24.2亿欧元的纪录——这也是针对谷歌的,因滥用其搜索引擎的主导地位而被罚款。

  问题在于,谷歌如何利用安卓系统的激增来巩固其他的服务,特别是搜索服务,安卓在全球超过80% 的智能手机上运行。 作为免费使用安卓系统的交换条件,谷歌要求手机制造商预装谷歌的应用程序和服务,比如搜索和 Chrome 浏览器。 欧盟委员会的监管机构认为,这扼杀了与其竞争的应用程序和服务。

  此外,根据欧盟委员会的决定,谷歌已经阻止手机制造商安装替代版本的安卓。安卓是一个开源操作系统,这意味着其他公司可以自己制作定制版本(亚马逊设备上使用的Fire OS就是一个例子)。如果制造商实际上不能使用不同的安卓版本,那么软件的开源状态实际上并不能帮助增加竞争,或者是让消费者有更多的选择。

  “这是一种非常严重的侵权行为,也是一种非常严重的违法行为,”欧洲竞争事务专员玛格丽特·维斯特格(Margrethe Vestager)在宣布这一决定的新闻发布会上说。但有一个大问题仍然存在:这个决定对谷歌和其他大型科技公司意味着什么?这可能是全球范围内对技术监管的冰山一角,欧洲一直在做美国不能或不愿做的工作。

  即使对谷歌来说,50亿美元也是一大笔钱。 谷歌的母公司 Alphabet 在2017年创造了近1110亿美元的收入,其中约320亿美元来自谷歌部门。 这一年 Alphabet 公司的利润总额达到了126亿美元,其中50亿美元相当于其年度净收入的40 %。

  尽管如此,与Alphabet的整体财务状况相比,这个数字并不算多。尽管谷歌还因美国税法的变化而一次性支付了99亿美元的费用,但谷歌的成功在于它不断增长——其净收入比2016年增长了20 %,与前一年几乎持平。和其他大型科技公司一样,谷歌坐拥巨额现金:大约1020亿美元,其中628亿美元在国外。谷歌要为这两项反垄断罚款支付80亿美元——谷歌对第一项决定提出上诉,并表示有意对新的决定提出上诉——与其说是一场生死存亡的危机,不如说只是一种麻烦。Alphabet的股价在欧盟宣布罚款后仅小幅下跌,这表明投资者并不十分关心此事,至少目前如此。

  但长期的不确定性是存在的。其中之一就是这项决定将如何影响谷歌的业务,以及这种影响可能对技术产业和使用其服务的人产生什么影响。欧盟委员会的行动将要求谷歌停止让手机制造商捆绑其应用和服务,并允许他们销售运行在其他版本安卓系统上的设备。鉴于Alphabet的收入仍然主要来自谷歌的广告业务,而且移动是全球互联网用户的主导平台,这些默认安装的丢失可能会影响公司未来的成功。即便如此,这种改变只会影响新的安装,所以目前所有的安卓设备——超过20亿个——将继续按原样运行,谷歌的服务处于优先地位。如果其中一些用户转移到新设备,他们可能不会关闭谷歌服务。

  但是,各种新的安卓平台的可能性,可能会让谷歌放松对移动市场的控制。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在一篇名为“安卓创造了更多的选择,而不是更少的选择”的博客文章中对欧盟委员会的决定作出了回应,暗示他最担心的可能是移动操作系统被侵蚀。皮查伊认为,安卓以不同的成本和功能将移动手机变得多样化,但具有运行相同安卓软件的共同能力。当然,这正是欧盟委员会希望做的更多的事情。皮查伊强调的消费者利益的同质性也使谷歌受益匪浅。

  欧盟委员会不断加大针对科技公司的反垄断压力。正如《华尔街日报》所报道的,欧洲反垄断主管维斯塔格(Vestager)已成为美国公司“事实上的全球监管者”。谷歌一直是主要的目标。除了搜索和现在的移动决策,对谷歌 AdSense的第三次调查仍在进行中。这起案件指控谷歌阻碍了在线搜索广告领域的竞争对手。

  不过,谷歌并不孤单。今年早些时候,为欧盟委员会研究竞争问题的经济学家托马索·瓦莱蒂( Tommaso Valletti)表示,Facebook等连接消费者和广告商的其他双边市场公司也将受到审查。欧盟委员会因Facebook在2014年收购WhatsApp时提供误导性信息而对其处以1.1亿欧元罚款,但迄今为止,全球最大的社交网络仍未受到欧盟委员会的其他处罚。(欧洲个别国家的大型科技公司都受到调查:英国因剑桥分析公司而对Facebook罚款50万英镑,德国则因用户协议条款而对该公司进行调查。)

  我们有理由认为,将会有更多的处罚到来。维斯塔格和她的团队早在去年反垄断浪潮来袭之前,就一直在调查科技公司违反欧盟反垄断法的行为。在美国,剑桥分析丑闻、打车巨头Uber的一系列危机、持续不断的日益严重的数据泄露事件以及更广泛的“技术反弹”等事件大多被视为道德困境:技术公司如何侵犯用户和公众信任。

  然而,这种反弹的后果并不严重。马克·扎克伯格(Mark Zuckerberg)今年春天在国会作证后不久,Facebook已经摆脱了大部分审查;该公司的股票正在接近历史新高。亚马逊令人质疑的劳动力和竞争行为引起了一些人的愤怒,但即使公司网站崩溃,Prime Day销售也创下了纪,。联邦贸易委员会和司法部是美国处理反垄断问题的主要机构,在本届政府和巴拉克·奥巴马(Barack Obama)执政期间,基本上没有插手这些公司的事务。

  对于那些希望看到行动,而不仅仅是谈论美国技术产业在全球带来危害的人来说,欧洲的做法可能是最好的选择。维斯塔格对谷歌的两次制裁可以说是令人瞠目结舌、破纪录的罚款。但它们可能是更大、更广泛和更持久的行动的热身。

欧盟对谷歌的罚款,可能是对科技公司全球监管的开始已关闭评论

云计算安全,谁说了算?

七月 18, 2018

如今,英国几乎所有(88%)组织都采用了云计算技术,这与2012年相比大幅增加,当时只有一半以上。这不可避免地导致了存储在云中的客户数据量的增加,以支持从在线服务和网站到销售和基础设施的所有内容。保持这些数据安全对于企业的顺利运营和客户保护至关重要。

然而,许多组织在云平台中仍在没有很好地保护他们的数据。例如在去年,Verizon公司存储在的AWS公司服务器中的600万个客户详细信息对外泄露。这只是企业迁移业务的一个案例,却没有很好理解如何正确保护其数据。使问题进一步复杂化的是,企业通常跨多个云平台运行,例如AWS、微软Azure,Google等,每个云平台都有不同的安全流程和协议。

更糟糕的是,许多组织似乎不愿意解决目前的问题:三分之一(34%)的人认为组织自己有责任在云中保护他们的数据,而三分之二(62%)的人认为,云计算提供商要对客户的数据负责。由于不到一半(46%)的企业明确定义了保护云中机密或敏感信息的角色和责任,显然很多企业都在努力让自己的数据井然有序。

负责云计算安全

通用数据保护条例(GDPR)在今年5月25日开始实施,这迫使云安全的所有权牢牢掌握在企业手中。根据该规定,如果任何无担保的欧盟客户数据遭到入侵、被盗或放错位置,无论是内部存储在数据中心还是云中,持有该数据的企业都将被追究责任。

没有充分措施保护数据的组织在监管机构发现之后将受到巨额罚款和法律诉讼。此外,超过三分之二的客户(70%)将在违规事件后放弃与其供应商的合作。那么,组织可以做些什么来避免这种情况呢?

需要的是组织的领导力。虽然云计算服务本身通常是安全的,但安全配置和使用它们的任务通常由组织的IT管理人员、开发团队甚至业务经理负责。但是,围绕谁应该实施云计算安全的这个问题比较混乱,将会让数据缺乏保护。组织现在必须在他们使用的任何云平台中完全拥有安全性。

必须为企业董事会指定一名负责人(例如首席信息安全官),需要向企业其他高层管理人员阐述数据安全的重要性,并在发生违规时对数据安全负责。这可以确保企业获得董事会的支持,广泛推广云计算安全策略,并教育员工具有良好的网络安全措施和习惯,从而最大限度地降低内部风险。

一旦这位负责人被任命为企业董事会成员,就必须着手确保云平台受到保护。以下是帮助解决这个问题的六个步骤:

云计算安全的6个步骤

(1)了解自己的数据

在实施任何网络安全策略之前,企业必须首先对自己的数据进行审计。这有助于他们了解所收集或生成的数据,以及最敏感和最有价值的数据所处的位置。如果企业不知道他们拥有和生产什么数据,他们甚至无法开始保护它。在欧盟实施的通用数据保护条例(GDPR)监管下,如果发现的任何数据未使用,企业还必须确保安全地删除。

(2)必须保护所有敏感数据

虽然企业限制谁可以访问敏感数据至关重要,但是广泛使用的技术(如加密技术)将确保在未经授权的人员访问时不能使用这种技术。

因此,在这个步骤发生之前,企业必须了解其最有价值数据的存储位置。也许在他们自己的服务器上、在公共云中,或在混合环境中,但无论数据在何处,都必须始终使用加密等协议来保护数据。

(3)安全存储密钥

加密数据时,会创建加密密钥。这些密钥是解锁和访问加密数据所必需的。因此,企业必须确保安全地存储这些密钥。

通过异地存储物理密钥,有助于确保它不能链接到云中的任何加密数据。加密仅与所采用的密钥管理策略一样好,并且企业必须将密钥保存在安全位置,例如远离数据本身的外部系统,以防止它们被窃取。

(4)引入双因素身份验证

接下来,企业应采用强大的双因素身份验证,以确保只有授权员工才能访问他们需要使用的数据。

双因素身份验证涉及个人采用他们拥有的东西保护自己的账户,例如智能手机上的消息。以及他们知道的东西,比如密码。这比单独依赖密码更安全,因为密码很容易被黑客窃取。

(5)始终安装最新的补丁

随着漏洞和缺陷的出现,硬件和软件不断被其供应商修补,以防止黑客利用它们。许多企业不能足够快地安装补丁或使用不再接收常规补丁的软件。NetMarketshare公司的数据显示,尽管已停止使用补丁,但20个组织中仍有一个组织在使用WindowsXP。企业必须在可用时安装补丁,以避免成为黑客轻松攻击的目标。

(6)评估并重复

一旦企业实施了上述步骤,就必须对进入其系统的所有新数据重复每个步骤,这至关重要。网络安全和通用数据保护条例(GDPR)合规是一个持续的过程。这些步骤最终将有助于使企业的数据对于攻击者不具有吸引力或不可行,即使在发生违规行为时,他们也无法使用、窃取或保留他们的数据以获取赎金。

由于任何数据泄露事件会带来巨大的是影响和损失,因此声誉和财务成为目前企业开展业务的重中之重,对企业来说,对数据拥有完全的所有权从未如此重要。

由于欧盟已经颁布实施通用数据保护条例(GDPR),消费者拥有比以往更多的数据权利,组织的管理人员必须提供网络安全策略,并教育员工应对所面临的网络风险。

云计算安全,谁说了算?已关闭评论