啃了这么长时间,基本上已经把某数的套路摸了个八九不离十,不愧是中国反爬界的集大成者,感觉收获满满,这里就简单记录一下分析成果。 注意:某数在不同的网站上有不同的版本,其流程也略有不同,这里的流程不一定适用于其它网站。
应答的html中,包含以下关键数据:
<meta id="9DhefwqGPrzGxEp9hPaoag">元素的content,这是加密后的数据,里面包含字符串映射表、全局方法映射表、加解密算法密钥等;注意有些网站的meta.id不同<script r="m">的元素,其中有一个是外部js链接,另一个则包含引导JS代码段,后面称为bootstrap.js。这段代码是动态生成的,每次请求均不相同。如果应答中包含FSSBBIl1UgzbN7N80T的cookie,保存起来,后面更新此cookie时会用到前面的外部js链接,其实内容是静态的,可以预先拿到并保存起来,里面的关键代码是:$_ts.FxJzG50F = '......';
这个FxJzG50F的值就是加密后的核心JS代码段,后面称为main.js。这里比较奇妙的是:虽然加密后的内容是固定的,但是解密出来的JS里面的变量名、方法名、方法顺序却是随机的!执行bootstrap.js,包含以下关键步骤:
把常用值、常用方法赋值给全局变量,以迷惑黑客,比如_$wy = window; _$wG = undefined; _$a1 = String.prototype.charAt获取页面中的meta的content,分若干步骤解密之,这会在window中添加一堆全局变量和全局方法,包括所有的常量字符串映射获取window.$_ts.FxJzG50F的值,结合meta中的数据,生成核心JS代码即main.js执行main.js,这里的步骤就太多了,罗列一些关键的吧:
继续从meta中解密一部分关键数据在以下事件上挂钩子,以记录用户行为: 鼠标事件,触屏事件,键盘事件,输入事件,滚屏事件,加速器事件,屏幕方向改变事件,电池充电事件,窗口隐藏/显示事件另外,按键、点击、滚屏等事件的钩子函数同时也会更新FSSBBIl1UgzbN7N80T的cookie值在以下网络请求相关对象或方法上挂钩子,令其在发起请求时后面自动添加MmEwMD参数: ActiveXObject, XMLHttpRequest, Request, fetch, HTMLFormElement.submit关键方法检测,测试eval等几个方法是否被替换成非native版本添加一个频繁执行的定时器,其作用是检测debugger语句是否生效,如果生效说明有黑客在调试检查selenium, webdriver, PhantomJS, HeadlessChrome等自动化框架的特征检查浏览器类型,收集浏览器特征,收集渲染器特征执行WebGL 3D渲染测试,执行Canvas 2D渲染测试,目前看其测试结果并未实际使用,但不排除其它网站会使用此数据标识浏览器指纹添加一个50秒的定时器,其作用为更新FSSBBIl1UgzbN7N80T的cookie值对FSSBBIl1UgzbN7N80T cookie值进行首次更新根据其内容可知,某数的后端是可以知道请求来源于何种浏览器,用户点击链接前有何行为等,这样他们可以做到:
验证是否大量请求来源于相同特征的浏览器有选择的禁用某些浏览器给用户行为存疑的来源下毒