最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

如何抓取天猫和淘宝的运营数据?

[复制链接]
跳转到指定楼层
楼主
发表于 2015-3-3 10:33:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的。根据百度百科的定义:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。不过,淘宝为了屏蔽网络爬虫对自身数据(例如商品价格、月销量、收藏量、评价、月成交记录等等)的抓取,往往是采取一种名叫Ajax的技术,在网页加载完成后,再次加载这些数据,所以通用的网络爬虫抓取技术对抓取淘宝的这些数据是无效的。针对淘宝本身的特点,天猫、淘宝数据抓取的技术无外乎以下四种技术:


1、通用的网页解析技术,适合解析一些常见的数据,例如:关键词排名数据的抓取、宝贝标题、宝贝下架时间等等。

2、通过浏览器插件技术:无论是IE、火狐(Firefox)还是谷歌浏览器(Chrome),都有自己的插件技术,淘宝无论如何增强反爬虫技术,最终总是要在浏览器里按照正常的数据格式显示出来的,所以等这些数据(例如商品价格、月销量、收藏量、评价、月成交记录等等)在浏览器里正常显示后,那么通过浏览器插件接口就可以抓取到这些数据了。有的公司就是这么做的。

3、做一个客户端,在客户端里模拟一个浏览器,模拟用户搜索,还是那句话,淘宝无论如何增强反爬虫技术,最终总是要在浏览器里按照正常的数据格式显示出来的,现在很多的刷流量的工具就是这么做的。

4、通过一些网页分析工具,分析淘宝网页显示过程,找到呈现商品价格、月销量、收藏量、评价、月成交记录等等的Ajax链接,也是模拟一个浏览器请求这些Ajax链接,从而无须解析网页,直接解析这些Ajax返回来的数据就可以了。

由于淘宝对数据的抓取采取的措施越来越严,只用某一种方法有时是不能达到目的的。例如最简便的无疑是第三种,通过网页分析工具,直接找到这些Ajax调用,但是淘宝对通过Ajax链接调用的次数是有限制的,调用次数一多,触发了淘宝反爬虫引擎,就会出现弹出验证码、或者返回“你已经被反爬虫作弊引擎发现”等等申明,就会抓取不到想要的这些数据了。所以最好的数据抓取方式就是三种方式相结合。



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-10 06:07

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表