如何java抓取淘宝商品详情实时库存

PHP实现采集抓取淘宝网单个商品信息
投稿:junjie
字体:[ ] 类型:转载 时间:
这篇文章主要介绍了PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下
调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。
file_get_contents(url) 该函数根据 url 如
将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!
具体实现方法:(获取500图,名称,价格,属性及商品描述)
$text=file_get_contents("/item.htm?id="); //将url地址上页面内容保存进$text
A.获取500图:
preg_match('/&img[^&]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^&]*&/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;
B. 获取名称:
preg_match('/&title&([^&&]*)&\/title&/', $text, $title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓&title&标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)
C.获取价格:
preg_match('/&([a-z]+)[^i]*id=\"J_StrPrice\"[^&]*&([^&]*)&\/\\1&/is', $text, $price);
//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;
$price=floatval($price);//放入数据库估计还有转一下变量类型
D.获取属性:
这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如
&div id=”xxx”&
这样特定div中有未知n个&&标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/&([a-z]+)[^&]*&([^&&]|(?R))*&\/\\1&/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…&div&…&/div&标签后面不是&/div&&div id=”description”&就是&/div&&div&,所以我们可以采用变通法达到获取属性标签内容的目的。
preg_match('/&(div)[^c]*class=\"attributes\"[^&]*&.*&\/\\1&/is', $text, $text0);
//这个正则会抓取&div开始到整个页面最后一个&/div&标签,当然我们属性标签就在这个的前面部分。
$text1=preg_replace("/&\/div&[^&]*&(div)[^c]*id=\"description\"[^&]*&.*&\/\\1&/is","",$text0);
//匹配到&/div &&div id=”description”&至最后&/div&然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。
$attributes=preg_replace("/&\/div&[^&]*&(div)[^c]*class=\"box J_TBox\"[^&]*&.*&\/\\1&/is","",$text1);
//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。
E.获取描述:
通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。
好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“&div id=”detail”& &/div&
&div id="description"&
&div id="J_DivItemDesc"&描述加载中&/div&
这几个div是加载描述所必须的,那么下面就是写代码了:
preg_match_all('/&script[^&]*&[^&]*&\/script&/is', $text, $content);//页面js脚本
&$content=$content[0];
&$description='&div id="detail"& &/div&
&&&div id="description"&
&&&&div id="J_DivItemDesc"&描述加载中&/div&
&&&/div&';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。
您可能感兴趣的文章:
大家感兴趣的内容
12345678910
最近更新的内容
常用在线小工具博客分类:
最近写一个出版社的投标文件,其中涉及到线下ERP系统需要与淘宝店铺库存进行实时同步,所以将当时的解决方案和大家分享下,也方便以后查阅使用。
目前此项目存在库存不统一的问题,随着信息时代的发展,销售渠道也日益多元化。目前此项目存在线下零售、线下批销、线下代销、网络零售、网络批销等多种模式的销售,库存信息很难统一管理。 对于网销来说,当客户拍完商品并且付款之后,商家如果没有库存无法发货,会破坏买家体验,导致客户纠纷甚至损毁商家信誉。 此项目目前存在上述描述的问题,即纸书的最新库存存储在ERP系统中,ERP系统中库存发生变化后,不能够实时同步到淘宝、当当等商城,而需要手工修改。在本次电子商务平台建设中要解决淘宝、ERP系统、电子商务平台中库存实时同步的问题。
我们的解决方案是:ERP系统当中库存发生变化后,系统实时同步天猫、电子商务平台中的库存。 因为淘宝为库存同步提供了对应的接口,所以ERP系统中库存发生变化后,系统调用淘宝的接口,实时同步商品的库存即可。 以下主要针对多种销售渠道模式的库存同步给出解决方案,场景根据销售点的数量分为:一个销售点,多个销售点。
一个销售点
一仓一店: 一个实体仓库对应一个淘宝店铺。 优点:逻辑简单,不易超卖多仓一店: 多个实体仓,对应一个淘宝店铺。 采用一仓一店的逻辑处理,摆放商品时尽量不要将同型号商品分仓摆放
多个销售点
一仓多店: 方案1:多店采用同一套库存,即淘宝多个店显示相同的商品数量,需设置警戒值,当库存数量低于警戒值时,将所有商品下架处理。 优点:多店统一库存。 缺点:当店铺较多时,库存同步压力大,由于每次更新库存的销售点多,出错率相对增加,无法最大化销售库存。 方案2(推荐方案):类似一仓一店,使用虚拟库存,采用库内调拨的方式补货。 优点:用API向淘宝同步ERP实时库存时,降低出错率。 缺点:当店铺较少时,管理相对较繁琐。多仓多店: 化繁为简,推荐结合前面两个场景的实现方法。
文章作者: 本文地址:
浏览: 337526 次
来自: 广州
推荐一款轻量开源的支付宝组件:https://github.c ...
太好了,非常有用,谢谢分享~
http://www.atool.org/json2javab ...
这样只要是手机登录了微信的用户。扫描二维码后都可以登录进入网站 ...
好文章,收藏~\(≧▽≦)/~啦啦啦当前位置: >
> 两叶草淘宝实时上架提取工具(淘宝新店提取器) v1.1 免费绿色版
两叶草淘宝实时上架提取工具(淘宝新店提取器) v1.1 免费绿色版
淘宝店铺提取工具下载
软件大小:323KB
软件语言:简体中文
软件类型:
软件授权:免费软件
更新时间:
软件类别:网络辅助
软件官网:
应用平台:
网友评分:
软件介绍人气软件下载地址相关文章
RouterPassView(路由器密码查看器),大多数现代路由器允许您备份到一个文件路由器的配置,然后从文件中恢复配置时的需要不少人都了解自从Google谷歌服务器从国内转移走了,导致原本的Google网页打不开了,最好的方式就是选择谷歌访问助手插件,需要的朋友们可以下载一个可以刷票的软件工具。可根据选手编号智能选择投票对象等功能。需要的朋友们可以下载sniffer pro即sniffer抓包工具是一个功能强大的网络抓包和协议分析工具,此为中文版,使用更加方便。如果想成为一个合格的网管,就必须拥有这么一套好用的网络协议分析软件花刺代理验证(ProxyThorn,免费软件) 是为方便大家使用代理浏览国外网站,为提高大众网用户浏览科研教育网的速度,参照&代理之狐&设计的本程序采用的是win7自带的虚拟热点的技术,可以把无线网卡虚拟成一个类似无线路由那样的设备,提供给其他移动设备来连接(比如手机,pad,psp什么的),所有核心命令都是wiIE高级修复,还原IE各项设置,让你的IE瞬间恢复原貌。支付宝转账截图软件可以轻松完成以下转账全过程截图,包括支付宝电脑-》支付宝;支付宝电脑-》银行卡;支付宝手机钱包-》支付宝switchysharp是GoAgent配合谷歌浏览器中使用的一个插件,使用时注意将本拓展(.crx)拖至扩展页(chrome://extensions/)淘宝350客户端是一款非常强大的装修淘宝店铺的助手,淘宝350客户端是一个适合新手、无需懂代码就可以装修淘宝店铺的淘宝店铺一键装修软件,需要淘宝350客户端的朋友们可以
两叶草淘宝实时上架提取工具(淘宝新店提取器) v1.1 免费绿色版
CopyRight &
JB51.Net , All Rights Reserved天猫淘宝库存监控
实时监控网络畅销手机所在天猫 & 淘宝 & 京东 & 易迅 & 一号店&苏宁 & 拍拍 &亚马逊&唯品会等平台实时库存情况!!
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【各类常用链接-点击进入】&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【小米&&&天猫库存监控/现货】
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【小米&&&淘宝直营店库存监控/现货】&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【华为&&&天猫库存监控/现货】
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【华为&&&淘宝直营店库存监控/现货】&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【魅族&&&天猫库存监控/现货】&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
?-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&-&&
【魅族&&&淘宝官方体验店&库存监控/现货】&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&}

我要回帖

更多关于 淘宝抓取商品软件 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信