政府机关内部通讯录采购单机数据采集要注意什么？

点击联系发帖人 时间：2017-08-11 16:58

如何采集数据

关于政府采购的问题，财政已审批完，允许自行采购的机关单位，自行采购时需要招标、询价、还是直接买就行？-关于政府采购分散采购 _最新参考文摘
没有你要的？请搜索……
你现在正在浏览：
关于政府采购的问题，财政已审批完，允许自行采购的机关单位，自行采购时需要招标、询价、还是直接买就行？关于政府采购分散采购
关于政府采购的问题，财政已审批完，允许自行采购的机关单位，自行采购时需要招标、询价、还是直接买就行？
于政府采购目录并达到限额以上的部门集中采购项目，由单位自行组织，按照政府采购规定的采购方式进行采购，必须履行招标或者竞争性谈判或者询价等程序，不能直接购买
可以向当地的政府采购管理部门咨询是采用那种采购方式，以及是否找代理机构帮走采购程序。到了这一步允许自行采购是指不需要通过集中采购中心，采购单位可以自行决定采购方式
按照政府采购法和政府采购目录及限额标准来判断，财政审批时已从五种采购方式中选择了合适的一种方式，不能直接购买。
关于政府采购的问题,财政已审批完,允许自行采购的机关单位,自行采购时需要招标、询价、还是直接买就行?...：
允许自行采购是指不需要通过集中采购中心,采购单位可以自行决定采购方式,以及是否找代理机构帮走采购程序...
政府采购代理机构资格必须经各级人民政府财政部门负责审批认定,这句话错在哪里啊：
“政府采购代理机构资格必须经各级人民政府财政部门负责审批认定”的说法是错误的,因为政府采购代理机构资...
我们是事业单位,是不是采购所有固定资产都要经过政府采购部门和财政局审批?：
这个我以前接触个单位是5000以上就要审批每个地方不一样这你最好问你们领导或者同事事业单位里...
财政局政府采购管理科分别都有什么科：
采购管理科就一个科,具体负责政府采购计划审批、采购监管等事务。其工作人员一般不会太多,如果人手多,可...
政府采购:行政事业单位的零星采购还要走政府采购程序么?：
你可以查看当地省财政厅发布的《年度省政府集中采购目录及采购限额标准》文件。例如山西...
也许你也感兴趣的内容&p&是的，这类问题在文本分类中大量存在，而且很棘手。比如垃圾邮件分类就是一个典型的例子。原因是文本分类往往是以全部可能的自然语言作为采样空间的，这个空间极其巨大，而我们所关心的问题往往只是其中一个非常小的子集。自然的，在这样的情况下，模型非常难以学到正确的决策边界。&/p&&p&完全消除数据不平衡带来的问题是非常困难的，但是有一些办法可以进行缓解。对应这样的问题，我觉得可以从以下几点来考虑。&/p&&p&首先，我们要&b&明确对于precision和recall，我们的需求是怎样的&/b&（硬广一下这一篇&a href=&/question//answer/& class=&internal&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/question/3064&/span&&span class=&invisible&&3044/answer/&/span&&span class=&ellipsis&&&/span&&/a&）。对于数据极其不平衡的情况，precision和recall的trade-off尤其显著。通过under-sampling/over-sampling来配平正反例是可以提升recall，但是一定会出现大量的false positive。如果我们认为错杀的成本很高，可以适当地降低对于precision的要求。反之，如果我们追求precision，那么可以采用基于规则的方式，通过对关键词的特征进行过滤，当然这样recall就会很惨。这是一个必须接受的现实。如果将这两种策略结合，最起码可以做这样的尝试：对于高precision的分类器，采取比较高信心的策略，譬如探测出来就直接报告这个用户甚至屏蔽；对于高recall的分类器，可以采取一些warning的措施，不强制做影响用户的操作。&/p&&p&可以&b&再深度的挖掘一下为什么over-sampling在这种情况下工作得不好&/b&。以smote为例，我们希望从样本及其最近邻的点的连线上选一个随机点将其作为新的样本来合成。但是文本数据（无论是用n-gram feature还是distributed representation）都是很高维度的。在高维空间的一个事实就是数据倾向于接近互相正交，故而两两不相近，所以采用NN的思想来做up-sampling，效果是不会太好的。&/p&&p&并且，&b&我们在分布式语义表示中所假定的“连续语义空间”，也许并不能很好地反应语言的现实状况&/b&。诚然，如果是语义离得很远，一般而言很难意思相近。但是有时候，对于特定的应用来说，譬如题主提到的色情低俗识别，边界是很模糊的，就像“色情”和“情色”之间的界定，实际上相当暧昧。但是这在词向量上是很难体现出来的。&/p&&p&直观一点的体现，就是可以想像，如果你对一幅照片进行高斯模糊，那么多半我们还是能看得出这幅图的大概，只是细节变得不清晰了。&/p&&p&但是如果对一个句子的tensor做类似的操作，再decode出来，估计就面目全非了。&/p&&p&所以呢，我觉得题主可以考察一下以下几个点：&/p&&p&－&b&正样本的数据，是否能够公正地代表正样本的分布？是否有明显的属于正样本但是没有包括进来的例子？&/b&很大可能，需要补数据。如果真的是缺乏正样本数据的话，用什么办法都很难了。&/p&&p&－&b&针对正样本产生一些较为相似／易于混淆的负样本，并利用这些样本来训练一个分类器（在决策边界附近填充一些数据）&/b&。&/p&&p&－&b&做一次聚类分析&/b&。可以考察，其中是否有一些cluster明显的不包含正样本。我们是否可以先做一个粗的分类器，将这一些样本分开，然后再看剩下来的数据是否不均衡的状况会减轻很多。在剩余的数据上再做一个分类器。&/p&&p&－&b&如果是采用DNN，有一些tricks可以一定程度地缓解数据不平衡的问题：1) 在随机选择mini batch的时候，每个batch中正负样本配平；2）对于正样本，给予更高的学习率&/b&&/p&&p&－&b&训练一个生成模型，仅仅是针对正样本&/b&，这样可以最大限度地学习到正样本的特征，在开放域的效果往往优于判定模型&/p&&p&能想到的暂时这么多，欢迎大家补充。&/p&&br&&p&&i&本回答来自Emotibot机器学习科学家马永宁。&/i&
是的，这类问题在文本分类中大量存在，而且很棘手。比如垃圾邮件分类就是一个典型的例子。原因是文本分类往往是以全部可能的自然语言作为采样空间的，这个空间极其巨大，而我们所关心的问题往往只是其中一个非常小的子集。自然的，在这样的情况下，模型非常…
&p&谢邀。我没有在国内的智库工作过，只能分享一下之前在美国智库工作时候的一些经验。&/p&&p&智库收集数据，一般经过分析之后会有三种主要的用途：&/p&&ol&&li&作为改变公共政策的依据&br&&/li&&li&发表研究&br&&/li&&li&在公共媒体上撰文&br&&/li&&/ol&&p&对于前两者而言，数据的可靠程度非常重要。因此，大多数时候都会使用权威的数据库，比如美国人口普查局（US
Census Bureau）、美国劳工局统计数据库（Bureau of Labor Statistics）等。如果不是用这样权威数据的话，得到的结论很容易被质疑。这里来点干货吧——我自己整理了一下在智库工作期间主要用到的数据库，见此2014年写的&a href=&///?target=http%3A///blog/10& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&博客文章&i class=&icon-external&&&/i&&/a&。文中简单介绍了以下几个数据来源：&/p&&ul&&li&DataFerrett (US Census Bureau)：包括了CEX,
CPS, SIPP&br&&/li&&li&Bloomberg Terminal&br&&/li&&li&Bureau of Economic Analysis (BEA)&br&&/li&&li&Bureau of Labor Statistics (BLS)&br&&/li&&li&Quandl&br&&/li&&li&NBER&br&&/li&&li&CBO&br&&/li&&li&Pew Research Center&br&&/li&&/ul&&p&如果在公共媒体上撰文，对数据可靠度的要求会稍微放松一些。这个时候手段就会更多一点，比如引用其它研究报告，或者从各种渠道的API获取数据（免费和付费的都有）。举两个例子。我参与过的一次研究是分析美国房地产价格及是否存在泡沫，我们用的数据是来自美国最大房地产公司Zillow提供的API，包括房屋信息、房屋市场价格、租金价格等等。另外一次，我们研究公众对待竞选活动的态度，比如对某个候选人的某次造势活动是正面评价更多还是负面评价更多，用的数据是从Twitter的API获取的推特，对其做情感分析。这几个例子在智库行业可以算得上是多样化的数据源了吧，这样的项目总体来说还是比较少的，大概也就一两成左右。&/p&&br&&p&这两个例子都是与别的公司合作，也从侧面反映了智库的行业定位。智库的核心价值不在于数据采集，而在于基于数据分析产生对政策的深刻理解。所以很多时候，智库不会花很多工夫在数据采集上（因此——回答题主的子问题——一般不会有常设的数据采集员）。如果不能轻易地获得，那么就花钱问别的公司机构买呗。如果真的需要做调查问卷，智库一般也不会自己做，而是外包给Nielsen之类的公司。像写爬虫之类的方法，如果内部能够比较容易地实施，那么智库就会采用（我之前工作的时候写过一个简单的爬虫去收集一个城市所有的药店地址和联系信息）；如果很麻烦或者耗时很久，那么就外包给别人。在这一点上，方法并不那么重要，只要保证拿到有质量保障的数据就行。&/p&&br&
至于分析数据所用的工具，也十分取决于最终目的。我之前的智库用Stata最常见，但如果用R、SPSS、SAS建模能得到结果，那也一样可以。原则依旧相同：能达到目的就行。分析过程一般先由研究助理初步处理，之后由研究人员进一步深入分析。具体分工参见我的另外一篇知乎回答：&a href=&/question//answer/?from=profile_answer_card& class=&internal&&进入智库工作是怎样的一种体验？ - 符号的回答&/a&
谢邀。我没有在国内的智库工作过，只能分享一下之前在美国智库工作时候的一些经验。智库收集数据，一般经过分析之后会有三种主要的用途：作为改变公共政策的依据发表研究在公共媒体上撰文对于前两者而言，数据的可靠程度非常重要。因此，大多数时候都会…
很凑巧，都用过这两个系统。&br&简言之：这两个差别很大，使用场景区别也很大。&br&先说flume：&br&日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下，你很难推动线上应用或服务去修改接口，直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。&br&对于数量级别，做过单机upd的flume source的配置，100+M/s数据量，10w qps flume就开始大量丢包。因此我们在搭建系统时，抛弃了flume，自己研发了一套传输系统。但flume设计的source-channel-sink模式还是比较好的，我们在开发系统时无耻的也抄袭了这种方式。&br&&br&Kafka：&br&我个人觉得kafka更应该定位为中间件系统。LinkedIn开发这个东西目的也是这个初衷。可以理解为一个cache系统。你甚至可以把它理解为一个广义意义的数据库，里面可以存放一定时间的数据。kafka设计使用了硬盘append方式，获得了非常好的效果。我觉得这是kafka最大的亮点。不同系统之间融合往往数据生产/消费速率不同，这时候你可以在这些系统之间加上kafka。例如线上数据需要入HDFS，线上数据生产快且具有突发性，如果直接上HDFS（kafka-consumer）可能会使得高峰时间hdfs数据写失败，这种情况你可以把数据先写到kafka，然后从kafka导入到hdfs上。印象中LinkedIn公司有这么用。&br&&br&业界比较典型的一中用法是：&br&线上数据 -& flume -& kafka -& hdfs -& MR离线计算
或者：&br&线上数据 -& flume -& kafka -& storm
很凑巧，都用过这两个系统。简言之：这两个差别很大，使用场景区别也很大。先说flume：日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下，你很难推动线上应用或服务去修改接口，直接向kafka里写数据。这时候你可能就…
街旁的POI数据库始于一个很简单的基础库，之后全靠用户贡献和编辑审核。现在，每天都有超过2500个新的地点由用户创建，也有大量用户提交的订正请求、去重请求，每一个新建、每一条订正/去重，都会经过街旁编辑团队的审核。因为用户在街旁上记录自己的足迹日记，所以他们有很强的内在驱动力，来维护街旁的POI数据库，保证自己足迹记录的精确性。&br&&br&要从零开始创建并持续维护一个POI数据库确实是耗时耗力的工程，街旁的POI数据库通过API开放给所有开发者使用，文档在： &a href=&///?target=http%3A///doc/get/locations/search& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/doc/get&/span&&span class=&invisible&&/locations/search&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&引用自API文档中，对Locations/search的简介：&blockquote&因为用户长期的贡献与维护，街旁的“附近地点列表”拥有全面且精确的数据，覆盖的地点能很好的满足城市生活、娱乐消费、旅行等类型的应用需求。同时，街旁不断优化“附近地点列表”的排序算法，地点排序依据于历史数据和实时热度，也根据用户个人历史进行个性化调整——简而言之，你最可能去的地点会排在最前面。&/blockquote&
街旁的POI数据库始于一个很简单的基础库，之后全靠用户贡献和编辑审核。现在，每天都有超过2500个新的地点由用户创建，也有大量用户提交的订正请求、去重请求，每一个新建、每一条订正/去重，都会经过街旁编辑团队的审核。因为用户在街旁上记录自己的足迹日…
第一条建议是：去租个服务器啊，现在服务器又不贵，如果你是学生优惠多多，你要抓那么多数据的话肯定是要放在服务器上跑，放电脑上跑多累人啊。&br&&br&然后再来谈一谈说如果你真的不愿意租服务器的话。&br&&br&1、如果说要抓取的url都是有规律的，并且当你因为特殊情况停止之后可以直接从下一个url抓取的。比如：&br&&ul&&li&&a href=&///?target=http%3A///pic%3Fpage%3D1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/pic?&/span&&span class=&invisible&&page=1&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&/li&&li&&a href=&///?target=http%3A///pic%3Fpage%3D2& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/pic?&/span&&span class=&invisible&&page=2&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&/li&&li&&a href=&///?target=http%3A///pic%3Fpage%3D3& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/pic?&/span&&span class=&invisible&&page=3&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&/li&&li&&a href=&///?target=http%3A///pic%3Fpage%3D..& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/pic?&/span&&span class=&invisible&&page=..&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&.&/li&&/ul&这种情况，你只需要在每次停止的时候存储一下页码等参数即可，最方便的就是在日志里面记录一下。&br&&br&&br&2、如果可以一次性抓取所有待抓取的url，就把这些url都抓取存储到数据库中，也可以放在在redis里，抓完一个扔一个，这样下次开机的时候就接着下面的url爬取了。&br&&br&3、如果这都不行，你就每次都重头来过，不过每次爬取的时候先判断一下图片是否已经存在本地了，存在就直接跳过，不存在就下载图片。&br&&br&不管什么方法，目的只有一个：记录下最后的状态
第一条建议是：去租个服务器啊，现在服务器又不贵，如果你是学生优惠多多，你要抓那么多数据的话肯定是要放在服务器上跑，放电脑上跑多累人啊。然后再来谈一谈说如果你真的不愿意租服务器的话。 1、如果说要抓取的url都是有规律的，并且当你因为特殊情况停…
谢邀。&br&&br&其他智库我不清楚，但我实习过的德国一家经济研究机构的数据采集我是知道一些的。&br&我在这里面写过一部分： &a href=&/question//answer/& class=&internal&&在经济学智库工作是怎样的感受？ - 扣小米的回答&/a&&br&&br&我当时接触过的数据库是关于德国企业的创新数据，叫做Mannheim Innovation Panel，因为这家研究所是在德国曼海姆市（Mannheim）。&br&&br&数据包括从1993年以来每年德国企业的创新投入、创新产出、研发等等，是我见到的关于企业创新方面最详细的数据库。具体包括多少家企业我忘记了。&br&&br&采集数据的方法就是问卷调查，研究所每年都会向企业发放问卷，收集数据。维护这个数据库算是我们那个部门最重要的工作任务之一，有多位经济学家负责，并有专门的人员来负责问卷的修改、发放、收集和整理。同时共同协作的还有政府相关部门以及另外一家经济研究所。&br&&br&据研究所自己介绍，他们通过这个数据库已经完成了超过130篇的discussion paper。&br&&br&如果想使用这个数据库，需要一系列申请手续。当时我需要事先填写表格，类似于保密协定的文件，要求数据不可外泄，然后才能获取帐号密码。总之手续非常严格。&br&&br&去年我还收到研究所的邮件（当时我已经离开那里好久了），询问过去一年是否有使用该数据库发表文章的，如果有的话请告知他们。他们对数据库从收集、使用到最后的汇总做的都非常好。以至于当时有一位清华大学的教授也对这个数据库赞赏不已。毕竟现在的经济学研究，谁能够掌握高质量的数据，谁就能在科研当中占据领先位置。&br&&br&据我所知，中国关于企业创新的专业数据库基本上没有，所以这对研究中国的创新制造了不少障碍。&br&&br&另外，该研究所与中国的复旦大学一起做的关于中国经济景气指数的数据，好像也是通过问卷收集的。&br&&br&至于题主说的写爬虫收集，我就不知道了，可能也有，但应该不是主要方法，毕竟爬虫谁都能写，这就显示不出智库的优势了。而问卷调查这种需要大量人力物力获取高质量数据的方法，只有那些有钱有影响力的机构才能做到。&br&&br&我们那个部门的数据分析工具主要是stata，不过也有少数人用R或者其他工具。题主最后问是否是专业人士人工分析。肯定是专业人士分析的，也肯定是人工的，人工用计量软件分析。&br&&br&另附一个关于这个数据库的链接。同时研究所每年会发布一些关于这一数据库的公开报告，这个链接里也有下载，不过报告只有德语的，但一些图表不需要德语也能看懂。&br&&br&&a href=&///?target=http%3A//www.zew.de/en/forschung/mannheim-innovation-panel-innovation-activities-of-german-enterprises/%3FcHash%3D2f5ad528da75fc0a186a0c& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ZEW Projekt - Mannheim Innovation Panel: Innovation Activities of German Enterprises&i class=&icon-external&&&/i&&/a&
谢邀。其他智库我不清楚，但我实习过的德国一家经济研究机构的数据采集我是知道一些的。我在这里面写过一部分：
我当时接触过的数据库是关于德国企业的创新数据，叫做Mannheim Innovation Panel，因为这家…
先安装一个叫NI-VISA的软件。这个软件是National Instrument的，完全免费。&br&用编程语言操作仪表的方式类似读写文件，下面以Matlab为例来说。&br&连接仪器的方式有通过GPIB口，LAN口等多种可能，一般Keysight或RS提供的测量方案代码中都会把所有的情况一一考虑进去，不过自己做实验用的话一种方式就够了。通过LAN口连接仪表的方式为(IP地址请自己设置)：&br&&div class=&highlight&&&pre&&code class=&language-text&&pna = visa('ni', 'TCPIP::192.168.100.11::INSTR');
fopen(pna);
&/code&&/pre&&/div&常用的函数有两个，一个是fwrite，一个是query。我的理解，query相当于write and read，给仪器写入指令并且给出一个返回值，例如：&br&&div class=&highlight&&&pre&&code class=&language-text&&cal_set_name_list = query(pna, 'CSET:CAT?');
&/code&&/pre&&/div&这个会返回仪器上当前的校准文件列表。&br&我觉得相对比较复杂的命令式保存数据文件，下面的代码把当前网络的S值保存在一个CSV文件中：&br&&div class=&highlight&&&pre&&code class=&language-text&&data_file_name = sprintf('%s_%s.csv', path, scene);
data_file_type = 'CSV Formatted Data';
data_file_scope = 'Displayed';
data_file_format = 'DB';
save_file_command = sprintf('MMEMory:STORe:DATA &%s&, &%s&, &%s&, &%s&, 1', data_file_name, data_file_type, data_file_scope, data_file_format);
fwrite(pna, save_file_command);
&/code&&/pre&&/div&关闭连接&br&&div class=&highlight&&&pre&&code class=&language-text&&fclose(pna);
&/code&&/pre&&/div&其余的指令请参考帮助手册&br&&img src=&/52a50c712ee2ce75bfe13_b.jpg& data-rawwidth=&1177& data-rawheight=&661& class=&origin_image zh-lightbox-thumb& width=&1177& data-original=&/52a50c712ee2ce75bfe13_r.jpg&&手册上说的不清楚的，自己试试就明白了。&br&&br&另外：安装NI-VISA之后，再安装一个python的库py-visa就可以实现用python控制仪表了，详见地址&a href=&///?target=http%3A//pyvisa-py.readthedocs.io/en/latest/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&PyVISA-py: Pure Python backend for PyVISA&i class=&icon-external&&&/i&&/a&，用法和Matlab类似，不赘述。
先安装一个叫NI-VISA的软件。这个软件是National Instrument的，完全免费。用编程语言操作仪表的方式类似读写文件，下面以Matlab为例来说。连接仪器的方式有通过GPIB口，LAN口等多种可能，一般Keysight或RS提供的测量方案代码中都会把所有的情况一一考虑…
哇！这个问题和柳备胎最近研究的问题一摸一样&br&&br&因为实在学不会编程所以只知道一丢丢皮毛，就不献丑了&br&&br&如何采集？Python爬虫咯！&br&&br&然后正如题主所言，的确有这样的搜索引擎，DHT搜索引擎&br&&br&更多的题主可以参考这个&br&&a href=&///?target=http%3A///m/articles/MzUBfyB& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/m/articles/&/span&&span class=&invisible&&MzUBfyB&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&手撕包菜的作者开源了
哇！这个问题和柳备胎最近研究的问题一摸一样因为实在学不会编程所以只知道一丢丢皮毛，就不献丑了如何采集？Python爬虫咯！然后正如题主所言，的确有这样的搜索引擎，DHT搜索引擎更多的题主可以参考这个
手撕包菜的作者开源了
给定目标类型的页面，如何选择最有效的抓取路径？&br&如何保证覆盖率？&br&给定目标页面，如何最有效的调度，保持更新？&br&如何判断 url 不同，内容相同的页面？&br&如何在不抓回页面之前判断内容相同页面？&br&不给定目标页面，如何判断页面是否有价值？&br&如何在不抓回页面之前判断页面是否有价值？&br&如何从页面中提取数据？&br&如何理解页面上的信息？&br&&br&1、所有以上过程都由算法自动完成。&br&2、如果页面有4000亿呢？
给定目标类型的页面，如何选择最有效的抓取路径？如何保证覆盖率？给定目标页面，如何最有效的调度，保持更新？如何判断 url 不同，内容相同的页面？如何在不抓回页面之前判断内容相同页面？不给定目标页面，如何判断页面是否有价值？如何在不抓回页…
&p&说起亚马逊采集，我算实战经验非常丰富的老司机了，总体来说，想要完整、大量、精准的、稳定的采集亚马逊数据，其实并不容易，当然，这取决于你选择什么方式，工欲善其事必先利其器，好在我们有“大（八）杀（爪）器（鱼）”。&/p&&p&国内很多在亚马逊做外贸的企业对此类数据都很感兴趣，可以用来做市场研究、爆款分析、产品评论分析、竞品分析等等。&/p&&p&亚马逊数据按照区域划分：&br&1. 中文站（&a href=&///?target=https%3A//& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&）&/p&&p&2. 国际站（&a href=&///?target=https%3A//& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&）&/p&&p&&br&&/p&&p&不管是中文站还是英文站，核心的高价值数据主要有三类：&br&1. 店铺数据&/p&&p&2. 商品数据&/p&&p&3. 评论数据&/p&&p&&br&&/p&&p&先来看几张采集效果图，看看八爪鱼采集器能做到什么程度，其实这是废话，好吧，其实就是八爪鱼全部都能采集。&/p&&p&1. 采集亚马逊海外图书商品信息（样本数据截图）&/p&&img src=&/v2-b40a85dfdf2fb4bb0cf7dfd_b.jpg& data-rawwidth=&2216& data-rawheight=&734& class=&origin_image zh-lightbox-thumb& width=&2216& data-original=&/v2-b40a85dfdf2fb4bb0cf7dfd_r.jpg&&&p&2. 采集亚马逊法国服装产品数据（样本数据截图）&/p&&img src=&/v2-a3ebe77aa48cdc33d5a2c807b783b8e5_b.jpg& data-rawwidth=&2706& data-rawheight=&631& class=&origin_image zh-lightbox-thumb& width=&2706& data-original=&/v2-a3ebe77aa48cdc33d5a2c807b783b8e5_r.jpg&&&p&3. 楼主关心的亚马逊评论数据我多来几个不同的哈（样本截图）&/p&&img src=&/v2-5a233e6e3a_b.jpg& data-rawwidth=&2684& data-rawheight=&819& class=&origin_image zh-lightbox-thumb& width=&2684& data-original=&/v2-5a233e6e3a_r.jpg&&&p&&br&&/p&&img src=&/v2-11dc747fd924a_b.jpg& data-rawwidth=&2650& data-rawheight=&909& class=&origin_image zh-lightbox-thumb& width=&2650& data-original=&/v2-11dc747fd924a_r.jpg&&&p&为什么来几个不同的呢，其，实每个人关心的数据不一样，或者说每个人采集下来的数据都想按照自己想要的格式和字段保存，在八爪鱼采集器中，不仅字段和表格格式用户可以自定义，其他的也都可以，比如采集范围：按照关键词搜索采集，按照商品列表采集，按照店铺采集等；采集频率：可以立即采集、或者定时每小时、每天、每周、甚至实时采集（间隔几分钟持续采集）；采集去重：可以只采集新数据、或者采集变化的数据；导出格式：导出Excel、各种数据库、CSV、TXT、HTML、还有自动定时导出工具、API导出接口，哦，不好意思，有点扯远了。还是继续说亚马逊采集。&/p&&p&&br&&/p&&p&看了图，效果还不错，我们再来看看怎么做，最简单的方式呢，就是使用别人做好的采集规则，忘了说什么是采集规则了，你可以理解成“采集模板”，或者别人设置好的采集亚马逊数据的一个东西、有了它，你也就能采集同样的数据了，就跟别人给你一个ppt模板，你把标题和文字换掉就能改成自己的东西，里面的动画效果和配图，背景都可以套用别人的一样，拿到别人给你的采集规则呢，你改一下采集的商品URL（就是从浏览器地址栏复制出来的链接，如果你懂就当我废话，不懂问度娘），就可以采集你自己想采集的商品的数据了，当然任何地方都可以改，比如采集的字段等等。&/p&&p&先别着急下载，看完这几句下载必读：&/p&&p&1. 因亚马逊网站可能会发生变化，下载的规则以后可能过时采集不到数据，如果你发现这几个规则过时了可以给我留言或者私信，我可以给你分享新的规则。&/p&&p&2. 知乎不支持传文件，我只能百度网站了。&/p&&p&3. 最重要，采集规则文件格式为.otd文件，这是八爪鱼采集器专用的规则文件格式，下载后，还需下载安装八爪鱼采集器，然后就能打开.otd文件，或者导入到八爪鱼采集器中。&/p&&p&下载链接终于来了（我放了5个，后续再发几个，今天有点晚了）：&br&&a href=&///?target=https%3A///s/1nuXo3A5& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/s/1nuXo3A&/span&&span class=&invisible&&5&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A///s/1bptT4fH& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/s/1bptT4f&/span&&span class=&invisible&&H&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A///s/1eSCKsYA& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/s/1eSCKsY&/span&&span class=&invisible&&A&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A///s/1jIzeXl8& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/s/1jIzeXl&/span&&span class=&invisible&&8&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=https%3A///s/1eR4w5qE& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/s/1eR4w5q&/span&&span class=&invisible&&E&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&运行这些规则文件的八爪鱼采集器下载地址地址：&a href=&///?target=http%3A///%3Fzhihu& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&八爪鱼采集器 - 最好用的网页数据采集器&i class=&icon-external&&&/i&&/a&，没这个打不开上面的文件的哦。&/p&&p&&br&&/p&&p&看到这里的人我相信不仅仅想下载别人设定的规则，肯定想要自己做，希望我前面说的亚马逊不好采集的事情没有打击到你，其实真的稍微花点时间学习确实很容易，但是想要1分钟就能搞定的只能下载别人的规则。要想很容易就学会，最重要的是要掌握工具的工作原理，八爪鱼采集器可以理解成一个能模拟人上网行为的机器人，也就是你上网看数据的时候所做的所有操作，八爪鱼采集器都可以自动的做，也就是它能代替你上网看数据，同时它看数据的时候跟你不一样的是，你看了就看了，除非拿个本子把数据记下来，或者拿个excel把数据复制保存在表格，它会自动的把数据提取出来。并且按照你想要的格式保存起来，理解了这个就容易了，我们无非是要告诉八爪鱼，或者设置它按照我看数据的方式去采集数据。&b&掌握这条秘籍，你就能通关了，从明天开始整个互联网的数据都可以搬到你家数据库中了。&/b&&/p&&p&&br&&/p&&p&这个过程很简单。以我们采集某商品评论数据为例：&/p&&p&&br&&/p&&img src=&/v2-bbfa55e416_b.jpg& data-rawwidth=&2132& data-rawheight=&1286& class=&origin_image zh-lightbox-thumb& width=&2132& data-original=&/v2-bbfa55e416_r.jpg&&&p&这个图是亚马逊中国的一个书籍的商品评论，绿色部分是一条评论，红色部分是个翻页按钮，我们要做的就是设置八爪鱼先对第一页的每个评论都采集同样的几个字段如作者、星级、评论内容等，然后再点下一页，然后重复上面的动作直到最后一页。&/p&&p&我按照这个思路做了一个采集规则，给大家看看：&br&&/p&&img src=&/v2-30dc254f92dafecf8605444_b.jpg& data-rawwidth=&2548& data-rawheight=&1461& class=&origin_image zh-lightbox-thumb& width=&2548& data-original=&/v2-30dc254f92dafecf8605444_r.jpg&&&p&全部鼠标点击操作，2分钟就做完了，红色框的流程图就是按照我上面说的思路做的，绿色框展示了采集的字段，系统会自动用红色细线和背景色标出来采集的字段。下面是评论页面。&/p&&p&然后点击上面的保存并启动按钮，49秒内，你就会看到数据唰唰唰的采集下来了，每次我都很喜欢看着数据唰唰唰， &/p&&img src=&/v2-eae7ea9a6a7e_b.jpg& data-rawwidth=&2398& data-rawheight=&1406& class=&origin_image zh-lightbox-thumb& width=&2398& data-original=&/v2-eae7ea9a6a7e_r.jpg&&&p&这个采集规则我也分享给大家吧，现做的还热乎哈哈：&br&&a href=&///?target=https%3A///s/1jH6qrlk& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/s/1jH6qrl&/span&&span class=&invisible&&k&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&从开始打开亚马逊复制这个商品的链接到采集完成数据绝对5分钟之内。我不是大神，你也可以的。除非你想学习编程、否则我不建议搞什么网页源代码分析，js脚本分析、网络抓包分析、正则表达式截取、都太low了。这下知道工欲善其事必先利其器不是骗人的吧，老祖宗教导我们要听的哈。&/p&&p&&br&&/p&&p&先这样吧，有啥问题大家留言，我后续再完善答案吧。&/p&&p&看了有用记得点个赞哦，长的帅的漂亮的都点了 &/p&
说起亚马逊采集，我算实战经验非常丰富的老司机了，总体来说，想要完整、大量、精准的、稳定的采集亚马逊数据，其实并不容易，当然，这取决于你选择什么方式，工欲善其事必先利其器，好在我们有“大（八）杀（爪）器（鱼）”。国内很多在亚马逊做外贸的企业…
&p&楼主问了，那我就认真的回答一下=。=&/p&&p&&br&&/p&&p&首先，我对前嗅的了解不多，身为资深八爪鱼人士来做区别分析有点欺负它的感觉=。=哈哈O(∩_∩)O&/p&&p&为什么了解不多呢，因为不值得了解(●ˇ?ˇ●)至于为什么不值得后面我会具体阐述原因O(∩_∩)O&/p&&p&&br&&/p&&p&首先，我们可以先到前嗅官网看下产品介绍：&/p&&p&文案方向大致如下：&/p&&p&软件很优秀，例如宣传所说：可视化+脚本语言+挖掘分析+内置数据库+本地采集速率超高，如图：&/p&&img src=&/v2-d37daafb12af_b.png& data-rawwidth=&553& data-rawheight=&161& class=&origin_image zh-lightbox-thumb& width=&553& data-original=&/v2-d37daafb12af_r.png&&&p&
图1 前嗅网产品介绍&/p&&p&首先，我看到这图的时候。。。&/p&&p&想起了采集界的老牌大哥火车头！！！！如图：&/p&&img src=&/v2-df31c7bdf180d_b.png& data-rawwidth=&554& data-rawheight=&300& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&/v2-df31c7bdf180d_r.png&&&p&
图2 火车头产品介绍&/p&&p&为什么会想起火车头呢。。。。因为他们都号称有以下特点：&/p&&p&1.通用&/p&&p&2.高效&/p&&p&3.超高性价比&/p&&p&4.各种支持（什么插件啦~什么数据库啦~还有自创JS脚本语言Σ(っ °Д °;)っ）&/p&&p&&br&&/p&&p&当时我看到产品介绍时我的心情是这样的，如图：&/p&&img src=&/v2-0c49bea9ad96_b.png& data-rawwidth=&261& data-rawheight=&212& class=&content_image& width=&261&&&p&&br&&/p&&p&为了不误伤，于是我找了下他们的教程看了下，前嗅网的操作页面是这样的：&/p&&p&&br&&/p&&img src=&/v2-0a9d6faecf972ed17458abe8fcf790c7_b.png& data-rawwidth=&554& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&/v2-0a9d6faecf972ed17458abe8fcf790c7_r.png&&&p&
图3 前嗅网操作页面&/p&&p&结果页面是这样的：&/p&&img src=&/v2-9bd1d4d1937b5fbb69de248_b.png& data-rawwidth=&554& data-rawheight=&391& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&/v2-9bd1d4d1937b5fbb69de248_r.png&&&p&
图 4 前嗅网结果页面&/p&&p&然后我又想起了老大哥火车头。。。。。如图：&/p&&img src=&/v2-72c3eadd69da868bd963_b.png& data-rawwidth=&499& data-rawheight=&378& class=&origin_image zh-lightbox-thumb& width=&499& data-original=&/v2-72c3eadd69da868bd963_r.png&&&p&
图 5 火车头采集器&/p&&img src=&/v2-b9b154f1fceca5c46da115_b.png& data-rawwidth=&526& data-rawheight=&416& class=&origin_image zh-lightbox-thumb& width=&526& data-original=&/v2-b9b154f1fceca5c46da115_r.png&&&p&
图 6 火车头采集器&/p&&p&当时我心里想着。。。你们说的可视化。。难道就是一个客户端，一堆乱七八糟的布局让用户去学习么。。。&/p&&img src=&/v2-0c49bea9ad96_b.png& data-rawwidth=&261& data-rawheight=&212& class=&content_image& width=&261&&&p&那我为什么不去学习python！！！&/p&&p&W3C链接：&a href=&///?target=https%3A///python/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/python/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&img src=&/v2-636bb0bec3c457c3d17d9f2e639a5287_b.png& data-rawwidth=&232& data-rawheight=&292& class=&content_image& width=&232&&&p&然后来张GIF看看八爪鱼╰(*°▽°*)╯&/p&&p&&br&&/p&&img src=&/v2-6b1dd6d2d1ead9db3aa33d1bbf657bca_b.png& data-rawwidth=&177& data-rawheight=&186& class=&content_image& width=&177&&&p&&br&&/p&&img src=&/v2-17afea6ddbc3c4_b.png& data-rawwidth=&246& data-rawheight=&328& class=&content_image& width=&246&&&p&&br&&/p&&img src=&/v2-f6008bfc8ff0a4_b.png& data-rawwidth=&228& data-rawheight=&284& class=&content_image& width=&228&&&p&&br&&/p&&p&真*八爪鱼采集动态图(⊙_⊙)(⊙_⊙)(⊙_⊙)&/p&&br&&img src=&/v2-e79d2ef585be5e141c3e3b8cf3ae2e03_b.jpg& data-rawwidth=&1910& data-rawheight=&971& class=&origin_image zh-lightbox-thumb& width=&1910& data-original=&/v2-e79d2ef585be5e141c3e3b8cf3ae2e03_r.jpg&&&br&&br&&br&&br&&br&&br&&br&&br&简不简单！！！&br&惊不惊喜！！！&br&刺不刺激！！！&br&&p&&br&&/p&&p&动图具体链接：&a href=&///?target=http%3A///tutorial/jyms.aspx%3Ft%3D1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/tutorial/j&/span&&span class=&invisible&&yms.aspx?t=1&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&所以，答案出来了。&/p&&p&我为什么不深入了解前嗅这款产品呢？因为相对与八爪鱼，前嗅网更像老前辈火车头。那么问题来了，为什么要硬拉着和八爪鱼比较呢？&/p&&p&原因很简单阿~&/p&&p&因为我们是最好最简单的采集器并且市场反响也是最好啊ヾ(≧▽≦*)oヾ(≧▽≦*)o&/p&&p&因为我们是最好最简单的采集器并且市场反响也是最好啊ヾ(≧▽≦*)oヾ(≧▽≦*)o&/p&&p&因为我们是最好最简单的采集器并且市场反响也是最好啊ヾ(≧▽≦*)oヾ(≧▽≦*)o&/p&&img src=&/v2-25e3804aabfb323dd6ff379_b.png& data-rawwidth=&477& data-rawheight=&409& class=&origin_image zh-lightbox-thumb& width=&477& data-original=&/v2-25e3804aabfb323dd6ff379_r.png&&&p&&br&&/p&&p&至于你说的其他点&/p&&p&1.采集几千万数据&/p&&p&2.支持各种插件&/p&&p&3.内置数据库Σ(っ °Д °;)っ&/p&&img src=&/v2-0c49bea9ad96_b.png& data-rawwidth=&261& data-rawheight=&212& class=&content_image& width=&261&&&p&4.文本挖掘&/p&&p&等等等，这里我就不一个一个表述了&/p&&p&为什么呢？？？&/p&&p&因为~~~~~&/p&&p&这些八爪鱼统统能做ヾ(≧▽≦*)oヾ(≧▽≦*)oヾ(≧▽≦*)oヾ(≧▽≦*)o&/p&&p&这些八爪鱼统统能做ヾ(≧▽≦*)oヾ(≧▽≦*)oヾ(≧▽≦*)oヾ(≧▽≦*)o&/p&&p&这些八爪鱼统统能做ヾ(≧▽≦*)oヾ(≧▽≦*)oヾ(≧▽≦*)oヾ(≧▽≦*)o&/p&&p&&br&&/p&&p&最后在这个吃饭我都要点外卖懒得下楼的年代，你给我整个学习曲线和编程语言差不多的产品，各位真的真的真的用心了解过用户需求吗？&/p&&p&&br&&/p&&p&最后奉上一句海贼王经典台词与大家共勉：不必回头时代在改变&/p&&img src=&/v2-beb3bfa008f1eb3125943_b.jpg& data-rawwidth=&580& data-rawheight=&380& class=&origin_image zh-lightbox-thumb& width=&580& data-original=&/v2-beb3bfa008f1eb3125943_r.jpg&&
楼主问了，那我就认真的回答一下=。= 首先，我对前嗅的了解不多，身为资深八爪鱼人士来做区别分析有点欺负它的感觉=。=哈哈O(∩_∩)O为什么了解不多呢，因为不值得了解(●ˇ?ˇ●)至于为什么不值得后面我会具体阐述原因O(∩_∩)O 首先，我们可以先到前嗅…
验证码，链接随机化，时间戳，验证身份，cookies，token，如果用户打开一个页面要2秒，你就写个js sleep(2000)，acclog识别那些1秒10次的请求源干掉，打开了第一个页面才产生第二个页面的链接，只要你知道真实请求是什么样，就能知道什么是“异常”
验证码，链接随机化，时间戳，验证身份，cookies，token，如果用户打开一个页面要2秒，你就写个js sleep(2000)，acclog识别那些1秒10次的请求源干掉，打开了第一个页面才产生第二个页面的链接，只要你知道真实请求是什么样，就能知道什么是“异常”
磁力链接中含有一个BT种子的唯一身份标识，通过这个标识可以在DHT网络中搜索到拥有这个种子资源的其他peer。&br&一个实现了DHT协议的BT客户端或是服务器叫做节点，在DHT网络中存在着许多节点，节点根据DHT协议进行通信，有四种通信内容：“你在吗？”、“你知道离某节点（逻辑上，非地理上）很近的其他节点吗？”、“你知道有人在下载某种子吗？”、“我开始下载这个种子了。”&br&&br&一个DHT爬虫就是一个功能完整的DHT节点，它在收到第三种和第四种消息时，会记录下这个种子的标识，这样就获得了一条磁力链接。&br&接下来爬虫会去找出这条磁力链接对应的种子，从中解析出磁力链接所代表的文件内容。有的爬虫直接到一些网站上去获取，另一些则自己实现了一部分BT协议，可以从其他peer那里得到种子。&br&&br&DHT爬虫在DHT协议的实现上可以玩一些把戏，以让更多更广的节点能认识自己，这样它就能收到更多的请求，拿到更多的种子标识。这种把戏玩得好的爬虫，获取信息的速度就要优于其它爬虫。
磁力链接中含有一个BT种子的唯一身份标识，通过这个标识可以在DHT网络中搜索到拥有这个种子资源的其他peer。一个实现了DHT协议的BT客户端或是服务器叫做节点，在DHT网络中存在着许多节点，节点根据DHT协议进行通信，有四种通信内容：“你在吗？”、“你知…
已有帐号？
无法登录？
社交帐号登录}

我就爱股票网