哪种代理ip采集适合用于Web数据采集

嘉兴177座变电站全部接入地县一体化电能量采集系统
&&&&新华网浙江频道11月25日电(通讯员俞清、吕舟 记者胡作华)"报文解析完成,数据采集成功,110kV南汇变电量终端接入系统!"11月下旬,随着嘉兴电力局110kv南汇变的顺利接入,嘉兴电网177座变电站的电量终端全部完成了接入工作,这标志着嘉兴电网地县一体化电能量采集系统进入了应用调试阶段。这种集中式地县一体化的创新建设模式在浙江省范围内尚属首家。
&&&&据悉,新系统规划优先采用调度数据网、专网、数字透传网络和电话通道,该系统一经启用,就将嘉兴地区范围内局属35kV及以上变电站、6000kW及以上发电厂的计量、考核点(主、副电能表)电能量信息纳入采集范围。在嘉兴范围内的177个站点均接入该系统。系统建成并投入使用后,代替了很多人工的操作和计算,能够为发策部、营销部、调度所、各分局和县市局等部门提供丰富的电能量数据的应用,为各单位做好变电所电能平衡、电量供售明细、关口电量、电厂上网电量和线损统计等常规工作提供精确可靠的数据,为智能电网建设再上新台阶提供可靠的技术支持。
&&&&嘉兴电力局此次启用的系统,按照"硬件集中、软件集成"的原则,实现了"平台统一、数据存储统一、Web发布统一、数据共享和应用集成",将嘉兴范围内的177座变电站全部接入了该系统,实现了覆盖面广、数据采集量大、建设模式新、应用部门多等的应用目标。集团企业商业智能应用趋势研究(组图)
17:23:00&&来源:赛迪网
[提要]&&赛迪顾问认为,集团企业商业智能应用未来将呈现以下三大主流趋势。企业按照SOA架构搭建一体化统一的数据采集和数据服务平台,将会拓宽商业智能采集方式,提高商业智能数据采集的效率。
  【赛迪网讯】赛迪世纪信息认为:在“两化融合”战略引导和IT战略部署推进下,集团企业加强集团管控水平、变革生产力要素进行经济结构优化调整、改善企业管理流程,需要在商业智能标准架构基础上融合新一代信息技术,整合信息数据源、优化数据信息资源结构,搭建一体化的商业智能“战略平台”,一个通过优化整合企业所有资源,变革其生产力要素结构的“管控平台”,一个更便捷为集团企业的战略决策、运营决策和基础决策服务的“感知平台”,进一步提高企业核心竞争力和改进企业整体绩效。  集团企业工业化规模效应和精细化管理效果初步显现,企业整体信息化管理水平不断提高,同样,科学决策难度也随之大大增加,商业智能应用需求迫切。在全球化视野下,企业外部商业环境发生急剧变化,竞争节奏加快,特别是集团企业,通常下属企业体量庞大,行业多种多样,经营范围业务种类更是异常繁杂,其拥有的企业信息化应用系统具有明显行业专业和技术特征,客观上提升了企业应用商业智能的动力。在信息化建设过程中,企业信息化建设工作不断深化,集团化企业积累了大量的生产运营数据,主观上加强了集团化企业应用商业智能的意愿。  商业智能的概念与标准框架  1、商业智能概念  商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。  从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。也可以把商业智能看成是一种解决方案。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。   2、商业智能标准框架  商业智能(BI)标准框架是一个基于标准化和开放式的技术和流程架构。总体来说,商业智能标准架构通过利用企业在数据库和信息化系统上的投资,为用户提供易于使用的信息,从而对数据进行呈现,为整个企业的决策提供数据支撑。  商业智能的标准架构贯穿数据采集、数据存储和数据展现三个层面。在数据采集层,标准商业智能设计要求可以广泛的访问ERP、SCM、CRM等企业数据,并可以通过运用ETL工具对ERP、SCM、CRM、PM等业务系统的数据进行抽取、转换和装载。在数据存储层,通过元数据的建立完善企业级数据仓库和多维立方体cube。在数据展现层,商业智能设计中必须涵盖众多角色、展现工具集和用户的需求,商业智能为用户提供包括定期报表、即席查询、记分卡和仪表板等展现方式,便于用户使用并提供值得信任的信息。  图 1 商业智能标准框架集团企业商业智能应用趋势  伴随着ICT技术的演进以及ICT与业务融合进程的深入,商业智能在集团企业中的应用正被不断赋予新的使命和职责。当集团企业目标发生改变时,商业智能的使命也随之变化。今天的企业正处于充满复杂性和波动性的特殊阶段,企业构建支持快速决策的、功能强大的、灵活的、开放式的企业级商业智能应用,不仅需要商业智能解决方案在对企业基础数据进行提取、转换、加载以及反向挖掘、多维分析、立体展现等方面具备完整的应用体系架构和出色的性能指标,还需要充分考虑与新技术的融合进行应用创新。  赛迪顾问认为,集团企业商业智能应用未来将呈现以下三大主流趋势。  由于企业在应用商务智能的时候必须要考虑跨平台、跨应用、跨数据源等因素,因此,有效地管理商务智能是很困难的。而应用SOA架构则是缓解商业智能数据采集困难的切实方法和有效手段。  企业按照SOA架构搭建一体化统一的数据采集和数据服务平台,将会拓宽商业智能采集方式,提高商业智能数据采集的效率。一方面,SOA架构作为开放的架构无疑具有前所未有的灵活性,可以有效集成WebService、开放数据表、存储过程,甚至可以用BPEL技术将Webservice接口和ODI程序组装成完整的业务流程,从而使SOA架构平台具备大批量数据处理能力。另一方面,通过SOA架构平台的搭建,实现ERP、BI、SCM、HRM、CRM 等企业关键业务应用系统与商业智能之间接口的标准化、规范化,并通过SOA架构平台实现数据采集和数据服务全生命周期管理以及各系统间接口的重用,从而大幅度提高数据采集和服务效率。  2、云计算技术的应用  云计算正在使我们的生活发生本质变化,下一代商业智能数据存储的应用模式很有可能会建立在动态的云计算技术架构上,通过与分布式应用、虚拟化、等云计算关键技术的结合,构建所谓的“商业智能云”,共同推动集团企业应用商业智能进行“敏捷管理”。在云计算技术架构之上,通过虚拟化技术优化,商业智能可以帮助企业实现资源全局共享和一体化运维管理,实现节能、灵活采购或者高效运维,从而让企业大规模降低运营成本。这必然会让商业智能实现更为广泛的应用。  很多集团企业已经开始致力于企业私有云数据中心的研究,旨在以统一的信息资源体系为基础,建立企业的云数据中心,从而更好地为集团企业打通信息瓶颈,应用更多的商业智能扩展服务组件服务于企业运营管理的方方面面。未来企业通过云计算关键技术的应用,在云存储方面,有望在保持源数据信息资源之间的逻辑关系的基础上进行数据信息资源优化整合,把大量传感器采集来的数据通过SOA架构平台收集到自己的私有云中存储,从而有效地解决数据存储和传递过程对象管理服务、资源目录管理和关系数据服务统一的问题。另外,在云服务方面,集团通过对下属企业和各个智能部门商业智能应用需求的收集、合并、检查和不断改进,定制出不同的商业智能Saas云应用,下属企业或者部门可以按需定制所需资源。企业管理员可以对云中资源进行配置和定义管理。使用云数据库的下属企业和最终用户不必对运行原始数据实例的服务器进行控制,也不必了解数据身在何处,商业智能云可以根据管理需要的组件进行寻址接入管理。开发人员通过Web服务请求存储和查询数据,其它工作都由商业智能云来完成。  3、BI展现终端的泛化  随着移动网络的普及,移动上网将会成为新一波超越所有先前IT潮流的新潮流,移动可视电视、智能手机、移动平板电脑,这些不同的数字化设备终端的网络应用为集团企业构建更加高效快捷的“感知平台”提供了很好的发展土壤。  据赛迪世纪信息的统计资料显示:2010年全球移动设备终端销量高达16亿部,同期国内仅智能手机的出货量就已突破4000万部。同时,移动设备终端价格和3G资费的不断下调,使得融合了ICT技术的各种移动设备成为可使用的办公终端,商业智能的终端泛化应用的技术和终端硬件条件早已具备。  移动终端设备使得集团企业领导可以随时随地掌控企业最新的发展动态,及时对企业经营做出决策。同时,移动终端设备拥有统PC无法替代的便携性、实时在线、独特的操作体验。可以期待的是,随着集团企业越来越多的企业高层领导应用移动平板电脑、智能手机等移动终端设备取代PC进行办公应用,商业智能的移动应用也将大放异彩。  图 2商业智能 “泛化”移动应用示例
来源:赛迪网中国报纸网上观
  近两年来,随着因特网热潮的不断升温,国内报纸上网的
步伐明显加快。但是,目前网上到底有多少中国报纸却始终是
个没人能说清楚的问题。
  由于笔者参与了国家社科基金研究项目“新闻传播手段的
数字化:现状透析与发展预测”课题的研究工作,需要掌握目
前国内报纸上网的基本数据,在通过各途径查询资料未果的情
况下,决定自己在网上搜索统计。这就是本调查的缘起。
  本调查主要在网上进行。采集了几乎所有主要中文搜索引
擎的搜索结果,访问了“中国公众多媒体通信网”已开通的所
有省市自治区的站点,以及数十个主要新闻网站的“报刊索引
”,然后将上述各站点的原始资料进行汇总整理。在这一过程
中,笔者成功进入了绝大部分网上报纸的主页,对其主页设置
作了些了解。
  为使调查结果明确、统一,有必要对本调查所使用的一些
基本概念加以限定。本调查所称“网上中国报纸”,指的是基
于Web发布的国内传统报纸的网络版。所谓“基于Web发布的”,
指的是通过万维网(WWW)可以浏览到的传统报纸的网络版,不
包括传统报纸通过E-mail、FTP、Telnet等手段发送的“电子报
纸”;所谓“传统报纸”,即由新闻出版署批准的、拥有正式
刊号的、在国内出版的“散页连续出版物”,其判断依据是国
家新闻出版署发布的“中国报纸出版发行简目”,因此期刊和
各类没有印刷媒体为依托的网上新闻站点不属本调查的统计范
围。本调查的截止日期是日。
  统计数据
  目前网上中国报纸的种数为273种,占1998年全国报纸种数
2053种的13.2%。
  ──有独立域名的网上中国报纸为116种,占网上中国报纸
总数的42.6%;其中,在国家顶级域名.cn下注册的85个,在国
际通用顶级域名下注册的31个(.com下的24个,.net下的6个,.
org下的1个),没有独立域名但在各网站设有主页的报纸共15
  ──上网的全国性报纸共56种,占全国性报纸种数211种的
26.5%;换句话说,全国性报纸中的四分之一强已经在因特网上
安了家;其中有独立域名的31种,占此类上网报纸的55.4%。
  ──上网的地区性和地方性报纸共213种,占全国此类报纸
1842种的11.6%;其中,有独立域名的84个,占此类上网报纸的
  ──上网的省级机关报14家,占省级机关报31家的45.2%;
其中有独立域名的12家,占此类上网报纸的85.7%。
  ──上网的晚报28家,占全国晚报118家的23.7%,其中有
独立域名的13家,占此类上网报纸的46.4%;
  ──在全部上网的国内报纸中,以都市报所占比例最大,
为48家。这里所说的都市报,指的是以城市读者为主要服务对
象的综合性报纸。此类报纸占地方报纸上网总数的22.4%,占全
国报纸上网总数的17.8%。其次是经济类报纸,包括全国性和地
方性的商报、经贸报、金融报、证券报等,共有41家,占全国
报纸上网总数的14.8%。再次是城市机关报,共39家,占地方报
纸上网总数的18.2%,占全国报纸上网总数的14.4%。
  ──就地区而言,除了青海、云南和西藏三个省区外,其
它28个省市自治区均有报纸上网;其中上网报纸最多的是,共计40家,占全国上网报纸总数的14.7%;有独立的报纸域
名15个,也居各省市自治区之首。
  主页范示的解析
  纵观目前网上中国报纸的主页设置,我把它们归结为以下
七种基本范式:
  (1)“人民”范式
  此范式以人民日报网络版为典型代表,故以“人民”命名。
其特点是,将主页分为上中下左右五个区域。上区横置,从左
至右为报名、日期、一至两则“旗帜广告”等内容;左区竖置,
从上至下依次为该网站各主页的链接标志,如子报、新闻分类、
版面分类等;右区竖置,从上至下为内设数据库,如过期报纸、
专题新闻等,还有广告及其它链接标志;下区居中,一般为版
权内容,如制作者、协办者、地址、电话、电子信箱等;中区
为主页的主体部分,所占面积最大,从上至下列出当日报纸的
重要新闻标题和内容提要。
  (2)分割范式
  此范式类似于“人民范式”,所不同的是,整个主页上的
各个区域均以滚动条加以分割,就好像在一个主页上开了好几
个窗口。如左侧的链接标志、中央的内容提要、右侧的数据库
等区域都设有单独的滚动条,可上下左右来回翻动而不影响别
  (3)提要范式
  此范式的特点是,将主页分为上中下三大部分,页面上端
为报名、日期等内容,一般为图形文件;下端为版权内容;中
间为页面的主体部分,从上至下依次排列出当日报纸重要新闻
标题和内容提要。三部分没有明显的分割标志。
  (4)日历范式
  此范式类似于“提要范式”,也是将主页分为三大部分,
上端为报名、日期等,下端为版权信息,所不同的是,页面的
主体部分不是新闻标题和内容提要,而是一个当月的日历,日
历上有提示:“请选择所要阅读的报纸日期”,点击所选择的
日期即进入该日期报纸的内容提要。
  (5)版别范式
  此范式也类似于“提要范式”,只是将提要内容换成了报
纸版别的介绍,如一版“要闻版”、二版“当地新闻”、三版
“经济报道”等,需要访问者选择所要阅读的报纸版面,然后
进入其内容。
  (6)报名范式
  此范式的特点是,整个主页只见报名,没有具体的报道内
容,一般是制作精美、色彩绚丽的图形文件,页面下方有“欢
迎光临本报站点”、“您是第xxxx位访问者”等字样和访问计
数器。在页面中央部位设有明显的进入网站下页的按钮标志,
按此标志进入报纸的内容区。
  (7)导航范式
  此范式类似于“报名范式”,主页上也没有具体的报道内
容,但除了报名以外还多了个树状结构的该站点导航标志,如
“本站介绍”、“阅读当日新闻”、“查找过期内容”、“与
我们联系”等标志,点选各标志,进入下一页。
  以上所述网上中国报纸主页设置的七种范式,以“人民范
式”最为流行,一般拥有独立域名的报纸站点,尤其是拥有子
报的大报站点均采用此范式,并且大都做得图文并茂。“提要
范式”多见于地市报的主页,简洁明了。“日历范式”和“版
面范式”常见于非日报的报纸站点,由于时效并不是这类报纸
追求的重点,这样设置也有其合理性。“报名范式”和“导航
范式”多见于行业报或对象性报纸的站点,比较醒目。“分割
范式”使用得最少,仅见少数几家网上报纸采用这一范式。到
底哪种范式更好些?这当然是“仁者见仁,智者见智”的问题,
很难形成统一的结论。就我个人而言,目前我比较推崇“提要
  我认为,报纸上网的优势在于其内容而不是形式,网民们
浏览网上报纸的目的也主要在于获得新闻而不是欣赏网页设计,
因此网上报纸的主页设置应该以简洁实用为基本原则。“人民
范式”虽好,但需要做大量的图形文件,而增加主页上的图形
文件是以降低浏览速度为代价的。就目前我国网络带宽的现状
来看,绝大多数网民是通过电话线拨号上网的,长时间地等待
大量图形文件的下载对他们来说是一件难以忍受的事情,而像
“人民日报网络版”那样拥有6兆带宽的网上报纸站点目前可谓
凤毛鳞角。因此如果网上报纸本身的技术水准还不高,但又希
望访问者能够频频回访报纸网站的话,就应该尽量少用装饰性
的图象,尽可能地把更多的新闻信息设置在主页上。
  报纸网站怎么办?
  从本次调查的情况来看,一些传统报纸尽管已经在网上安
了家,但对如何建设好这个“家”,使之吸引更多的来访者,
还缺乏认真的考虑和明确的思路。有的甚至连新闻报道内容的
更新都很不及时。当然,如何经营网上报纸是个有待深入探讨
的新课题,但是我认为,既然因特网的发展昭示着人类信息传
播手段的革命,那么作为以提供信息服务为主要职责的传统报
纸,就应该正视这场革命可能会对自己带来的冲击,以更加积
极的态度从事网上报纸经营方式的探索。
  尽管我们目前还无法确知未来的网上竞争会是个什么格局,
但是有一点恐怕应该是肯定的,那就是,网站的知名度将是网
上竞争的决定性因素。无论将来网上报纸的经营主要是依靠提
供有偿的新闻服务来维持,还是像目前传统报纸那样主要依靠
广告收入来维持,都是以访问量为基础的。而要扩大访问量,
网站为人所知是第一要素,因此树立起网上报纸的品牌声誉是
基本出发点。
  但是从本次调查的情况来看,网上报纸不太重视自身的推
介工作。其实这并不是件很困难的事,报纸上网后只要向网上
的各主要搜索引擎及各大新闻站点通报一声,报纸网络版的网
址就能传遍整个因特网。其次是没有在报纸的网络版上设置介
绍自己基本情况的主页。因特网是一个巨大的虚拟世界,报纸
上网后面对的将不再是一省一市或者一个特定行业的读者,而
是面对全国乃至全世界的网民,因此要想让更多的人知道你、
了解你、扩大在网上的知名度,你就得主动地作自我介绍,不
能期望所有访问你的网民都已经事先对你有所了解。在这方面,
《扬子晚报》网络版的做法值得借鉴。在该报网络版中不仅有
该报发展的简史,还有该报发行量的增长情况,读者构成等内
容,这对传统报纸吸引广告客户也是有好处的。
  当然,网上报纸要树立起品牌声誉仅仅让人知晓其网址和
基本情况是远远不够的,既然网民们访问网上报纸的目的在于
获取信息,那么网上报纸树立品牌声誉的关键就在于要能够向
网民们提供尽可能丰富的各种信息,不能仅仅满足于新闻报道
这一个领域。目前许多商业网站也在向提供新闻报道的方向发
展,与网上报纸形成竞争之势。由于商业网站目前尚不能独立
采制新闻,其新闻报道主要取自于各新闻媒体的站点,这无疑
对网上报纸的发展构成了很大的威胁。为此,前不久《人民日
报》等23家传统新闻媒体网上站点的负责人集会,通过了
《中国新闻界网络媒体公约》,呼吁全社会重视和保护网上知
识产权,意在遏止日益扩大的商业网站对新闻媒体网站新闻报
道内容的无偿占有。这当然有其必要性,但问题的根本解决恐
怕还得有待于相关法律的制定与完善。但是,让我们设想一下,
如果未来的法律允许商业网站从事新闻的采集与制作,或者商
业网站缴付一定的转载费用就可以使用新闻网站的内容,就像
目前传统报纸中的文摘报那样,那么网上报纸又将如何应对?
因此,我认为,网上报纸的发展不能寄希望于限制对手,而应
该致力于壮大自身。
  基于这样的考虑,我们是不是可以对网上报纸的发展思路
作个反向思维?既然新闻报道已经是网上报纸的优势了,而现
行法律又没有限制网上报纸从事其它信息的开发与经营,那么
网上报纸能不能不囿于传统报纸的思维模式,朝着信息窗口的
方向发展呢?我这里所说的“信息窗口”,指的是网上报纸应
力争把自己建设成为本部门、本地区或本行业的信息总汇。比
如,一张城市报纸的网站,除了能够及时提供当地的新闻报道
以外,还应该能够囊括有关这一城市的所有信息。如果做到了
这一点,那么你这个网站也就能在竞争中立于不败之地了。事
实上,目前有些网上报纸站点的经营现状已经显现出了这一发
展思路的雏形。比如“人民日报网络版”,除了及时提供国际
国内的新闻报道以外,还设有“历次党代会”、“历届两会”、
“国务院机构” 、“地方换届选举”、“中美关系大事记”、
“邓小平文选(一、二、三卷)”等数据库,便于网民们查询,
这与《人民日报》在我国所处的政治地位极为吻合。其它报纸
的网站是否也可以顺着这一思路,开发些新的信息服务领域呢?
  (摘自1999年第8期《互联网世界》,作者:中国社科院新
闻与传输研究所 唐绪军)
《网络文摘 》 第49期
人民日报社版权所有,未经授权禁止复制或建立镜像。登录人民网通行证 &&&
大数据时代的网络评论数据处理技术应用
沈&&艳,宋燕燕
日15:01&&来源:
摘 要:Web2.0带来了信息传播的根本性变革,信息不仅仅总量大,更体现了及时性、流动性的特点。对于信息的掌握、分析和运用,利用文本挖掘技术对网络评论的信息提取,可以说是近年来的热点领域。本文重点探讨网络评论中具有较强应用性的四种分析:主题词提取、社会网络分析、舆情分析以及情感强度分析,这四种分析都是以计算机文本挖掘为技术支持,是新闻学、传播学、营销学以及社会学研究中具有较强应用性的领域。
关键词:网络评论;文本挖掘;关键词提取;网络分析;情感倾向
一、文本挖掘的概况
1.研究意义
互联网自产生那天起就有着强大的功能,随着世界网民数量的激增,近十年来,移动互联网网民更是呈现指数级的增长[1]。在Web2.0的新环境下,基于互联网的舆论平台包括论坛、微博、微信、QQ、网络购物商业平台等所有开放平台成为巨大的信息场,这些信息不仅巨大(数据存储量已经从TB级别升至PB级别),而且体现了及时性、互动性、流动性等属性,传统的数据收集(主要指结构性数据)和舆情分析方法处理能力非常有限,也影响了有效分析网络评论的效果。有鉴于此,从纷繁庞杂的海量非结构性数据中,挖掘提取有价值的信息变得非常重要。而基于Web2.0的文本挖掘在网络营销和舆情追踪领域上,对于决策和未来趋势的预测上能够提供更加深层和丰富的信息。文本挖掘属于大数据分支领域,十三五期间,大数据应用更是提到了“助力产业升级转型和社会治理创新”的高度[2]。目前我们看到的文献大多基于计算机软件科学研究不同算法和原理,比如提出新算法或者优化原有算法,在精确度上不断改进。在商业智能研判上,比如客户产品需求、精准营销上,各个大的网络销售平台均由团队做大数据分析,数据挖掘已经比较成熟。而在社会科学领域中,比如传播学、新闻学、社会学大多依赖传统的抽样调查,如何应对新的社会发展形态,优化社会治理模式,借助文本挖掘技术对于拓展研究领域,深化研究方法均具有重要的意义。网络评论在互联网信息中直接体现用户个人态度、情感,这些信息特征是怎么样的又是怎样关联的,运用文本挖掘方法可以回答这些问题。
2.文本挖掘的特点和方法
网络评论属于文本信息,文本挖掘也称为文本数据库中的知识发现,是从大量文本的集合或者语料库中提取事先未知的,可以理解的有潜在实用价值的模式和知识[3]。在大数据应用商业和社会治理层面,人们更看重的是精准预测。网络评论属于非结构性数据,其中意见挖掘主要针对非事实性主观文本,加之中文语法的特点,这三个因素增加了文本挖掘的难度,中文文本挖掘技术至今在算法和精确度方面还在不断探索。概括而言,文本挖掘的方法主要有以下四个方面:(1)分词技术。中文分词时中文信息处理的基础,比如中科院的ICTCLAS分词系统可以提供词性标注、新词识别、用户词典等,是开源分词系统;(2)信息提取和关联分析。信息抽取的目的是抽取出指定的事件、事实等信息供用户查询使用。如新闻报道中的时间、地点、人物、关系、事件。关联分析是发现两个或者两个以上的变量取值之间存在某种规则,比如时序关联、因果关联;(3)分类分析。找出并区分数据分类的模型,以便能够使用模型预测给定数据对象所属的数据类。比如,财经新闻、社会新闻等新闻归档的应用,建立先模型(分类器),再将文档通过分类器归为某种类别;(4)聚类分析。将物理或抽象对象的集合分组成为由类似的对象组成的多个分析过程。它的目标就是在相似的基础上收集数据来分类。比如图书评论中抽取好、一般、比较差等。
二、文本挖掘的技术实现
文本挖掘技术属于计算机、数学等学科,研究主要侧重在研究技术层面,其中仅仅分词方法和算法就有十几种。目前的文本挖掘侧重在不同领域中的应用,比如在舆情领域,商业智能研判领域中。越来越多的语言或者软件的开源系统和界面友好的数据挖掘软件比如KNIME,以及在线网站玻森,只需要“拖、拉、拽”就可以实现部分的数据挖掘,所以越来越多的商业领域和社会领域可以使用文本挖掘。本文主要介绍在文本关键词提取、网络舆情分析、社会网络应用分析以及用户情感倾向分析。这四种应用通过文本挖掘可以实现,具体如下:
1.文本关键词提取。新闻学中的标题往往具有概况、总结的功能,需要新闻从业者或者读者看完全篇再归纳整理出来新闻摘要。那么在海量的文章中,在全面把握文章的中心思想的基础上,迅速(每小时至少处理50万篇文章)提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、精准排序。比如2015年李克强总理的政府工作报告,依据分词技术计算词频,可以提取出市场化、改革等关键词。这些关键词往往能反映出政府工作报告的主干特征。比如数据挖掘工具KNIME软件和Orange。另外,在线中文数据挖掘网站玻森中文语义开放平台(http:///demo)可以进行分词处理,关键词提取,形成新闻摘要。表1是Boson根据宝马车召回新闻形成的关键词提取页面[4]。
2.舆情分析应用。在海量的网络信息环境下,人们面临的问题不是信息匮乏,而是信息过载和信息噪音,所以人们关注的重心已从搜索采集的信息序化变为分析为主的信息转化。舆情信息获取的速度和质量依赖于舆情系统技术。网络舆情系统的主要功能有信息数据自动采集、文本自动聚类和自动分类、话题与跟踪。目前舆情分析主要集中在信息采集、热点问题发现和热点评估[5]。信息采集主要用爬虫Python以及Heritrix从web、博客、邮件、微博等采集数据,存储在PostgreSQL数据库中,再进行主题提取等。热点问题发现技术主要使用文本聚类分析的办法发现网络舆情热点。热点事件抽取方面主要是首先对微博数据进行预处理,去除数据中噪声信息;文本聚类有很多算法,相对传统的Single-pass和K-means规则简单比较易用[6]。舆情处理本质上是中文聚类和分类处理,关键是主要用到分词系统,Python语言调入的jieba词包,再结合各个领域的词库可以实现。
3.社会网络分析。本文介绍应用社会网络分析(关联分析)技术实现KOL(Key Opinion Leade)意见领袖查找,KOL被称为意见持有者的识别,是影响力较大的用户。意见领袖能在短时间内对数量众多的用户产生直接或间接的影响。因此,挖掘意见领袖成为了解决社交网络中许多实际问题的关键点,社会治理当中的舆论引导,特别是传播学领域中的社会网络研究(如图1所示),特别是近年来的商业上比较热门的广告投放和微商开展。比如用户属性分类方法进行意见领袖挖掘,主要依据关注度、粉丝数、发帖数以及是否认证对用户重要性进行评分,以关系为处理单位的社会网络分析方法在意见领袖识别当中应用越来越多。网络分析有了非常多的理论成果和软件分析工具,方法有随机网络、规整网络、小世界理论等,Ucinet是主要处理数据的关联规律软件,结合网络的可视化技术,用Netdraw软件进行展现,这两款软件均可以人机互动,操作比较简单。
4.情感倾向性分析。主要指的是用户评价分析,主要是态度、评价等级的测量。过程如下:抓取获得语料,其工具主要是Python网络爬虫,这是非常庞大的海量数据,将原始数据存储在PostgreSQL数据库中。不过,原始数据中有很多无用信息、重复评论等这些都是属于无效信息,所以要进行语料预处理,将PostgreSQL数据库转换成文本格式(txt)格式文件,再用停用词表进行过滤垃圾。预处理之后,开始进行分词处理,只有进行分词计算机才能找到关键词和特征词,分词技术和分词方法已经比较成熟,业界使用比较多的中文分词工具是ICTCLAS中文分词系统[8],分词工具常用的有jieba和Ansj。首先是将海量的数据通过分词找到主题词,比如购物平台上的服装评论,其中有款式、质量、物流三个主题词,按照三个主题词使用Word2Vec进行词语聚类,把语义距离相近的词归为一类,比如在预处理后的可用语料库中把时尚、休闲等归为款式一类,把正品、不掉色等放在质量一类,把块、及时放在物流一类。之后分别进行HowNet情感词典构建和程度级别词典构建以及否定词典构建,再进行主题词分类,计算得出句子情感倾向,用户情感倾向,最后分别得出质量、内容、物流情感倾向(如图1所示)。
这里需要说明,四种文本挖掘可以交叉使用,比如舆情分析中评论的情感性分析,可以通过上述第四种操作实现。不管是哪种分析,都包含数据爬取、存储、分词。
三、探讨和总结
随着数据挖掘技术在各个领域的不断扩展和深入,实际生活中,文本挖掘还可以拓展更宽更深的应用,不仅仅限于本文列举的四种。大数据变成人们生活中的思维意识离不开数据挖掘技术更多的使用,而文本挖掘可以一定程度上实现更多人的技术可能,这需要更多的团队合作,更重要的是有更多的专业交叉,比如计算机应用和社会学、传播学专业、汉语言学的交叉。
参考文献:
[1] 中国互联网络信息中心(CNNIC)发布第37次《中国互联网络发展状况统计报告》:截至2015年12月,中国网民规模达到6.88亿,互联网普及率达到50.3%,手机网民规模达6.20亿,有90.1%的网民通过手机上网.
[2] 出自2016.3月《国民经济和社会发展第十三个五年规划纲要》第二十七章:“国家大数据战略”
[3] 费尔德曼.文本挖掘[M].北京:人民邮电大学出版社,2009.
[4] .cn/hqgj/jryw//content_.html.
[5] 蔡淑琴,张静,王D.基于中心化的微博热点研究方法[J].管理学报,):874-879.
[6] 唐涛.大数据环境下舆情分析[J].现代情报,):3-6.
[7] 张莉,苏新宁,王东波.通用领域的中文意见的挖掘研究[J].情报理论与实践,):103-108.
[8] 刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,)1-4.
(责编:石思嘉(实习)、宋心蕊)
迎第十七个记者节 看优秀新闻人炼成记
   第十四届长江韬奋奖评选日前正式揭晓,在第十七个记者节来临之际,让我们走近这些中国最高新闻奖项获得者,通过数据和事迹,为您揭秘优秀新闻人修炼之路。
戳破"10万+"泡沫 自媒体如何使出真功夫
   在这个平均每100个网民就有一个微信公众号的时代,人人都是自媒体,“10万+”的光环再加上一波高过一波的估值,自媒体在资本和市场的热捧下水涨船高。}

我要回帖

更多关于 web数据采集系统 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信