云测数据可以做哪方面的AI数据标注业务?

原标题:新零售+AI,云测数据如何扮演「加速器」的角色 来源:网络

“云经济学”之父乔·韦曼乔.韦曼认为,新零售是一场技术驱动为主的变革,软硬件技术对于今天的零售业非常重要(包括仓储机器人、跟踪系统、推荐算法、用大数据进行营销和零售的分析等)。

新零售从概念发展到落地应用仅仅用了不到4年的时间。今天从商业的发展来看,各类新物种层出不穷。智慧门店、无人便利店、人脸支付、AI购物体验等。现在看来,新零售+AI将成了相辅相成的双生体。

新零售+AI双螺旋发展,驱动商业生态的进化迭代

我们从2个层面来看,一是市场层面,一是商业应用层面。

从市场层面来看:据前瞻产业研究院发布的《中国新零售行业商业模式创新与投资机会深度研究报告》数据显示,预测2022年我国新零售行业市场规模将达到1.8万亿,年均复合增长率高达115%,未来发展潜力无限。

年我国新零售行业市场规模统计情况及预测

再从商业应用层面来看:

以亚马逊的无人便利店为例,当消费者进入Amazon Go无人便利店时,安装在天花板上的摄像头和货架重量感应器会自动跟踪顾客和商品的情况,完成购物时实现自动缴费。在消费者体验角度说就是“即拿即走”。

另一个例子,优衣库的母公司日本迅销集团将启动基于人工智能(AI)的生产改革,其一直在人工智能领域进行探索。比如通过AI分析天气和流行趋势、同时还推出AI导购员等,可以预测所需的商品数量,这有利于避免生产多余产品,并有望靠AI让销量翻倍。

而国内的新零售+AI的应用也走在前头,阿里的无人超市、京东X无人便利店、腾讯也有联合不同业态在推智慧门店等。

在我们看来,新零售的本质是以“人”为核心,重构“人、货、场”三者之间关系,并形成由数据、供应链、物流、支付、金融组成的新零售生态系统。新零售+AI正形成双螺旋发展, AI有助于赋能新零售商, 变革带来整个商业生态的转变,并提升各环节效率。

AI数据是新零售“落地”的基石

我们知道人工智能应用有三要素:算法、算力、数据,其中AI数据是基石,没有数据建起来的AI应用也都是空中楼阁。AI数据要融入新零售各个价值链条及场景中。高质量的AI数据结合成熟的算法,可以帮助新零售加速智能化进程,提升用户体验,帮助企业降本增效。

这里我们围绕人货场三个层面的数据化来进行理解:

人的层面。新零售的发展,人的数据化是关键。每个人都有强标签,有其独特特征,比如其年龄、消费力、经常/潜在消费商品、购物路径、等都可以形成数据化标签,这些数据经过标注,变成“标签化”的价值数据。这样可以实现精准需求推送提供支撑。

货的层面。货的数据化将大大提高品牌商和零售商的效率。比如货架上消费者多少人拿这个商品、在哪些货品上停留时间比较长、哪些是热销货品、哪些是冷门商品等,可以给到商家精准数据判断。

场的层面。不同的场,需要不同场景数据画面。以购物中心为例,尤其是大型商场内的智能导购机器人,需要尽可能多的语音数据类型,如中文、英语、日语等,来覆盖不同消费者的“对话”需求,来提升场内消费者的用户体验。

我们一言以概之,AI可以让商家更懂消费者,让消费者更精准接触意向商品,让线下线上的场都全面活起来,而这些最重要的基础就是高质量、场景化的AI数据。

云测数据三驾马车,助力新零售“打地基”

在AI数据服务领域,国外的亚马逊、Google、微软,国内的百度、阿里巴巴、京东等一众科技巨头也在先后试水。而在高质量场景化服务模式的数据标注领域,云测数据十分具有代表性。

据智研报告显示,2018年,中国数据标注与审核行业的市场规模已达到52.55亿元。而云测数据已经成为行业的头部玩家。截止到目前为止,云测数据通过自建标注标注基地和打造专业的人工智能训练师队伍,为新零售、智能驾驶、智慧城市、智能家居、智慧金融等领域持续提供高质量的AI数据采集标注服务。

对于新零售领域的应用,云测数据在助力新零售玩家“打地基”。但是新零售的“地基”要打好,其实并不容易。新零售各个环节的链条更长、应用场景更多、复杂性也更大。我们结合云测数据,来看下它如何实现。

其一:如何做到“双全法”?针对品牌商/零售商、消费者隐私的数据安全性的保障是数据服务的红线。

云测数据作为独立第三方的身份和对数据隐私安全的严格把控,第一、不滥用数据,数据交付后清毁数据不留底,绝不二次使用;第二,不侵犯隐私,与所有数据采集的用户都签订数据授权协议。第三,建立相关的数据保障机制,如内部信息系统的管护、以及标准化的流程作业体系等。

其二:零售业对AI数据的高需求,必须做到高质、高效、高精准度的“三高”,才能形成竞争壁垒,实现良币驱逐劣币。

高质量的AI数据将最大限度地提升人工智能效率,但市场上往往出了大量的“劣币”,在数据质量不高的前提下,反而给市场应用带来了错误的信息。

云测数据总经理贾宇航表示,云测数据的人工智能数据团队运营至今已制定了一套包含任务分配、需求分析、需求确认、数据清洗、试标确认、进度控制、质量保障等流程的完整作业体系。目前数据服务能力已经涵盖了语音、图像、文本、视频等领域,这些不同维度的数据通过算法的迭代训练环节,最终形成了完善的人工智能输出解决方案,达到高质、高效、高精准度。

比如说商超有一个很大的痛点是就是货柜的盘点,原来货柜上摆了多少件商品都需要人工清点,容易数错而且效率低。但应用计算机视觉的方式,往货柜上扫一扫就能做SKU识别,而且数量非常准确。这样可以节约大量时间,提升效率,同时准确率还很高。

其三、定制化、场景化和专业化,成为新零售行业发展的3股主驱动力。

比如前端的一个便利店场景,就有写字楼店、商场店、街边店、社区店等等,而消费者又非常多样化,比如有黄种人、白人、黑人,还有各种各样的方言,像普通话、四川话、广东话等等,又要覆盖很多不同年龄段的圈层,比如说年轻人、老年人、儿童。而这些场景内销售商品的SKU又完全不一样,即使全国连锁的店面也会存在差异性,

可以说是“千店千面”。

要解决这些问题,最好的方式就是搭建一个专业的“场景实验室”,然后去模拟各种各样的光线强度、角度,以覆盖不同的场景。云测数据把为新零售客户提供还原场景数据采集和标注作为服务重点 ,通过场景实验室的还原的场景数据 , 加上人工智能训练师的专业标注能力,实现了场景数据定制化、专业化、高质量的交付,帮助型零售企业更快更好的实现产品商业化落地。

对于人工智能应用,云测数据总经理贾宇航表示:人工智能已经不光只是一个技术,它实际上已经被应用在很多的商业价值之中。

对于未来发展,贾宇航认是围绕“一横一纵”,一横就是往更多领域去拓展,一纵就是做深度,去理解更多细分的场景,帮助客户能更好的得到专业的训练数据。到今天为止, 云测数据已经覆盖了智能驾驶、智慧城市、智能家居、智慧金融、新零售等几乎所有AI市场的重要领域,堪称人工智能应用助推器。

AI助力下的第五次零售革命

如果把零售革命分为5次关键节点来看,第一次以世界首家百货商店梅西百货诞生,第二次是以711为代表的连锁商店,再到以沃尔玛为代表的超级市场,第四次是以亚马逊、阿里、京东为代表的电商崛起,

而第五次零售革命,则是以AI为驱动力的新零售。AI+新零售的浪潮冲击下,形成新的阶段。

杰夫·贝佐斯此前表示:“我们正处于人工智能黄金时代的开始。最近这方面进步已经导致了以前科幻小说的内容成为现实,不过我们目前只触及了人工智能可能性的皮毛。”

对于未来新零售+AI的浪潮,还有非常大的想象空间。

}
编辑导语:如今平台产品已不是新概念,随着AI技术的成熟,AI平台产品也越来越多。那么,为什么要做AI平台?这些AI平台又有哪些类别呢?让我们跟着作者,一起去探寻吧。


有一天,小李的领导说:“我们要做AI平台!”。

虽然平台产品也不是新概念了,随着AI技术的成熟,AI平台产品也越来越多,但光凭做平台一句话,小李还是犯了难——大大小小的“平台”很多,究竟我们要做什么样的AI平台呢?磨刀不误砍柴功,小李决定先研究下市面上已有的AI平台找找灵感。

AI平台大致可以分为AI开发平台和AI支撑平台(名字是小李瞎起的)两类。

AI开发平台面向的是模型开发者,围绕AI模型/算法的生命周期(数据收集、标注、模型结构设计、模型训练、模型部署等阶段)提供工具。开发平台产品需要对算法开发流程、算法种类丰富度都有较好的积累,因此大部分平台类产品是由内功比较深厚的大厂推出的。


(百度BML功能架构)

都叫开发平台啦,用户想必应该是开发人员,使用AI开发平台的研发人员对人工智能的了解程度不尽相同,他们可能是业务应用的开发人员(只需要调用某个模型API),也可能是AI工程师(需要对模型调参数,甚至重新设计网络结构),但归根到底AI开发平台是面向开发人员的B端产品。

在需要AI能力支撑的时候,用户可以使用AI开发平台提供的不同层级的工具/功能(嵌入级、API级、数据训练级、模型定制级、算法开发级),实现所需的AI能力。

AI赋能其他产品。AI平台作为一个产品,想解决的核心问题是如何便捷的让其他应用或产品获得智能化的能力。看到很多强调AI平台是为了让AI算法开发更简单的说法,但归根到底,如果不是其他产品需要AI模型或者AI能力,自然也不需要算法开发,更就没有必要有所谓AI开发平台存在了。

AI支撑平台大多是面向运营人员/业务人员,为某个AI应用提供能够使之work的配置、管理等“支撑”功能。智能对话平台就是一种非常典型的AI支撑平台,因为智能对话应用并非只依赖某个模型就能实现,所以需要根据业务场景进行技能管理、对话设置等工作,智能对话平台就是这些配置功能的载体。

主要是业务人员或者运营人员,也就是需要对某个应用的具体规则、具体内容进行设置的工作人员。

在使用某个智能应用时,用户需要根据实际业务场景对应用中的某些功能进行配置,才能使应用按照需求运行起来。

使智能应用按照用户的期望运行起来。那为什么这些应用需要配置呢?为什么不能固化呢?因为应用的使用场景千差万别,比如在银行的智能客服和商场的智能客服,虽然底层的技术途径一致,但具体客服面对的问题、使用的话术完全不一样。

从产品角度看,为了使产品的通用性更强,我们往往会设计一个通用的应用框架,然后把高频且重要的功能做成可配置项以适应更多用户的需求。也不是说把功能固化下来不行,但那样的话产品就变成了定制化的项目,成本非常高且无法复用。


(AI开发&支撑平台对比)

二、AI开发平台 1. 按AI模型生命周期拆解

知乎看到的一个比较好的平台产品定义:“平台产品提供共用性强的工具,连接多端多角色之间的活动或交易”。AI开发平台产品也一样,是围绕着围绕AI模型/算法的生命周期提供工具,连接不同层次开发者对AI模型设计、训练、使用等活动。

AI模型的生命周期,大概是这样的:


AI开发平台即然是服务于AI模型生命周期的工具,自然也离不开以上这些模块。所谓平台,可以只针对某一个环节,比如数据收集+标注环节,或者模型部署环节,也可以针对整个生命周期,这就解释了为什么同是AI平台,有大有小。

如果我们从AI模型生命周期角度拆分,那么就有:

面向数据接入、清洗、标注等和训练数据有关的工作。数据接入、清洗的工作其实和大数据的关联性比较强,有些标注平台甚至是大数据系统的组件。

对于AI标注/数据平台来说,一个思路是类似百度的EasyData,针对模型训练数据提供一部分预处理功能(如缩放、翻转图像提高模型鲁棒性,或者对图像进行滤波、降噪等增强操作)和智能标注功能(先利用已经训练好的模型自动标注一把,然后再由人工校准或微调),正是这些功能支撑起了数据标注平台。

另外一个不错的思路是更侧重“标注”这个动作本身,类似basicFinder,做数据需求方和数据标注商的撮合生意并提供标注工具。

这个一般不会作为单独的产品,个人猜测原因主要是模型结构设计门槛高、需求小。从我自己的经验来看,使用开源框架开发和使用平台提供的工具效率差别不大。

模型设计的功能大多是作为开发平台一个模块,通过可视化拖拉拽、notebook等方式进行模型结构设计。

提供模型训练的算力、环境,这个是AI平台中比较常见的产品,由于模型训练对硬件资源的高消耗,通常会租用云计算资源来完成模型训练,所以很多模型训练平台是与云平台捆绑的,完成包括负载均衡、并行训练等工作。

提供把模型从训练环境部署到推理环境(云端、边缘端等)的工具。这个功能相对简单,较少单独作为一个产品,一般是也是作为开发平台的一个功能模块。

一个例外是边缘/嵌入式环境部署平台(如百度EasyEdge),由于硬件适配比较繁琐,所以目前看到百度是做成一个相对独立的产品的。

提供各式各样的模型接口,供用户直接调用,一般还提供包括模型调用管理、接口管理等功能,这种推理平台主要是以模型作为核心竞争力的。另一种推理平台则以算力作为竞争力,类似云平台,用户将模型部署在平台上可获得弹性扩缩容等能力。

参考蚂蚁AI平台的一篇分享,AI平台按照不同层级的业务需求可以分为5级:功能嵌入、API调用、数据训练、模型定制、算法开发。

  1. 功能嵌入:通过iframe等实现成本最低的手段,将某个功能模块嵌入到自己的系统中。
  2. API调用:直接调用平台提供的成熟API,比如调用身份证、驾驶证之类的OCR识别API。
  3. 数据训练:平台的模型符合需求,但需要提供自己的训练数据来解决具体场景需求。
  4. 模型定制:平台的现成模型不太符合要求,所以要对算法参数进行配置,然后训练出符合自己需求的新模型。
  5. 算法开发:最高级的情况,就是业务方懂算法、要开发新算法。平台则提供“算法开发、数据管理、模型训练、模型测试和发布”等一系列深层次的能力,来提升算法研发的效率。


把5级业务需求和生命周期对比来看,业务的按需分层和模型生命周期的各个阶段基本是呈对应关系的。需求越高级,追溯到的生命周期越靠前。

功能嵌入和API调用级需求只涉及模型推理,数据训练级需求涉及数据标注、训练、部署以及推理过程,模型定制和算法开发级需求就涉及全流程的功能了。


上图给出了一些AI开发平台产品的AI模型生命周期覆盖情况,可以看到大部分产品其实都是提供全生命周期的功能的。当然不是说以上的分析没有意义,按生命周期或者按需求层次拆解还是可以帮助我们捋清产品架构的。

个人觉得其中百度的功能架构是最舒服、逻辑性最好的。百度的AI开发平台包括BML和EasyDL两个,BML是全流程的开发平台,覆盖了AI模型全生命周期;EasyDL定位是零门槛开发,所以只支持到数据训练级别的开发。

这样的拆分其实就是依据前边所说的业务需求等级进行的,拆分之后目标用户要清晰很多。BML中相对独立的数据相关功能和边缘部署相关功能又都拆成组件/小平台,可以供用户单独调用,从而提高灵活性。

腾讯TI系列平台中,TI-ONE定位是“一站式机器学习服务平台”,但暂时没有看到关于数据标注方面的功能,数据处理只提供相对简单的数据接入和数据预处理功能。预置模型相对来说也比较少,大部分是机器学习方面的模型,深度学习模型较少。

TI系列的其他两个平台TI-Matrix和Ti-EMS分别是“AI应用服务平台”和“无服务推理平台”,个人感觉都更偏向云服务一些,主要是服务调度、扩缩容等能力。

华为ModelArts也提供从数据标注到模型推理全流程的开发工具,其中“自动学习”的功能模块基本对标百度EasyDL,提供重训练级别的模型生成,但暂时没有按照需求层级进行产品拆分。

AI支撑平台比起AI开发平台,更类似业务平台,比如内容审核、智能对话等。围绕的是一个核心算法,通过配置提升这个算法/能力的通用性。

下图举个内容审核平台作为栗子~横向是发布图片的业务流程,纵向是审核平台的功能,可见审核平台是和业务紧密结合的。

审核平台的核心其实就是分类问题(把输入的图片分为合规、不合规),外部输入是图片,输出是图片是否合规、违规类型、准确率等信息,而审核策略的制定、验证则是为了支撑图像分类算法在内容审核这个场景下work,说到底“支撑”就是配置、设置。


四、一点思考 1. 为什么需要AI平台?

从用户的角度看:用户需要的是以尽可能低的成本(时间及费用)获取所需的AI能力。AI平台提供的开发工具、预置模型都可以减小用户获取AI能力的投入。

从AI平台公司的角度看:AI平台提供的是一套标准化的工具/流程,80%的需求可以由标准化的产品来满足,而非每个需求都单独定制解决方案。通过AI平台这样的标准化产品来提升ROI,从而实现盈利。

不论是从用户角度,还是从提供AI平台的公司角度,其实AI平台的存在都是为了提升投入产出比。

但个人感觉,目前AI平台公司对AI平台的需求是要大于用户的,这就造成了产品多用户少的囧境。用户对AI平台的不认可,一方面可能是对AI能力带来的收益的不确定;另一方面可能是对AI平台提高ROI的不确定(有可能使用了AI平台但还是无法节约人力投入)。所以如何让用户发现AI能力的价值,进而发现AI平台的价值还是个值得思考的问题。

2. 如何做到AI平台的差异化?

市面上那么多AI平台,如何做到让用户选择你的产品呢?差异化。

怎么做到差异化呢?不同用户对AI能力或应用的需求侧重各不相同,但是无外乎数据、算力、模型三要素。

当前很多行业还是存在缺乏数据积累的事实的,所以数据对于这部分公司来说就是最大的痛点。从数据角度入手的AI平台,最直接的是可以主打提供行业数据。如果数据不可获取,可以退一步和大数据平台结合提供数据采集、清洗、标注(自动、人工)等功能,解决用户数据方面的痛点。

前边提到的basicFinder,就是由标注平台逐步发展出来的AI平台。

不论是训练阶段还是推理阶段,AI模型对算力都是强依赖的,因此从算力入手的AI平台也是发展最早的一种,一般都和云平台紧密结合,最后的收益落脚点都是云资源。

随着AI芯片发展,以嵌入式设备为载体的边端智能也越来越多,所以算力入手也可以指嵌入式算力。华为算是以算力为核心的代表公司。

虽然大多AI算法都有开源的版本,但开源模型往往是通用模型,没有针对特定场景优化,没有一般没法直接应用。比如图像识别在医学领域和在自动驾驶领域可能用同样的算法,但需要喂不同的数据,进行不同的参数优化,最后得到适用于不同场景的模型。比如face++就对人脸识别相关的各类模型都做了优化。

一个热门方向AI+行业,就是在数据和模型角度都针对本行业进行差异化的设计。比如针对医药领域的医渡云,针对税务领域的慧算账等等。

3. 如果要做AI平台,怎么入手?

个人感觉现在做AI平台是件很难的事情了,本身这类产品就已经有点供大于求了,做差异化也需要结合已有的积累(无论是数据、算力还是模型),所以从头做一个成功的AI平台真的非常困难,留给AI平台的机会可能只有+行业了。

大胆开麦:短期之内做AI支撑平台的难度远小于AI开发平台,而成功率应该是要高于AI开发平台的。与其做一个大而全却没有明确目标用户的AI开发平台,不如围绕一个点做一个真正有人用的AI支撑平台。

LCC,微信公众号:sillybaby的互联网求生指南,人人都是产品经理专栏作家。2B+AI 产品经理,相信科技向善,致力于用AI解决实际问题。

本文原创发布于人人都是产品经理,未经许可,禁止转载

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

}

万能的百度网友帮我看看这些问题能不能解决,拜托你们啦。... 万能的百度网友帮我看看这些问题能不能解决,拜托你们啦。


· 超过80用户采纳过TA的回答

当下,人工智能的发展如火如荼,如何让机器像人类一样学会学习的背后,机器学习、深度学习等都需要大量数据的进行AI算法模型训练、迭代与支持,相关AI数据的采集、标注与价值挖掘是人工智能技术得以在实际应用场景中大展拳脚的基石。
云测数据是专注高质量场景化的AI训练数据服务的厂商,通过生产“好的数据”来帮助训练“好的AI”。云测数据拥有行业领先的数据服务能力,从数据采集、清洗、标注、系统私有化部署到标注驻场服务,形成了全流程、一站式AI数据服务解决方案,可以说以云测数据为代表的服务厂商们,正是推动AI产业的场景化落地的重要基础力量。

你对这个回答的评价是?

下载百度知道APP,抢鲜体验

使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。

}

我要回帖

更多关于 数据标注 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信