2019年(nián)《中国人工智能基础数据服务行业白皮书》显示,2018年中国人(rén)工智能(néng)基(jī)础(chǔ)数据服务市(shì)场规模达(dá)到(dào)25.86亿(yì)元(yuán),预计到2025年市场规模或将突破(pò)113亿(yì)元。人工智能基(jī)础(chǔ)数据服务市(shì)场呈现(xiàn)出巨大发展潜力。但伴随着需求的不断膨胀(zhàng),基础数据服务商(shāng)在迎来机(jī)会的(de)同时,也面临新的挑战(zhàn)——如(rú)何有效提升数据标(biāo)注的产能。
面对良好的市(shì)场预(yù)期,基础数据服务供(gòng)应商为(wéi)提升产(chǎn)能纷纷做(zuò)出积极尝(cháng)试,2019年11月倍赛BasicFinder第二代云基础设施(shī)——全类型SaaS数据标注工具集上线(xiàn),在基(jī)础数(shù)据服(fú)务领域(yù)探索(suǒ)出一条(tiáo)以(yǐ)工(gōng)具赋能为核心的提(tí)升产能之路。或许创(chuàng)新工具的使用(yòng)将(jiāng)为基础数(shù)据服务商打开(kāi)新局面。
泛用(yòng)性是标注工具平台的(de)基本(běn)能力
自始以(yǐ)来,算法(fǎ)、算力和数据就被认定(dìng)为拉动人工智能发展(zhǎn)的(de)马车(chē),而数据则是马车前进中不可缺少的轮子。由于算法和(hé)算力水平(píng)的不断提升,以往市场上流行的标注工具已(yǐ)经无法适应(yīng)AI数据从简易到复杂的(de)趋势变化,因(yīn)此,标(biāo)注工具平台的泛用性成为实现精准、高效标注的(de)基(jī)本要素。
由于(yú)基础数据服(fú)务商从(cóng)事(shì)的标(biāo)注(zhù)业(yè)务(wù)具(jù)有普遍多样性(xìng),单独工具无(wú)法满足(zú)业务需求。倍赛BasicFinder CEO 杜霖认为:作为SaaS标(biāo)注工具,最基本(běn)的要求就是能对图像、文本、语音(yīn)、视(shì)频以及点云数据做到一站式加工处理,没有完善的工(gōng)具集(jí),人(rén)机协作和提升(shēng)产(chǎn)能将成为空谈(tán)。这也(yě)是为什么(me)倍赛BasicFinder在SaaS平台上投入精力,设计出含2D框、分词标(biāo)注、视频追踪、语音标注及(jí)点云标注工具(jù)等18款套件的原因,目的就是让平台使用(yòng)者不必因更换项目而频繁(fán)切(qiē)换工具平台。
产能提升,工具效益非人(rén)力可替代
人工智能(néng)在现实(shí)应用中(zhōng)多采(cǎi)用有(yǒu)监督学习模式,基于大量(liàng)标注(zhù)数据的(de)模(mó)型训练能够帮助算法有效降(jiàng)低错误率。虽然现(xiàn)在AI科学家(jiā)们在探(tàn)索通过(guò)小样本数据以达到(dào)训练目的,但就目前的应用成果(guǒ)看(kàn),无监督学习或弱监督学习仍然不能取代有监督学习,这就使得在可预见的未来,市场对AI标注数据的需求将呈指数化持续增长,据(jù)IDC 统计,全球每(měi)年生(shēng)产的(de)数据量在2025年或将达到163ZB。紧张(zhāng)的产能(néng)需求迫使AI科技公司和基础数(shù)据服务商对数据生产手段做出积极(jí)地(dì)调整。其中部分企业通过增加人(rén)力的(de)方(fāng)式扩充(chōng)产能,但随着人力不断扩(kuò)充,边际收益逐渐递减(jiǎn),趋于0值。虽(suī)然个别企业希望培训机制可以进一步增加人效,却收效(xiào)甚(shèn)微。在企业的调整实践经验下(xià),不难(nán)发现与(yǔ)增加人力(lì)相比,提升标注工具平台在(zài)人机协同方向的创(chuàng)新,或许(xǔ)是提升(shēng)产能更“靠谱”的方式(shì)。
管理属性(xìng)和灵活性成为SaaS标(biāo)注工具的优势(shì)
在工具平台的(de)选(xuǎn)择方面,也(yě)有部分AI科(kē)技企业(yè)和(hé)基(jī)础数据(jù)服(fú)务商通过改写(xiě)开源工具以获得标注能力,但往往改写(xiě)工具仅(jǐn)能满足当前最急迫的标注需求,长期却无法适应项目更替,原因在于每(měi)次标注需求的变动,都需(xū)要技术(shù)人员进行再次改写,开发(fā)时间周期(qī)和技术(shù)人力损耗在成本上加重了企业负(fù)担。在成本考量之外,开源工具在(zài)管(guǎn)理属性和灵活性层面也(yě)相对薄(báo)弱,而对于一(yī)款相对成熟的SaaS标(biāo)注工具(jù)平台来说,“标(biāo)”是(shì)平台基础;“管”是(shì)平台的灵(líng)魂;“活”则是工具的延伸。
以倍赛BasicFinder SaaS标注平台为例,其内部系统(tǒng)嵌(qiàn)入工作(zuò)流(liú)模块。具(jù)体工作流为(wéi):任务(wù)发(fā)布(bù)、执行标注、结(jié)果审核、数据质检。平台通过每个环节(jiē)的作业衔接,构(gòu)建起流(liú)程(chéng)管理系统(tǒng),与单纯的标注工具相(xiàng)比,任务在SaaS平台(tái)中(zhōng)可以获得更快的(de)流(liú)转(zhuǎn)速度。同时由于工序之间(jiān)采用封闭节点构(gòu)造,执(zhí)行标注和审核(hé)工(gōng)序的操(cāo)作员无法对数据进行下载和传输,又(yòu)进一步保(bǎo)证了数据的安全性(xìng)。除流程(chéng)管理外,该工具(jù)平台还具有绩效管(guǎn)理功能,尤其是(shì)AI企业或基础(chǔ)数据服(fú)务(wù)商(shāng)的管理层用(yòng)户,可以通过可视化面板了解项目的进度以(yǐ)及团队下每个标注员的工作效率和完成任务的准确度。绩效管(guǎn)理(lǐ)功能的加入,减少了项目经理因过(guò)度参与作业环节中(zhōng)的管理工(gōng)作而耗费(fèi)精力。之前一(yī)个(gè)项目经(jīng)理(lǐ)能同时(shí)管理3个项目(mù),在SaaS标注平(píng)台的使用下可拓展管理10个(gè),甚至(zhì)更多的项目。
在(zài)工具的灵活(huó)性方面,倍赛BasicFinder SaaS标注平台将标注标签、标注工具、标(biāo)注特质项(xiàng)等功能设计成可自由拖拽的模板(bǎn)配置形式,以指定标注(zhù)范畴,规范(fàn)标注员的标签和工具使用(yòng),减少不必要的标注错误(wù)出(chū)现。除可自由配置(zhì)模板,SaaS标注(zhù)平台也为有能力开(kāi)发预标模(mó)型(xíng)的AI科技公司或(huò)数据服务商提(tí)供加速工具接口。在执行大规(guī)模的标注项目时,平台(tái)使用者可以通过接(jiē)入预标模型,对大批数据进(jìn)行预处理,而后人工进行补(bǔ)标,以增加操作员单位时间的(de)作业频次,提高产(chǎn)能输出。
开放数据(jù)标注能力,普(pǔ)惠AI基础行(háng)业
作为基础操作层面,标注工具能(néng)力的(de)全面性将(jiāng)对数(shù)据加工(gōng)者(zhě)起到至关重要的作用。如倍(bèi)赛BasicFinder曾为招商银行部(bù)署数据标注工具平台(tái)私有(yǒu)化(huà)系统,通过独立系统的配置,同时(shí)解决了招行关(guān)于标注(zhù)工具、工序(xù)管理和(hé)数据安全三个方面的难题,一举帮助其建立(lì)起可以独立展开(kāi)数(shù)据标注作业的能力。
在AI基础(chǔ)数据(jù)服(fú)务市场(chǎng)的激烈(liè)竞争下(xià),数据的(de)标记质量和项目的执行速率成为数据服(fú)务商获得竞争(zhēng)优(yōu)势的关键。由于数据标注工具私有(yǒu)化部(bù)署成本相对较高,倍赛BasicFinder将其 SaaS 化,大大降(jiàng)低了工具的使用成本,普惠(huì)中小型AI科(kē)技公司(sī)和基础(chǔ)数据服(fú)务供应商,赋能AI基础行(háng)业(yè)。
版权声明
本文(wén)来源(yuán)亿欧,版权(quán)归原作者所有(yǒu)。
作者:亿(yì)欧来源:亿欧