数据标注:AI背后的人工力量
在了解数据标注之前,先来了解人工智能。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
人工智能,其实是部分替代人的认知功能。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。
要学习数据中的规律,就要假设数据是有正确答案的,很多数据是不存在所谓答案的,那么如果我们想让数据能有“规律”就要给数据标注。
回想一下我们是如何学习的,例如我们学习认识猫,那么就需要有人带着一只猫或者猫的图片到你面前告诉你,“这是一只猫”。然后以后你遇到了猫,你才知道这东西叫做“猫”。
类比机器学习,我们要教它认识一只猫,直接给它一张猫的图片,它是完全不知道这是什么。
我们得先有猫的图片,上面标注着“猫”这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。
这里顺带提一下训练集和测试集的概念。训练集和测试集都是标注过的数据,还是以猫为例子,假设我们有1000张标注着“猫”的图片,那么我们可以拿800张作为训练集,200张作为测试集。机器从800张猫的图片中学习得到一个模型,然后将剩下的200张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。
所以目前人工智能需要标注大量数据,即对原始信息进行数据标注。
数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。
数据标注是大部分人工智能算法得以有效运行的关键环节。
数据标注的过程是通过人工贴标的方式,为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。
数据标注的分类
图像标注
图像标注问题的本质是视觉到语言的问题,用通俗的话说,就是“看图说话”。
语音标注
一般来说,语音标注与我们生活的众多方面都是息息相关的。比如,我们在使用微信时,语音可以转换成文字,在使用百度地图APP上小麦克风功能。这些都需要前期大量的人工去标记这些“说出的话”所对应的“文字”,采用人工的方式一点点去修正语音和文字间的误差。这就是语音标注。
文本标注
文本标注是指,将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域。
视频标注
视频标注指的是对视频进行分析,即对视频帧的信息进行标注。
数据标注常用工具
一般来说,数据标注工具有图片标注、文本标注、语音标注、视频标注。
丨图片标注工具比较多,常用的有labelImg、labelme、CVAT等工具,每个工具都可以对图像进行标注。
丨文本标注常用的有YEDDA、SMART、Doccano等。
丨语音标注有EchoML、Aubio以及Praat等工具。
丨视频标注相对来说少一些,有UltimateLabeling、VATIC、VoTT等工具。
丨汇总常用的标注工具这里总结一下,按照运行平台、标注形式、标注格式展示,Windows来说常用的标注工具有LabelImg、LabelMe、VOTT、Praat等。
名称 简介 运行平台 标注形式 标注格式
LabelImg 著名的图像标注工具 Windows,Linux,Mac 矩形框 VOC和YOLO格式
LabelMe 著名的图形界面标注工具,能够标注图像和视频 Windows,Linux,Mac 多边形、矩形、圆形、多段线、线段、点 VOC 和 COCO 格式
RectLabel 图像标注 Mac 多边形、矩形、多段线线段、点 YOLO、KITTI、 COCO1、CSV
VOTT 基于 Web 方式本地部署的标注工具,能够标注图像和视频 Windows,Linux,Mac 多边形、矩形、点 TFRecord、CSV、VoTT
LabelBox 适用于大型项目的标注工具,基于Web,能够标注图像、视频和文本 - 多边形、矩形、线、 点、嵌套分类 JSON 格式
VIA VGG的图像标注工具,也支持视频和音频标注 - 矩形、圆、椭圆、多边形、点和线 JSON 格式
COCO UI 用于标注 COCO 数据集的工具,基于 Web 方式 - 矩形、多边形、 点和线 COCO格式
Vatic Vatic 是一个带有目标跟踪的视频标注工具,适合目标检测任务 Linux - VOC 格式
BRAT 基于 Web 的文本标注工具,主要用于对文本的结构化标注 Linux - ANN 格式
DeepDive 处理非结构化文本的标注工具 Linux - NLP 格式
Praat 语音标注工具 Windows,Unix,Linux,Mac - JSON 格式
数据标注应用场景
自动驾驶
在汽车自动驾驶的过程中,想要让汽车本身的算法做到处理更多、更复杂的场景,背后就需要有海量的真实道路数据做支撑。
而这就需要依靠数据标注。
智能安防
智能安防是人工智能与信息技术结合的关键领域,对于城市与民生发展有重要的意义。通过生物识别、行为监测等技术手段,广泛地应用于城市道路监控、车辆人流监测、公共安全防范等领域。
人脸标注在智能安防中主要应用于人脸识别与身份识别。
物品标注在智能安防中,物品标注需要和行为标注结合。
智能医疗
智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。AI与医疗行业的结合将有望迎来跨越式发展。
医疗影像标注是对医疗影像进行区域标注及分类标注,多应用于辅助临床诊断。人工智能通过学习大量的医疗影像标注数据集,将会很好的辅助医生进行临床诊断以及提出治疗方案。
除了上面几个应用,数据标注在金融行业、家居行业、电子商务等行业也有着重要的应用。