|
[indent,全文共2174字,预计学习时长6分钟
[/indent,图源:unsplash
在人工智能和机器学习领域,数据为王,没有数据就不可能有数据科学。对于AI开发人员和研究人员来说,要实现项目的宏伟目标,他们需要访问海量高质量数据。
作为机器学习的一个主要领域——图像数据需要在计算机视觉中获取大量已经标注的图像。想知道有关不同图像标注类型的信息吗?继续看下去吧!
计算机视觉是机器学习和人工智能开发的重要领域之一。简单来说,计算机视觉旨在使计算机“看到”并以视觉的方式解释所处世界。从自动驾驶汽车和无人机到医疗诊断技术和面部识别软件,计算机视觉的应用相当广泛,而且发挥着变革性作用。
由于计算机视觉是为了开发机器模仿或超越人类视觉的功能,训练这样的模型需要大量标注图像。
图像标注是一个给图像添加标签的过程。它可以为整个图像添加一个标签,也可以分别为图像内每组像素添加多个标签。一个简单例子是向人工标注器提供动物图像,让其用正确的动物名称标记每个图像。
当然,标记的方法依赖于项目所使用的图像标注类型。这些带标注的图像有时被称为地面实况数据,之后将馈入计算机视觉算法中。通过训练,模型可以对已标注的动物图像与未经标注的图像进行区分。
这个例子很简单,当进一步细化到更复杂的计算机视觉领域,比如无人驾驶汽车,我们就需要更复杂的图像标注。
想知道哪类图像标注最适合你的项目?下面是五种常见的图像标注类型以及它们的相关应用。
1. 边界框
边界框标注,是指给人工标注器提供一幅图像,让其在图像内特定对象周围绘制一个框。该方框应尽可能靠近特定对象的每个边缘。这项工作通常是在不同公司的自定义平台上完成。如果你的项目有特殊需求,一些公司可以调整其现有的平台来满足此种需求。
边界框的一个具体应用是针对无人驾驶汽车的研发。标注器需要在交通图像中识别车辆、行人和骑车者这类实体,并在其周围绘制边界框。
开发人员通过向机器学习模型提供带有边界框标注的图像,帮助无人驾驶车辆实时区分这些实体并避免与它们接触。
2. 3D长方体
与边界框类似,3D长方体标注是在图中对象周围用标注器绘制一个框。与只描绘长和宽的2D边界框不同,3D长方体标注了对象的长、宽和近似深度。
使用3D长方体标注,人工标注器会绘制一个框把感兴趣的对象封起来,并将锚点放置在对象的每个边缘。如果对象的一个边缘不在视图中或被图像中的另一个对象挡住,那么标注器就会根据对象的大小和高度以及图像的角度来估算其边缘所在的位置。
3. 多边形
图源:unsplash
有时图像中的对象不能很好地匹配上边界框或3D长方体,有时开发人员希望对图像中的对象进行更精确的标注,例如交通图像中的汽车或航拍图像中的地标和建筑物。在这些情况下,开发人员可能会选择多边形标注。
使用多边形进行标注时,标注器会通过在需要标注的对象的外边缘放置多个点来绘制成线,这个过程就像是一个连点成线的练习。然后,使用一组预定的类别,即汽车、自行车、卡车,来标注由点所包围的区域内的空间。当分配多个类进行标注时,称其为多类标注。
4. 线和样条线
虽然线和样条线适用于多种用途,但它们主要用于训练机器识别车道和边界。顾名思义,标注器将简单地沿着你需要机器学习的边界画线。
线和样条线标注可以用来训练仓库机器人准确地将箱子排成一排,或将物品放在传送带上。该标注最常见的应用是在无人驾驶汽车领域,通过标注车行道和人行道,可以训练自动驾驶车辆理解边界,并保持在一条车道上而不转向。
5. 语义分割
图源:unsplash
上述示例着眼于绘制对象外部边缘或边界轮廓,而语义分割更为精确、具体。语义分割是用一个标签将整个图像中的每个像素关联起来的过程。对于需要进行语义分割的项目,通常会为人工标注器提供一个预设标签列表,让其从中选择,标注器必须用这些标签标记页面中的所有内容。
语义分割使用的是和多边形注释类似的平台,让标注器在需要标记的一组像素周围绘制线条。这也可以通过AI辅助平台来完成,例如,可粗略估计汽车边界的程序,但程序可能会出错,在分割中包含了汽车下方的阴影。
在此情况下,人工标注器将使用一个单独的工具来剔除不属于分割中的像素。例如,利用自动驾驶车辆的训练数据,标注器可能会得到类似“请按道路、建筑物、骑自行车的人、行人、障碍物、树木、人行道和车辆对图像中的一切东西进行分割”的指令。
语义分割的另一个常见应用是医学成像设备。针对提供过来的患者照片,标注器将从解剖学角度对不同的身体部位标记。语义分割还可以用于一些难度较大的特别任务,如在CT扫描图像中标记脑部病变。
这就是机器学习和AI开发中最常用的五种图像标注类型,你可以根据具体的项目需要选择不同的方法。
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范 |
|