机器学习的知识产权问题

来源: 网络 日期:2021-02-16

作者: Wil Michiels 教授(博士),恩智浦半导体安全架构师

机器学习的知识产权问题

机器学习的知识产权问题

假设一家公司主要生产对于客户的业务运营至关重要的设备。为了避免发生故障而对这些客户产生重大影响,这家公司使用机器学习模型来做出预防性维护决策。为了构建这种模型,公司花费了大量时间、金钱和精力。但是,客户可以复制这个知识产权来自行进行维护,这样就不必继续支付维护合同的费用。同时,竞争对手也可能会直接复制模型来获取利益,而不是投资构建自己的模型。本白皮书探讨了机器学习模型的哪些方面将受到知识产权法律的保护。

机器学习的知识产权问题

要构建用于维护的机器学习(ML)模型,必须收集并标记正确的训练集,选择正确的架构和训练参数以实现算法精度和速度的优化平衡,并投入计算时间来训练模型。但是,如果这个维护专用的机器学习模型的知识产权没有得到妥善保护,竞争对手只需花费很少的时间和精力就能复制和窃取机器学习模型,稍加调整以免被发现,然后即可直接部署到自己的产品中。这仅仅是一个例子而已。在很多情况中,公司都希望保护其投资和知识产权,但是现在和将来,应该如何保护机器学习领域的知识产权呢?

对于任何公司而言,机器学习模型都意味着一笔可观的投资,同时也是一项宝贵的资产。尽管由机器学习驱动的业务越来越受到青睐,但一些公司可能不愿意在数据收集和模型构建方面进行必要投资,因为他们担心竞争对手会窃取劳动果实。一直以来,非实物资产创作方面都有专利或版权之类的知识产权保护。但是,在法律领域中,关于知识产权如何保护机器学习以及具体涵盖哪些方面,仍然是一个颇具争议的问题。本白皮书阐述了机器学习知识产权(IP)方面的法律背景和挑战。

术语

在我们深入探讨机器学习的知识产权问题之前,必须先要正确理解术语。广义上讲,机器学习是针对算法和统计模型的科学研究。电脑系统使用这些算法和统计模型,依靠模式和推理来高效地执行特定任务,而无需使用手动编程的指令。

在机器学习中,通常使用一系列“训练数据”推导统计模型的权重。然后在新情况中运用这些权重,从适用于新情况的模型中获得答案。一种流行的机器学习模型是神经网络。为了阐明使用神经网络的过程,请参考下图:

用于将图片标记为猫或狗的机器学习模型

机器学习的知识产权问题

这类机器学习分为两步。首先,在训练阶段,推导架构参数以赋予模型特定的功能。我们将这个阶段称为训练模型。模型完成训练后,通过测试数据测量模型质量。第二步,在推理阶段,利用经过训练的模型进行预测,例如对新数据进行分类。虽然所有这些概念在不同文献中有不同的说法,但在本白皮书中,我们使用以下术语:

架构

神经网络中的神经元、神经元之间的连接以及所用激活函数的集合。架构可以有向图的形式呈现。

训练集

一组用于训练架构的数据,帮助架构确定合适的权重。

测试集

另外一组数据,用于测试和验证模型是否提供预期的结果。

机器学习系统

实现机器学习(训练和/或推理)的软件和硬件。

模型

对于神经网络,模型是指与神经网络架构连接相关联的权重的集合。这些权重是在训练期间收集的。

训练参数

用于控制训练算法的参数。例如:训练集应该迭代几次?在更新权重之前,要处理多少个数据项?在每次更新中,应对权重应用多大幅度的更改?使用什么成本函数进行优化?

如今,机器学习用于处理各种各样的任务。一种主流应用是分类,例如识别图像或视频中的特定物体,将文本分类为特定类别,以及检测伪劣品或异常尺寸。

其他应用还包括自动驾驶汽车中使用的预测和物体检测。对于许多使用机器学习的公司而言,用于机器学习应用的训练集和模型是不应被竞争对手接触到的宝贵信息。这就引出了如何通过法律手段保护这些信息和其他机器学习要素的问题,即知识产权。

 1/5    1 2 3 4 5 下一页 尾页
    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。