吴恩达:做数据中心型企业,才能在人工智能上获得成功
吴恩达(Andrew Ng)是深度学习技术的先驱者之一。所谓深度学习,就是将大型神经网络应用于人工智能领域。就广大企业应该如何利用人工智能技术的问题,吴恩达也是最有发言权的专家。吴恩达创办了一家名为Landing AI的公司并自任首席执行官。这家公司的软件,可以让即使不懂编程的人,也能够轻松构建和维护AI系统。这样的话,几乎所有企业都可以使用AI技术了——尤其是计算机视觉应用。目前,一些大型生产商,例如工具制造商史丹利百德(StanleyBlack & Decker)、电子产品制造商富士康(Foxconn),以及汽车零部件制造商电装公司(Denso)都已经成了Landing AI的客户。
吴恩达是所谓“数据中心型AI”的倡导者。他认为,随着开源数据的普及和先进人工智能研究的发表,尖端人工智能技术也变得越来越普及。企业就算请不顶尖院校的计算机博士,也并不难获得尖端的人工智能软件代码,而且这些程序与谷歌(Google)或者美国国家航空航天局(NASA)使用的AI程序可能是一样的。那么,为什么有些公司能够成功应用AI技术,有些公司则不能?最大的区别在于,你用什么数据来训练这个AI算法,这些数据又是如何收集、处理和管理的?吴恩达告诉我,所谓的“数据中心型AI”,就是要对数据进行“智能量化”,用尽量最少的数据来构建一个成功的AI系统。他认为:“向数据中心型AI的转型”是当今企业需要进行的最重要的转型,只有这样才能充分发挥人工智能的优势。其重要性不亚于上一个10年向深度学习技术的转型。
吴恩达指出,如果数据准备得当,那么一家企业实际需要的数据,就可能远远少于它们的想象。有了正确的数据,哪怕企业只有几十或者几百个事例,训练出的AI系统也将十分好用,丝毫不亚于那些消费互联网巨头用几十亿个事例训练出来的系统。他表示,将AI技术拓展到互联网巨头以外的企业的好处之一,就是可以使用更小的数据集进行有效训练。
那么,什么样的数据才是正确的数据?吴恩达认为,首先要确保数据的“y系一致性”。也就是说,某个事物是否会收到某个明确的分类标签,对此必须有十分明确的界限。(比如,某家制药公司如果想用AI程序寻找药片上的瑕疵,那么,这家公司就应该将小于一定长度的划痕明确定义为“无缺陷”,超过这个阈值的划痕则被标记为“有缺陷”,那么这个系统只需要少的训练数据就能够表现得很好。)
吴恩达表示,要想减少数据不一致的情况,企业可以将一个训练数据集里的同样图像分配给不同的人来标记,如果他们的标记结果不一致,设计系统的人就能够进行更正,或者干脆从训练数据集里撤掉这个事例。吴恩达还建议,那些编制数据集的人应该对标记方法做好说明,并特别要对一些模楞两可的事例做好追踪,因为它们有可能导致标记不一致的情况。任何不清晰或者容易导致混淆的事例都应该从数据集里剔除。最后,企业应该分析人工智能系统的错误,看看哪些子集中的事例最容易让系统出错。有的时候只要在关键子集里添加一些事例,比“大水漫灌”似的添加数据更容易提高系统的表现。他还指出,AI用户应该把数据编制、数据改进和利用新数据反复训练AI作为一个持续的循环过程,而不是一个一劳永逸的过程。
咨询公司埃森哲(Accenture)最近发布的一份关于人工智能应用的报告,也将AI模型的构建与训练看作一个持续的循环,而不是一个一劳永逸的过程。该研究发现,在它调查的全球1200家公司中,只有12%的公司将它们的AI系统升级到了提高增长和业务转型速度所需的程度。(还有25%的企业也推进了AI系统的部署,其他公司基本上还处于试点阶段。)这12%的公司与其他公司的区别在哪里呢?首先在于它们有“工业化”的AI工具和流程,而且打造了强有力的AI核心团队。此外还有一些组织上的因素,例如公司高管将AI作为战略重点、大量投资于AI人才、从一开始就负责任地设计了AI程序,以及充分重视短期和长期AI项目,等等。(财富中文网)
译者:朴成奎
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。