立即打开
吴恩达:做数据中心型企业,才能在人工智能上获得成功

吴恩达:做数据中心型企业,才能在人工智能上获得成功

Jeremy Kahn 2022-06-25
吴恩达指出,如果数据准备得当,那么一家企业实际需要的数据,就可能远远少于它们的想象。

吴恩达(Andrew Ng)是深度学习技术的先驱者之一。所谓深度学习,就是将大型神经网络应用于人工智能领域。就广大企业应该如何利用人工智能技术的问题,吴恩达也是最有发言权的专家。吴恩达创办了一家名为Landing AI的公司并自任首席执行官。这家公司的软件,可以让即使不懂编程的人,也能够轻松构建和维护AI系统。这样的话,几乎所有企业都可以使用AI技术了——尤其是计算机视觉应用。目前,一些大型生产商,例如工具制造商史丹利百德(StanleyBlack & Decker)、电子产品制造商富士康(Foxconn),以及汽车零部件制造商电装公司(Denso)都已经成了Landing AI的客户。

吴恩达是所谓“数据中心型AI”的倡导者。他认为,随着开源数据的普及和先进人工智能研究的发表,尖端人工智能技术也变得越来越普及。企业就算请不顶尖院校的计算机博士,也并不难获得尖端的人工智能软件代码,而且这些程序与谷歌(Google)或者美国国家航空航天局(NASA)使用的AI程序可能是一样的。那么,为什么有些公司能够成功应用AI技术,有些公司则不能?最大的区别在于,你用什么数据来训练这个AI算法,这些数据又是如何收集、处理和管理的?吴恩达告诉我,所谓的“数据中心型AI”,就是要对数据进行“智能量化”,用尽量最少的数据来构建一个成功的AI系统。他认为:“向数据中心型AI的转型”是当今企业需要进行的最重要的转型,只有这样才能充分发挥人工智能的优势。其重要性不亚于上一个10年向深度学习技术的转型。

吴恩达指出,如果数据准备得当,那么一家企业实际需要的数据,就可能远远少于它们的想象。有了正确的数据,哪怕企业只有几十或者几百个事例,训练出的AI系统也将十分好用,丝毫不亚于那些消费互联网巨头用几十亿个事例训练出来的系统。他表示,将AI技术拓展到互联网巨头以外的企业的好处之一,就是可以使用更小的数据集进行有效训练。

那么,什么样的数据才是正确的数据?吴恩达认为,首先要确保数据的“y系一致性”。也就是说,某个事物是否会收到某个明确的分类标签,对此必须有十分明确的界限。(比如,某家制药公司如果想用AI程序寻找药片上的瑕疵,那么,这家公司就应该将小于一定长度的划痕明确定义为“无缺陷”,超过这个阈值的划痕则被标记为“有缺陷”,那么这个系统只需要少的训练数据就能够表现得很好。)

吴恩达表示,要想减少数据不一致的情况,企业可以将一个训练数据集里的同样图像分配给不同的人来标记,如果他们的标记结果不一致,设计系统的人就能够进行更正,或者干脆从训练数据集里撤掉这个事例。吴恩达还建议,那些编制数据集的人应该对标记方法做好说明,并特别要对一些模楞两可的事例做好追踪,因为它们有可能导致标记不一致的情况。任何不清晰或者容易导致混淆的事例都应该从数据集里剔除。最后,企业应该分析人工智能系统的错误,看看哪些子集中的事例最容易让系统出错。有的时候只要在关键子集里添加一些事例,比“大水漫灌”似的添加数据更容易提高系统的表现。他还指出,AI用户应该把数据编制、数据改进和利用新数据反复训练AI作为一个持续的循环过程,而不是一个一劳永逸的过程。

咨询公司埃森哲(Accenture)最近发布的一份关于人工智能应用的报告,也将AI模型的构建与训练看作一个持续的循环,而不是一个一劳永逸的过程。该研究发现,在它调查的全球1200家公司中,只有12%的公司将它们的AI系统升级到了提高增长和业务转型速度所需的程度。(还有25%的企业也推进了AI系统的部署,其他公司基本上还处于试点阶段。)这12%的公司与其他公司的区别在哪里呢?首先在于它们有“工业化”的AI工具和流程,而且打造了强有力的AI核心团队。此外还有一些组织上的因素,例如公司高管将AI作为战略重点、大量投资于AI人才、从一开始就负责任地设计了AI程序,以及充分重视短期和长期AI项目,等等。(财富中文网)

译者:朴成奎

吴恩达(Andrew Ng)是深度学习技术的先驱者之一。所谓深度学习,就是将大型神经网络应用于人工智能领域。就广大企业应该如何利用人工智能技术的问题,吴恩达也是最有发言权的专家。吴恩达创办了一家名为Landing AI的公司并自任首席执行官。这家公司的软件,可以让即使不懂编程的人,也能够轻松构建和维护AI系统。这样的话,几乎所有企业都可以使用AI技术了——尤其是计算机视觉应用。目前,一些大型生产商,例如工具制造商史丹利百德(StanleyBlack & Decker)、电子产品制造商富士康(Foxconn),以及汽车零部件制造商电装公司(Denso)都已经成了Landing AI的客户。

吴恩达是所谓“数据中心型AI”的倡导者。他认为,随着开源数据的普及和先进人工智能研究的发表,尖端人工智能技术也变得越来越普及。企业就算请不顶尖院校的计算机博士,也并不难获得尖端的人工智能软件代码,而且这些程序与谷歌(Google)或者美国国家航空航天局(NASA)使用的AI程序可能是一样的。那么,为什么有些公司能够成功应用AI技术,有些公司则不能?最大的区别在于,你用什么数据来训练这个AI算法,这些数据又是如何收集、处理和管理的?吴恩达告诉我,所谓的“数据中心型AI”,就是要对数据进行“智能量化”,用尽量最少的数据来构建一个成功的AI系统。他认为:“向数据中心型AI的转型”是当今企业需要进行的最重要的转型,只有这样才能充分发挥人工智能的优势。其重要性不亚于上一个10年向深度学习技术的转型。

吴恩达指出,如果数据准备得当,那么一家企业实际需要的数据,就可能远远少于它们的想象。有了正确的数据,哪怕企业只有几十或者几百个事例,训练出的AI系统也将十分好用,丝毫不亚于那些消费互联网巨头用几十亿个事例训练出来的系统。他表示,将AI技术拓展到互联网巨头以外的企业的好处之一,就是可以使用更小的数据集进行有效训练。

那么,什么样的数据才是正确的数据?吴恩达认为,首先要确保数据的“y系一致性”。也就是说,某个事物是否会收到某个明确的分类标签,对此必须有十分明确的界限。(比如,某家制药公司如果想用AI程序寻找药片上的瑕疵,那么,这家公司就应该将小于一定长度的划痕明确定义为“无缺陷”,超过这个阈值的划痕则被标记为“有缺陷”,那么这个系统只需要少的训练数据就能够表现得很好。)

吴恩达表示,要想减少数据不一致的情况,企业可以将一个训练数据集里的同样图像分配给不同的人来标记,如果他们的标记结果不一致,设计系统的人就能够进行更正,或者干脆从训练数据集里撤掉这个事例。吴恩达还建议,那些编制数据集的人应该对标记方法做好说明,并特别要对一些模楞两可的事例做好追踪,因为它们有可能导致标记不一致的情况。任何不清晰或者容易导致混淆的事例都应该从数据集里剔除。最后,企业应该分析人工智能系统的错误,看看哪些子集中的事例最容易让系统出错。有的时候只要在关键子集里添加一些事例,比“大水漫灌”似的添加数据更容易提高系统的表现。他还指出,AI用户应该把数据编制、数据改进和利用新数据反复训练AI作为一个持续的循环过程,而不是一个一劳永逸的过程。

咨询公司埃森哲(Accenture)最近发布的一份关于人工智能应用的报告,也将AI模型的构建与训练看作一个持续的循环,而不是一个一劳永逸的过程。该研究发现,在它调查的全球1200家公司中,只有12%的公司将它们的AI系统升级到了提高增长和业务转型速度所需的程度。(还有25%的企业也推进了AI系统的部署,其他公司基本上还处于试点阶段。)这12%的公司与其他公司的区别在哪里呢?首先在于它们有“工业化”的AI工具和流程,而且打造了强有力的AI核心团队。此外还有一些组织上的因素,例如公司高管将AI作为战略重点、大量投资于AI人才、从一开始就负责任地设计了AI程序,以及充分重视短期和长期AI项目,等等。(财富中文网)

译者:朴成奎

Andrew Ng is among the pioneers of deep learning—the use of large neural networks in A.I. He’s also one of the most thoughtful A.I. experts on how real businesses are using the technology. His company, Landing AI, where Ng is founder and CEO, is building software that makes it easy for people, even without coding skills, to build and maintain A.I. systems. This should allow almost any business adopt A.I. —especially computer vision applications. Landing AI’s customers include major manufacturing firms such as toolmaker StanleyBlack & Decker, electronics manufacturer Foxconn, and automotive parts maker Denso.

Ng has become an evangelist for what he calls “data-centric A.I.” The basic premise is that state-of-the-art A.I. algorithms are increasingly ubiquitous thanks to open-source repositories and the publication of cutting edge A.I. research. Companies that would struggle to hire PhDs from top computer science schools can nonetheless access the same software code that Google or NASA might use. The real differentiator between businesses that are successful at A.I. and those that aren’t, Ng argues, is down to data: What data is used to train the algorithm, how it is gathered and processed, and how it is governed? Data-centric A.I., Ng tells me, is the practice of “smartsizing” data so that a successful A.I. system can be built using the least amount of data possible. And he says that “the shift to data-centric A.I.” is the most important shift businesses need to make today to take full advantage of A.I.—calling it as important as the shift to deep learning that has occurred in the past decade.

Ng says that if data is carefully prepared, a company may need far less of it than they think. With the right data, he says companies with just a few dozen examples or few hundred examples can have A.I. systems that work as well as those built by consumer internet giants that have billions of examples. He says one of the keys to extending the benefits of A.I. to companies beyond the online giants is to use techniques that enable A.I. systems to be trained effectively from much smaller datasets.

What’s the right data? Well, Ng has some tips that include making sure that data is what he calls “y consistent.” In essence this means there should be some clear boundary between when something receives a particular classification label and when it doesn’t. (For example, take an A.I. designed to find defects in pills for a pharma company. This system will perform better from less training data if any scratch below a certain length is labelled “not defective,” and any scratch longer than that threshold is labelled “defective" than if there is no consistency in which scratch lengths are labelled defective.)

He says that one way to spot data inconsistencies is to assign the same images in a training set to multiple people to label. If their labels don’t agree, the person designing the system can make a call on the correct label or that example can be discarded from the training set. Ng also urges those curating data sets to clarify labeling instructions by tracking down ambiguous examples. These are tricky cases that are likely to lead to inconsistent labels. Any examples that are unclear or confusing should be eliminated from the data set altogether, he says. Finally, he says people should analyze the errors an A.I. system makes to figure out which subset of examples tend to trip the system up. Adding just a few additional examples in key data subsets leads to faster performance improvements than adding additional examples where the software is already doing well. He also says that A.I. users should see data curation, data improvement, and retraining the A.I. on updated data, as an on-going cycle, not something a user does only once.

The idea of thinking of the building and training of A.I. models as a continuous cycle, not a one-off project, also comes across in a recent report on A.I. adoption from consulting firm Accenture. It found that only 12% of 1,200 companies it looked at globally have advanced their A.I. maturity to the stage where they are seeing superior growth and business transformation. (Another 25% are somewhat advanced in their deployment of A.I., while the rest are still just running pilot projects if anything.) What sets that 12% apart? Well, one factor Accenture identifies is that they have “industrialized” A.I. tools and processes, and that they have created a strong A.I. core team. Other key factors are organizational too: they have top executives who champion A.I. as a strategic priority; they invest heavily in A.I. talent; they design A.I. responsibly from the start; and they prioritize both long- and short-term A.I. projects.

热读文章
热门视频
扫描二维码下载财富APP