大数据行业动态

/ xingye
大数据是发展人工智能(AI)的核心优势吗?
发布时间:2019-07-29 09:52:09| 浏览次数:

文/ MacroPolo

分析人员经常将中国的数据量作为人工智能(AI)生态系统的核心优势。这在某种程度上是正确的:14亿人+智能手机深度渗透+24/7在线和离线数据收集=数据量惊人。

但现实情况要复杂得多,因为数据不是人工智能的单维输入,而大数据只是“更多”。数据和人工智能之间的关系类似于劳动力与经济之间的关系。中国可能拥有大量的工人,但劳动力的质量、结构和流动性对经济发展同样重要。

同样,数据被更好地理解为具有五个不同维度的关键输入-数量、深度、质量、多样性和访问-所有这些都影响数据可以为AI系统做什么。

数量

许多人认为中国人口的规模使其在数据量方面具有优势,但这实际上是误导性的。中国的科技公司可以利用世界上最大的国内人口,但很少有人成功地接触到全球用户。相比之下,美国科技巨头通过从全球市场吸引大部分用户(和数据)来弥补他们的国内用户数量。

微信和Facebook形成鲜明对比。微信已经利用中国的8亿互联网用户迅速扩大规模,但它的全球渗透率较弱,目前用户数量已达11亿。然而,Facebook长期以来已经超过其美国本土市场,目前全球用户已达23亿。

这意味着,目前中国的科技公司可以仅依靠国内用户更快地扩大规模,而美国(和欧洲)公司在全球范围内的总体用户数上限往往更高。

深度

数据深度是指以数字形式捕获的用户行为的不同方面。针对不同类型的用户行为训练的算法越多,其对该用户的推荐或预测就越复杂。

中国的优势主要在于领先的科技公司拥有更多用户线上和线下行为的窗口。这是因为中国城市居民的实际活动中有很大一部分是通过智能手机进行的。

每个真实世界的活动,旅行、订餐、预约都是用户习惯的一个小窗口,可用于更准确地为该用户定制推荐。虽然美国科技巨头经常对用户的在线习惯(搜索历史,页面“喜欢”等)了解很多,但与腾讯、阿里巴巴和美团等中国同行相比,他们对用户现实活动的洞察力更为有限。

质量

质量是指无论是精度、以及结构和存储的训练数据。美国在这方面有优势,因为它的数据往往更加可靠,而且更多的数据已经数字化并以易于检索的格式存储。

首先,关于准确性。当机器学习应用依赖于训练数据时,它们受到长期的计算机科学规则的限制。如果AI算法被输入不准确的数据,它将产生不准确的输出。

例如,如果想要一个“空气污染”的预警系统,它可能会使用历史数据训练算法,以找出污染与数百个变量之间的相关性。但是如果历史数据不准确,算法将学习错误的相关性并产生不准确的预测。

第二,关于结构和存储。当AI算法以计算机可读格式存储并且结构一致时,数据对AI算法很有用。医学症状及其相应诊断的一致数据库可用于培训AI医生,而数千个手写的诊断单不能。

在这方面,美国医院、公司和政府机构对中国同行有着巨大的先机,这些同行以前没有在企业软件或数字化数据上投入太多。然而,随着时间的推移,这可能会发生变化,因为中国正在大力投资并激励地方数字化记录并采用人工智能驱动的分析工具。

多样

数据异构性对于训练AI算法与给定任务相关的各种技能非常重要。

由于其多样化的国内人口和许多硅谷公司的全球用户群,美国在这方面具有明显的优势。与微信用户或百度用户相比,Google和Facebook的用户代表的语言、种族和国籍范围更广。

相比之下,面向10亿中国人面孔的面部识别算法将非常适合识别另一个中国人的面孔,但在埃塞俄比亚或挪威部署时可能会遇到困难。同样的挑战适用于具有不同口音的机器翻译和语音识别。

中国的一个潜在优势是拥有深厚消费者数据的用户的经济多样性。虽然美国公司覆盖全球用户,但他们通常不会从这些人群中获取相同的数据深度。

中国企业的全球影响力可能有限,但他们对国内经济多元化人口消费习惯的看法涵盖范围广泛:从一线城市的全球精英到贫穷的山区农民。这些关于经济多元化人口的丰富数据可能会让中国人工智能公司在其他新兴市场中具有交叉潜力。

访问

中国在获取公共空间数据方面具有明显的优势。这些数据是通过国内庞大的安全和交通摄像头网络收集的,这些工具可以通过识别和分析每辆汽车、自行车、公共汽车和行人的运动来“数据化”公共空间。

中国各大城市已经与阿里巴巴等私营企业就“智慧城市”项目发起了数十次合作,允许他们访问这些数据流,以优化从大监控到交通管理的所有方面。中国领先的面部识别初创公司和执法部门之间的伙伴关系同样吸收了数以亿计的面部扫描。

即使有这种机会,感知也常常超过能力的现实。许多已安装的监控摄像机目前还没有配备人工智能技术,甚至那些通常也无法有效地将数据存储或集成到更大系统中的技术。

而美国政府通常以各种理由主动禁止面部识别技术。

发展在哪里

上述评估代表了两个国家今天所处的位置和相对主观的评估。那么这些维度中的哪一个可能会在未来几年发生重大转变?


转载于:综合开发研究院

(https://baijiahao.baidu.com/s?id=1639593049133065766&wfr=spider&for=pc)

联系我们

客服咨询:010-62600260
商务合作:market@golaxy.cn
技术支持:400-901-9755
公司地址:北京市海淀区科学院南路新科祥园甲2号


中科天玑大数据(Golaxy-data)