10月20日-10月22日,为期三天的2016年中国计算机大会在太原举办。本届大会主题为“计算改变未来(Computing Changes the Future)”,来自国内外的约5000名计算机行业精英共赴盛会。大会安排80场活动,其中30场为前沿技术论坛,另外50场为技术或专业活动。10月20日下午,在大数据分析挖掘面临的挑战论坛上,中科天玑数据科技股份有限公司董事长程学旗做了“数据科学与大数据智能”主题报告。
该报告分为四个部分:数据科学与大数据工程的挑战、大数据分析智能的三个问题、开放环境下的复杂问题求解、“天玑”大数据引擎与应用。
以下为报告速记概要
数据科学与大数据工程的挑战
首先,程学旗董事长指出关于大数据工程的复杂性挑战表现为系统复杂性、计算复杂性、数据复杂性。数据科学上的基本问题主要是以下四点:
基本度量:核数据与数据量纲
简约计算:简约表达与流式计算
学习推断:非均匀时空下学习推断
全生命周期架构:弹性流数据引擎
大数据分析智能的三个问题
程学旗董事长解释了机器智能与大数据智能的区别。机器智能是指机器模拟或改进人擅长的智能活动,让机器会读、会看、会听、会写、会说,属于模型驱动。大数据智能是从大数据中提取有价值的信息和知识,形成智能预测、决策与控制。如流感传播、股票走势、舆论态势、人肉搜索等,属于数据驱动。数据驱动的智能分析,是以大数据为基础,通过弹性大数据计算架构(数据驱动学习及发现数据内在机制)实现预测和决策。
在数据智能上存在的主要挑战是数据复杂性。针对这一挑战,程学旗董事长提出的研究思路是将数据视作网络,探索其固有的分布规律,结构规则和关联模式;同时,通过度量数据关联网络的复杂性来度量数据的复杂性。主张通过寻找核数据进行简约计算(Scare Free),并以Top-k排序学习、人际影响力判断为例具体剖析这一想法。当前,关键科学问题挑战有三:机制发现--数据驱动力学、数据驱动--大数据机器学习、弹性大数据计算架构。他指出,传统机器学习将模型复杂度转化为特征固定情形下的函数建模问题,尚存在诸多问题,统计内生性很难保证。而大数据情况下,理论上可实现数据的充分表达和内生性假设的合理性。
在文本大数据的表达学习研究框架方面,从数据点,数据对关联和数据间结构的三个层次展开研究,2013年以来取得了一系列的研究成果。
到目前为止,大数据管理与分析引擎已有两代。从结构化数据引擎到批式非结构化数据引擎,再到下一代的通用弹性大数据引擎,目标是实现大数据时代的Oracle。想要实现这一目标,当前的挑战主要有:
融合:结构化/非结构化、离线在线的大数据模型
弹性:弹性资源管理架构
泛流式:分布式泛流计算模型
深度智能:高效的深度智能分析支撑
开放环境下的复杂问题求解
对于复杂问题的决策方式,单向收敛模式为:素材与情报收集---态势统计分析---专家智库分析—领导决策。传统的群智决策一般为综合集成研讨厅。目前,在开放环境下的群智决策包含来自互联网的群体智能,远程研讨人参加,专家群体在中心研讨厅,开放环境、分布式仿真,专家、大众、机器、信息交互等多个方面。随着时代的发展,群智决策模式在不断演变,已成为大规模自助参与者在互联网支持下自主协同所涌现出来的超越个体智力的人类群体智能。人作为计算单元之一,参与到计算过程中。如开源软件开发、维基百科创作、众包商业创新等。
程学旗董事长表示群智决策是人工智能的发展趋势。它有三种模式即封闭环路、平行环路、开放环路。与此相生的相关问题分别是激励机制、增强学习、质量控制、涌现预测模型。程学旗董事长选取了reCAPTCHA、联合问题求解 (AMT众包平台)、功劳分配等案例对此进行详细解释。
天玑大数据引擎与应用
最后,程学旗董事长就中科天玑BDE大数据管理引擎系统、BDA大数据分析引擎系统、BDC在线网络大数据平台等产品向与会者进行简单介绍。同时,还介绍了中科天玑各业务方向的大数据产品线(产品家族):大数据应用服务产品线、大数据系统产品线、大数据安全产品线。
大数据服务事业部致力于全通道大数据获取、汇集、处理、分析,及基于其上的多层次、一体化数据解决方案提供。
事业部立足于中国科学院计算技术研究所二十余年自然语言处理、数据挖掘方向的深入研究及技术积累,并组建专业开发团队将其产品化、实用化,形成集数据处理分析服务、大数据舆情分析挖掘系统、数据分析报告等于一体的多层次解决方案,相关产品多年来应用于政府多个部门及行业内多个企业,为用户业务提供有力的保障和服务。
大数据系统事业部致力于大数据的行业落地,旨在推动传统业务融合大数据技术的模式创新。大数据产品覆盖对传统结构化数据、日志行为数据、内容文本及新媒体数据的存储、关联、分析及深度挖掘;提供Paas层存储管理、SaaS层分析计算以及业务场景深耦合的解决方案。目前已相继形成超融合存储平台、混合式新型数仓、交互式BI、挖掘&学习敏捷建模、一站式ETL等特色产品;并推出金融、能源等领域的融合解决方案。助力用户实现既有业务与大数据技术的链接,使分析能力闭环到生产,实现业务增值。
主要产品:Golaxy UDFS分布式集群存储系统、Golaxy Base分布式列式数据库系统、Golaxy EMDB分布式文档存储数据库系统、Golaxy DSQL分布式数据仓库产品、Golaxy DTube分布式数据总线、Golaxy GraphDB分布式图关系数据库、Golaxy HTS高通量流式分析引擎、Golaxy DiD天玑大数据深度分析系统、Golaxy aBI 天玑敏捷商业智能系统、天玑大数据一体机等。
大数据安全事业部致力于大数据/云基础设施的安全产品研发和一体化安全解决方案的构建。事业部基于在安全方向上多年的项目及产品研发经验,独创了虚拟机带外控制、机外审计等多种特色安全技术,填补了国内在云平台的“虚拟主机”、“虚拟网络”、“虚拟边界”上的安全产品空白,在平台、流式数据和运维管理三个维度上形成了全套的云安全系列产品,解决了大数据/云基础设施的安全防护和可视化运维的难题。
主要产品:“天神”Manito安全虚拟机、“天云”T-Cloud可信云平台、 “天演”Simnet网络安全实验系统、 “天镜”FBA网络业务行为监测系统、 “天梳”ADC高价值业务数据获取系统、 “天源”DBS数据库审计系统、 “天规”SBV网络安全基线配置核查系统、 “天衡”SOC安全态势管理系统等。
关于中科天玑:
大数据技术、大数据安全、大数据应用解决方案专家,专注于大数据安全、大数据存储、大数据分析和挖掘等领域,致力于为政府、公共事业、军工及企业提供定制化的大数据解决方案。
中科天玑是中国科学院计算技术研究所为加速技术成果产业化而成立的高新技术企业,是一家以大数据引擎为驱动的国资大数据核心龙头骨干企业。
从2010年成立至今,成功为中国证监会、中国银监会、国家广电总局、中国移动、中国工商银行等国家党政军部委及各企事业单位提供大数据服务。广泛覆盖政府、国防、安全、科研、教育等领域。