5G、IoT、AI等众多新技术的涌现,人们的工作和生活都发生了极大的变化,一个智能数据时代正在到来。这不仅进一步凸显了大数据的底座价值,也给数据的分析利用带来了更多的挑战。
在今日的在华为云TechWave大数据专题日上,华为云人工智能领域总裁贾永利解读了最新的发展趋势,分享了FusionInsight智能数据湖解决方案等华为云在大数据技术上的实践与创新,以帮助千行百业“管好数据、用好数据”,充分释放数据的价值。
数据分析利用面临多重挑战
回首从90年代到今天,人类经历了PC时代、互联网时代、移动互联网时代,随着不同技术的演进,数据也发生了巨大的变化。
贾永利解读说,首先,数据的规模越来越大。近年来,无论是面向ToB领域、还是ToC领域,随着技术的发展、需求的增长,企业、个人、设备都在时时刻刻产生数据,数据的体积越来越大。
同时,数据种类越来越多,逐步走向多样性。除了我们熟悉的结构化数据,出现了更多的非结构化数据,比如视频、图像、语音、文本等,并且这些多样性的数据需要用多样性的算力去处理,这也给数据处理带来了更加复杂的挑战。
第三,应用对数据处理的时效性要求越来越高。很多场景下,我们需要数据进入系统时就可以被查询、被分析,这个时间差要求越来越短。比如在工业领域,设备的持续数据处理要求就非常高;在金融领域,交易信息、风控信息对数据处理的时延要求亦远超以往。
最后,对于数据融合分析的要求也越来越高。很多场景下,我们希望不止分析当前数据,更希望历史数据和实时数据进行联合分析,随着分析和交易越发紧密、融合,分析的结果、规则越来越多地被注入到实时交易系统中。
不同行业的数据特点与诉求
在解读数据变化以及随之而来的挑战的同时,贾永利亦在发言中剖析了不同行业数据的特点与他们的诉求。
以运营商为例,随着5G的到来,产生的数据、需要处理的数据显著增加。有预测认为,5G的到来将带来至少8倍以上的数据体积膨胀,那么就需要很多处理系统,需要从单集群走向多集群——能不能处理好数据成为一个首要目标。
从广大政企行业来看,越来越多的多样性数据如何统一处理,是否遵循同一套标准、规范,从而能够让整个数据在处理过程中可管可控,更高效协同不同组织、不同厂家进行开发,也极为关键。而像金融领域、工业领域对数据处理的实时性要求极为苛刻,为了避免业务中断过程造成的损失,实时性就成为了核心诉求。
此外,为了高效挖掘数据价值,千行百业的数据融合分析已成大势所趋。是否可以通过一站式的分析平台,全局使用一份数据,从而能够更全面、精准地进行分析,从海量数据中找到客户真正想要的价值,变得越来越重要。
围绕数据全生命周期提供整体解决方案
为了应对企业面临的各种挑战,在数据域,华为云提出了FusionInsight智能数据湖解决方案,围绕客户“采、存、算、管、用”等数据全生命周期提供整体解决方案。
从架构上来看,华为云FusionInsight智能数据湖解决方案是一个开放的架构,充分利用了数据域的处理能力和云自身的云原生(Cloud-Native)能力进行融合,率先做到了真正的基于云原生存算分离的架构和实现,让数据规模可管理不再是一个难题。
华为云FusionInsight智能数据湖方案主要包含MRS大数据、GaussDB(DWS)数据仓库、GES图计算、一站式数据运营平台DAYU等云服务。其中,华为云FusionInsight MRS大数据、GaussDB(DWS)数据仓库,可助力客户在数字化转型中构建坚实的数据底座,并通过HetuEngine数据虚拟化引擎简化用数,提高效率。
同时,为标准化多样性数据,一站式数据运营平台DAYU向下可接入日志、文本、视频、音频、图片等各类型数据,基于多样性算力与CarbonData实现全局一份数据的统一格式存储;向上为伙伴开发50+数据集成开发API,使能数据,携手生态伙伴打造各行业应用。
目前,华为云FusionInsight已广泛应用于政府、金融、运营商、大企业、互联网等行业,携手800多家合作伙伴,为全球60多个国家和地区的3000多家政企客户提供服务。
华为云重磅发布实时数仓产品
为响应政企用户在IoT和运维监控等场景下对数据仓库时效性的需求,华为云发布了GaussDB(DWS) 实时数仓新品,引入了HetuEngine和CarbonDate两个重要引擎,具备快、易、简、省四大特点。
HetuEngine可以帮助企业构建一个虚拟化数据分析引擎,有了这个引擎就可以分析多元、多域更为复杂场景下的数据。CarbonDate可以围绕数据的存储进行一系列优化和数据格式组织,从而实现全局一份数据、以统一的格式存储,能够给北向提供更加丰富的开发API,使数据集成更容易、使用更高效。
在“快”方面,GaussDB(DWS)实时数仓时序数据单机入库性能支持每秒10万条数据、每秒60万条流数据持续计算入库,并可线性扩展。这样无论在工业领域、金融领域,抑或物联网领域,都可以解决很多目前所无法解决的问题。
在“易”方面,GaussDB(DWS) 实时数仓支持基于SQL完成复杂流式计算语义定义,简化开发。以Druid监控的一个场景为例,仅用150行SQL代码就实现了原有1900行Druid脚本同样的功能,实现超过十倍的提升。
在“简”方面,GaussDB(DWS) 实时数仓实现了1 = N。在一个平台内,同时实现Flink/Spark Streaming(流数据处理)+Druid(流数据预聚合)+InfluxDB(时序数据处理),简化了开发和运维工作。
在“省”方面,时序数据经过实时数仓的自适应压缩算法,最高可达40:1的压缩比,将多维度行列存储优化,数据冷热温自动分区,从而极大地减少存储空间,节省用户成本。
“华为云将围绕数据持续进行创新,联合客户和合作伙伴,通过更好的技术,帮助千行百业真正管好自己的数据、用好自己的数据,释放数据的价值。”在发言的最后,贾永利如是说道。