加入收藏 | 设为首页 | 会员中心 | 我要投稿 好传媒网 (https://www.haochuanmei.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

在荒芜的数据科学领域中建立架构思维

发布时间:2019-03-08 18:24:15 所属栏目:教程 来源:Romeo Kienzler
导读:致谢:感谢 Kevin Turner 多次审查本文档并提供宝贵意见。 数据科学家都倾向于使用一些临时性方法。以创新方式非法侵入各种编程语言脚本的行为,在遍布于服务器和客户端上的各种机器学习框架中随处可见。我并不是要抱怨数据科学家的工作方式。我发现自己经

最后,数据科学家负责打造有史以来最先进的厨房!他们不会采用任何现有的厨房设计。他们会利用个别的现成组件,但也会根据需要创建原创部件。数据科学家与应用程序架构设计师的交互最为频繁。如果对厨房有特殊要求,那么数据架构设计师可能需要提供基础架构。记住这个比喻后,我们再来看一下,如果厨房由数据科学家独立打造,它会变成什么样?它将成为一个功能齐全的厨房,具有很多功能,但很可能欠缺适用性。例如,要启动烤箱,,您需要登录到 Raspberry Pi 并运行一个 Shell 脚本。由于各个部件来自不同的供应商(包括某些定制硬件),因此厨房的设计可能并不美观。最后,它虽然提供了大量的功能,但其中有些功能并不必要,而且大部分功能都没有相应的文档记录。

再次从 IT 角度来看,此示例展示了原先问题的答案。在此过程中,富有创造力的全能数据科学家将如何一展身手呢?

数据科学家很少与企业架构设计师进行交互。他们可能会与解决方案架构设计师进行交互,但必然会与应用程序架构设计师和数据架构设计师紧密合作。他们不需要承担对方的角色,但必须能够从对方的角度来理解对方的想法。由于数据科学是一个新兴的创新领域,因此数据科学家必须与架构设计师从同样的角度(应用程序开发者或数据库管理员则不必如此)来思考问题,才能转变和影响企业架构。

我将使用一个示例来说明这其中的含义,以此作为本文的总结。考虑如下架构准则:采用 R-Studio Server 作为企业中的标准数据科学平台,所有数据科学项目都必须使用 R。此软件已经过企业架构设计师核准,内部部署的 R-Studio Server 自助服务门户网站是由解决方案架构设计师设计的。数据科学家使用可显著提升模型性能的 TensorFlow 后端来查找用 Python 编写的 Keras 代码片段。此代码为开源代码,由人工智能领域最智慧的大师之一负责维护。数据科学家只需一小时即可将此代码片段注入其笔记本上运行的数据处理管道(没错,他们就是在笔记本上建立原型的,因为他们真的不喜欢所提供的 R-Studio Server 安装)。那么,您认为这样做之后会发生什么呢?

在以往企业架构设计师全知全能的时代,数据科学家可能被迫将代码移植到 R 上(使用不太复杂的深度学习框架)。但这其中存在一种可能性。数据科学家应该能够在需要时使用此代码片段。但如果在没有任何指导的情况下这样做,那么可能导致数据科学领域成为一片荒芜之地。

因此,我来介绍一下现有流程模型和参考架构,看看是否以及如何将传统的架构领域与新兴的数据科学领域相结合。

数据科学领域的现有流程模型概述

CRISP-DM

CRISP-DM 代表跨行业的标准数据挖掘流程 (Cross-industry Standard Process for Data Mining),这是使用最广泛的开源流程模型(前提是已使用流程模型)。CRISP-DM 定义了构成数据科学项目的一系列阶段。最重要的是,这些阶段之间的转换为双向转换,整个流程为迭代式流程。这意味着,在到达最终阶段后,将会重新开始整个流程并对您的工作进行优化。下图演示了这一流程。

CRISP-DM 流程模型。作者 Kenneth Jensen,参考文献:IBM SPSS Modeler CRISP-DM Guide

在我看来,此流程模型已经是一个很好的开端。但由于它只是一个流程模型,所以假定已经制定了有关所用技术的架构决策并且已经满足 NFA 需求。因此,CRISP-DM 模型适用于采用固定技术的环境(如传统企业数据仓储或商业智能项目)。

而在像数据科学这样快速发展的领域,它还不够灵活。

ASUM-DM

由于 CRISP-DM 存在缺陷,因此 IBM 于 2015 年发布了“适用于数据挖掘/预测分析的分析解决方案统一方法” (Analytics Solutions Unified Method for Data Mining/Predictive Analytics, ASUM-DM) 流程模型。它以 CRISP-DM 为基础,但经过扩展后包含基础架构、操作、项目和部署方面的一些任务和活动,并为所有任务添加了模板和准则。ASUM-DM 开放版本可供下载使用,但只有 IBM 客户才能获取全功能版本。(有关更多信息,联系 asmarket@us.ibm.com。)

ASUM-DM 是更通用的“分析解决方案统一方法” (ASUM) 框架的一部分,此框架提供了特定于产品和特定于解决方案的实施路线图,并涵盖了所有 IBM Analytics 产品。

ASUM-DM 借鉴了来自 ASUM 的流程模型,如下图所示。

在荒芜的数据科学领域中建立架构思维

分析解决方案统一方法 (ASUM) 流程模型。来源:IBM 公司

IBM Cloud Garage Method

在 2001 年发布 Manifesto for Agile Software Development 后,Waterfall 或 V-Model 之类的许多流程开始逐渐退出历史舞台。导致这种模式转变的主要原因是 20 世纪 90 年代发生的软件开发危机,在当时,软件开发尚达不到业务利益相关者对产品上市时间和灵活性的快速增长期望。

由于企业客户通常难以过渡到敏捷流程,所以 IBM 创建了 IBM Cloud Garage Method,这是一种敏捷软件架构方法,可根据企业转型需求进行定制。此方法同样可以分为多个不同阶段,如下图所示。

在荒芜的数据科学领域中建立架构思维

IBM Cloud Garage Method。来源:IBM 公司

(编辑:好传媒网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读