分析ETL工具十大必备的功能特性
ETL工具的功能之二:平台独立 一个ETL工具应该能在任何平台下甚至是不同平台的组合上运行。一个32位的操作系统可能在开发的初始阶段运行很好,但是当数据量越来越大时,就需要一个更强大的操作系统。另一种情况,开发一般是在Windows或 Mac机上运行的。而生产环境一般是Linux系统或集群,你的ETL解决方案应该可以无缝地在这些系统间切换。 ETL工具的功能之三:数据规模 一般ETL能通过下面的3种方式来处理大数据。 并发:ETL过程能够同时处理多个数据流,以便利用现代多核的硬件架构。 分区:ETL能够使用特定的分区模式,将数据分发到并发的数据流中。 集群:ETL过程能够分配在多台机器上联合完成。 Kettle是基于Java的解决方案,可以运行在任何安装了Java虚拟机的计算机上(包括Windows、Linux和Mac)。转换里的每个步骤都是以并发的方式来执行,并且可以执行多次,这样加快了处理速度。 Kettle在运行转换时,根据用户的设置,可以将数据以不同的方式发送到多个数据流中(有两种几本发送方式:分发和复制)。分发类似与分发扑克牌,以轮流的方式将每行数据只发给一个数据流,复制是将每行数据发给所有数据流。 为了更精确控制数据,Kettle还使用了分区模式,通过分区可以将同一特征的数据发送到同一个数据流。这里的分区只是概念上类似于数据库的分区。 Kettle并没有针对数据库分区有什么功能。 ETL工具的功能之四:设计灵活性 一个ETL工具应该留给开发人员足够的自由度来使用,而不能通过一种固定的方式来限制用户的创造力和设计的需求。ETL工具可以分为基于过程的和基于映射的。 基于映射的功能只在源数据和目的数据之间提供了一组固定的步骤,严重限制了设计工作的自由度。基于映射的工具一般易于使用,可快速上手,但是对于更复杂的任务,基于过程的工具才是组好的选择。 使用Kettle这样基于过程的工具,根据实际的数据和也许需求,可以创建自定义的步骤和转换。 (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |