使用Azure Data Factory优雅的迁移SQL Server 2000 DTS包

简介

最近搞了一个好玩的项目,客户的数据库从SQL Server 2000迁移到 Azure SQL 。数据库数据迁移并不是难事,关键客户环境好玩的是使用了50多个DTS包,DTS包是比较古老的产品。很多人估计都没见过了,DTS其实是 SSIS的前生,DTS功能就是实现ETL的过程。

客户的50多个包实现各种数据的复制、转换和集成。

Azure Data Factory 介绍

Azure 数据工厂是 Azure 的云 ETL 服务,用于横向扩展无服务器数据集成和数据转换。 它提供了无代码的 UI,以用于直观创作和集中式监视与管理。 还可以将现有 SSIS 包直接迁移到 Azure,并在 ADF 中运行它们(二者完全兼容)。 SSIS Integration Runtime 提供完全托管的服务,因此无需担心基础结构管理。

一直以为Azure Data Factory 没啥好玩的,直到最近搞这个项目,才发现 Azure Data Factory 也还是有点意思。

但是 Azure Data Factory 与想象中也有点不一样,从实战中有点感悟,总结总结。

目前的Azure Data Factory 有几大组件:

  • 管道

  • 活动

  • 数据集

  • 链接服务

  • 数据流

  • 集成运行时

这几大组件中最难搞的是 :集成运行时 ,其他理解起来都还是很顺,一会详解

项目 说明
管道 管道是执行任务单元的活动的逻辑分组。 管道中的活动可以共同执行一项任务; 管道理解为了实现一个功能或者一项活动的分组。每个管道可以包含无数的活动,每个活动一般具备流程关系,一步步进行。
活动 活动是具体的每个步骤,某个需要进行的功能的实现。
数据集 数据集代表数据存储中的数据结构,这些结构直接指向需要在活动中使用的数据,或者将其作为输入或输出引用。
链接服务 链接服务十分类似于连接字符串,用于定义数据工厂连接到外部资源时所需的连接信息。 不妨这样考虑:链接服务定义到数据源的连接,而数据集则代表数据的结构。 例如,Azure 存储链接服务指定连接到 Azure 存储帐户所需的连接字符串。 另外,Azure Blob 数据集指定 Blob 容器以及包含数据的文件夹。
集成运行时 集成运行时(IR)是由 数据工厂 使用的计算基础结构,用来跨不同网络环境提供数据集成功能。 Azure Integration Runtime 可用于通过可公开访问终结点连接到公用网络中的数据存储和计算服务。 对专用网络/本地网络使用自承载集成运行时。

项目步骤

这次项目中是迁移SQL Server2000 的DTS 。

第一步:是将SQL 2000数据库 迁移到 SQL 2008 R2

第二步:然后迁移到了Azure SQL Database

第三步:将SQL 2000 的DTS迁移到 Azure Data Factory

由于 SQL 2000的DTS 是很古老的东西,然后又很复杂,比如可能是这样的

这个包共有8个步骤,而最复杂的包有17个步骤,由于DTS是可以嵌套包,也就是17个步骤里面有很多步骤嵌套包,也就是说步骤总部加起来就会有至少70~80个步骤。

使用Azure Data Factory 就相当于把每个步骤在Azure Data Factory上重新编写。

关键过程

链接服务

Azure Data Factory的关键配置有:

  • 链接服务

  • 集成运行时

新建链接服务:

需要选择需要链接的服务类型

选择类型后,在配置界面需要:配置集成运行时,这里才是最困难的。

集成运行时

点击新建集成运行时,有几种可选,

大分类

1、Azure ,自承载

大概我理解在使用中,链接Azure 云使用 Azure集成运行时,而内网和专用网络 需要使用 自承载运行时。选择自承载运行时,大坑来了。。。

需要在本地网络中安装一台服务器来运行集成运行时。惊不惊喜,意不意外。这个鬼东西就相当于一个datagateway。。。前面文档中就没有看到有这样的描述。也就是说本来客户是迁移一个老旧服务器到PaaS的平台,这倒好,还要搭上一台新服务器专门做集成服务。

2、Azure-SSIS

选择 Azure-SSIS,本来另外一种方案是将DTS包转换为SQL 2008R2 SSIS ,然后直接部署到Azure-SSIS运行,到这里发现几个问题

  • SSIS转换后的包基本不可用,因为链接的对象都变成了Azure SQL,和之前完全不一样。没有办法兼容使用

  • SSIS的收费确实比较喜人~~

数据集创建

创建好链接服务、集成运行时,就需要创建数据集,从某角度讲,所有数据的迁移和转换等各种过程,都是从一个数据集到另外一个数据集,数据集可以理解为特殊的数据表,可以是实体表、虚拟表、视图,查询等

有了集成服务后、创建链接服务,就可以进行管道创建,在此案例中,可以看到数据集创建了135个,也就是中间进行数据转换使用等过程中使用到了135个数据集。

创建数据集

选择数据集类型

选择相应的连接服务,就可以选择相应的数据库的表,如果需要执行查询,可以随意选择一个数据表,在复制过程中去设置查询语句

管道创建

新建管道,界面如下:

管道就是由许多的活动组成,在左侧可以看到可以进行的活动。

利用这些活动可以进行相应的数据各种活动。

举个例子:

像这个管道里面,执行了17个活动,包括了很多复制 和很多存储过程的执行。

创建触发器

管道创建好后需要执行,执行办法就是创建触发器。

监视

管道执行过程可以在监视中看到

管道调试过程中也可以看到,需要在管道调试的时候点击详细可以看到运行的详细情况:

其他

Azure Data Factory与DevOps进行集成,也就是编写管道随时可以进行保存,也可以回溯。非常方便。

另外 ADF还有很多功能未曾使用,目前看来功能还是可以,在进行日常的ETL过程是够用的。文章来源地址https://uudwc.com/A/pb4k

原文地址:https://blog.csdn.net/capsicum29/article/details/122016733

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

h
上一篇 2023年06月13日 07:43
解决Win因缺少OpenAL32.dll文件无法启动程序问题
下一篇 2023年06月13日 07:43