Tutorial DQS untuk Proses Data Cleansing dan Data Matching

Tutorial Data Cleansing dan Data Matching

Perkenalkan nama saya Edo Nur Rahman. Saya mahasiswa S1 Sistem Informasi dari Institut Bisnis dan Informatika Stikom Surabaya.
Disini saya ada tugas dari Mata Kuliah Kualitas Data untuk membuat Tutorial cara melakukan proses Data Cleansing dan Data Matching dengan menggunakan software Data Quality Service (DQS) pada SQL Server.

Dengan Dosen Pembimbing saya Valentinus Roby Hananto jika ingin tahu lebih dekat cek dari Blog Dosen Pembimbing saya :
http://blog.stikom.edu/valentinus

Pertama – tama buka software Data Quality Service di PC atau Laptop kalian



Step 1 : Membuat Knowledge Base menggunakan Knowledge Base (dqs.file) yang sudah disediakan dengan cara import file Knowledge Base.
Sebelum melakukan Data Cleansing dan Data Matching kita harus mempersiapkan Knowledge Base  yang akan di gunakan untuk Data Cleansing dan Data Matching. Disini saya sudah memiliki Knowledge Base yang sudah disediakan oleh Dosen Pembimbing saya.
-          Import Knowledge Base yang sudah kita siapkan untuk melakukan Data Cleansing dan Data Matching dengan cara :

a. Buka software Data Quality Service

b. Di halaman awal Data Quality Service klik New Knowledge Base



c. Kemudian kita masuk di halaman pembuatan Knowledge Base, kita klik Create Knowledge Base from, dan kita pilih Import from DQS file.

d. Untuk memilih file data Knowledge Base kita, klik Browse dan cari file data kita yang sudah disediakan sebelumnya dengan nama AdventureWorks.dqs  dan klik Open

-          Pilih Domain Management, kemudian klik Next. Semua domain dari knowledge base AdventureWorks.dqs akan muncul seperti gambar dibawah ini :

Tahap selanjutnya kita mengatur Domain Rules :

a. Mengatur Domain Rules pada Email Address. Masuk Domain Rules dan pilih email address, Domain Email Address yang kita miliki harus valid dan tidak boleh ada kesalahan. Maka dari itu kita pilih value ends with à dan kita masukkan @adventure-works.com. Artinya akhiran email harus menggunakan @adventure-works.com. Seperti contoh dibawah :



b. Mengatur Domain Values dan Term-Based Relations pada Domain Job Tittle. Masuk Domain Values dan isikan Domain Valuesnya yang berisi macam-macam pekerjaan dan totalnya ada 67 jenis pekerjaan. Seperti contoh dibawah :


Kemudian masuk ke Domain Term-Based Relations pada Domain Job Tittle. Dan atur valuenya maksudnya disini jika ada singkatan seperti contoh “PT” kita masukkan pada Correct to “Production Technician”. Seperti contoh gambar dibawah :




c. Mengatur CD Rules pada Sales Validation. Masuk ke CD Rules dan atur Sales Quota nya seperti gambar dibawah ini :



d. Mengatur Domain pada Title Encrichment. Masuk ke Domain Title Enrichment dan atur CD Rulesnya seperti gambar dibawah ini :



e. Dan ada Domain First yang sudah terhubung (linked)  ke First Name dan Domain First ini menjadi bagian dari Domain Sales Validation karena sudah di Composite Domain. Seperti gambar di bawah ini :



-          Tahap selanjutnya kita klik Finish untuk Publish Knowledge Base yang sudah kita atur Domain Rulesnya.

Step 2 : Melakukan Data Cleansing
1. Masuk halaman awal Data Quality Service.

Klik pada table Data Quality Project, lalu klik pada bagian New Data Quality Project.
2. Isi dan lengkapi Name, Description untuk informasi Data Cleansing yang akan digunakan. Kemudian pada bagian Use Knowledge Base kita pilih Knowledge Base yang sudah kita siapkan yang akan dilakukan proses Cleansing, lalu klik Next.

3. Dan berikut akan muncul gambar seperti yang ada dibawah ini.


4. Disini kita sudah disiapkan data yang akan di Cleansing oleh Dosen Pembimbing kita dengan format file Excel. Kemudian kita pilih pada Data Sourcenya dengan format Excel File, lalu cari dimana file kita yang sudah siapkan tersebut. Pada bagian mapping akan otomatis muncul datanya, lalu klik Next untuk melanjutkan.

5. Klik Start jika kita sudah siap untuk melakukan proses Cleansing Data, seperti pada gambar dibawah ini :


6. Setelah kita Start akan muncul hasil dari proses Cleansing Data kita seperti gambar dibawah, untuk melanjutkan proses kita klik Next


7. Klik Next untuk melanjutkan ke proses Export hasil Cleansing Data kita



8. Akan muncul hasil proses Cleansing Data seperti gambar dibawah, jika kita ingin Export hasil Cleansing, kita pilih terlebih dahulu Format File hasil proses Cleansing Data tersebut. Terdapat 3 Format yang disediakan yaitu, SQL Server, Excel, dan CSV. Pilih Formatnya di menu Destination Type. Selanjutnya kita kasih nama File hasil Cleansing. Dan selanjutnya klik Export.

9. Klik Finish jika sudah Export hasil Cleansing Data kita.

Step 3 : Melakukan Data Matching
1. Pada halaman awal Data Quality Service kita pilih table Knowledge Base, Klik Open Knowledge Base yang telah di buat, setelah itu klik kanan dan pilih Matching Policy.



2. Kemudian kita akan masuk ke Knowledge Base Management. Kita ganti Data Sourcenya dengan Excel File, lalu klik dibagian browse. Kemudian pilih pada file yang sudah kita siapkan tersebut. Setelah itu isi mapping sesuai dengan ketentuan yang sudah ada. Lalu klik Next untuk melanjutkan.


3. Disini kita akan edit rules untuk proses Matching Data sesuai perintah Dosen Pembimbing saya seperti gambar dibawah ini


4. Lalu klik Start pada gambar dibawah ini untuk melakukan proses Matching Data sesuai Rules yang sudah kita buat.


5. Akan muncul tampilan hasil proses Matching Data Rules seperti gambar dibawah ini dan klik Next untuk melanjutkan proses Matching Data

6. Akan muncul tampilan seperti gambar dibawah ini. Lalu klik Start untuk memulai proses Matching Data dan mendapatkan hasil dari Matching Data dengan Rules yang sudah kita buat sebelumnya.

7. Akan muncul hasil dari proses Matching Data kita seperti gambar dibawah ini. Klik Finish untuk Publish hasil Matching Data kita.

8. Kemudian klik Publish untuk menyimpan hasil Matching Data kita.


Demikian Tutorial untuk membuat Knowledge Base yang sudah disiapkan hingga Proses Data Cleansing dan Proses Data Matching dari saya. Jika kurang jelas atau ingin bertanya silahkan isi di kolom komentar.

Komentar