Verilənlərin təmizlənməsi (ing. Data cleansing) — məlumat bazalarında və digər saxlanma mühitlərində olan verilənlərin səhvlərdən, ziddiyyətlərdən,[1] təkrarlardan və qeyri-dəqiq dəyərlərdən azad edilməsini nəzərdə tutan proses. Bu prosesin əsas məqsədi verilənlərin keyfiyyətini yüksəltmək və onları analiz, hesabat, eləcə də qərarvermə üçün etibarlı hala gətirməkdir. Verilənlərin təmizlənməsi adətən aşağıdakı mərhələləri əhatə edir:[2]
- Düzgünsüzlüklərin aşkarlanması — məlumatdakı format uyğunsuzluqları, boş xanalar və ya məntiqi səhvlərin müəyyən edilməsi.
- Dəqiqləşdirmə — səhv dəyərlərin düzgün məlumat mənbələri ilə müqayisə edilərək düzəldilməsi.
- Təkrarlanmaların silinməsi — eyni məlumatın bir neçə dəfə daxil edilməsinin qarşısının alınması və artıq qeydlərin aradan qaldırılması.
- Standartlaşdırma — tarix, ünvan və digər sahələrin vahid formatda təqdim edilməsi.
Verilənlərin keyfiyyəti məlumatların düzgün, ardıcıl, tam və istifadəyə yararlı vəziyyətdə olmasını ifadə edir. Yüksək keyfiyyətli məlumat analitik modellərin daha dəqiq nəticələr verməsinə imkan yaradır. Keyfiyyətin zəif olması isə səhv qərarlara və maliyyə itkilərinə gətirib çıxara bilər. Verilənlərin təmizlənməsi bu keyfiyyəti qorumaq və artırmaq üçün əsas mexanizmdir. Keyfiyyət dörd əsas meyarla qiymətləndirilir: dəqiqlik, tamlıq, ardıcıllıq və vaxtında yenilənmə. Dəqiqlik məlumatın reallığa uyğunluğunu, tamlıq isə bütün vacib sahələrin doldurulmasını göstərir. Ardıcıllıq müxtəlif mənbələrdən gələn məlumatların bir-biri ilə uyğunluğunu təmin edir. Vaxtında yenilənmə isə köhnəlmiş dəyərlərin operativ şəkildə dəyişdirilməsini nəzərdə tutur. Müasir təşkilatlar məlumat keyfiyyətini artırmaq üçün avtomatlaşdırılmış yoxlama mexanizmlərindən istifadə edirlər. Keyfiyyət göstəricilərinin davamlı monitorinqi problemləri erkən aşkar etməyə şərait yaradır. Bu səbəbdən “data quality” anlayışı təmizləmə prosesinin ayrılmaz hissəsidir.[3]
Verilənlərin təmizlənməsi prosesi ardıcıl mərhələlərdən ibarət olan sistemli bir yanaşmadır. İlk addım məlumat mənbələrinin müəyyənləşdirilməsi və toplanmasıdır. Sonra toplanmış verilənlərdə boş xanalar, səhv formatlar və uyğunsuzluqlar axtarılır. Növbəti mərhələdə təkrarlanan qeydlər silinir və düzgün olmayan dəyərlər mənbə sənədlərlə müqayisə edilərək düzəldilir.[4] Formatlaşdırma və standartlaşdırma bütün sahələrin vahid şablona uyğunlaşdırılmasını təmin edir. Son yoxlama mərhələsində isə məlumatlar keyfiyyət filtrlərindən keçirilir. Bu proses həm avtomatlaşdırılmış alətlər, həm də əl ilə aparıla bilər. Böyük verilənlər mühitində paralel emal texnologiyaları prosesi sürətləndirmək üçün tətbiq olunur. Hər bir mərhələdə sənədləşdirmə aparılması gələcək auditi asanlaşdırır. Təşkilatlar bu proses üçün xüsusi qaydalar və təlimatlar hazırlayır. Nəticədə əldə edilən məlumatlar analitik və qərarvermə məqsədləri üçün etibarlı olur.[5]
Verilənlərin təmizlənməsi sistemi məlumatların emalı üçün nəzərdə tutulmuş texnoloji və təşkilati infrastrukturun cəmidir. Bu sistemlər məlumat bazası idarəetmə proqramları, keyfiyyət yoxlama modulları və monitorinq alətlərini birləşdirir. Müasir platformalar bulud əsaslı həllər üzərində qurularaq yüksək miqyaslana bilmə imkanı yaradır.[6] Sistem daxilində verilənlərin inteqrasiyası və sinxronizasiyası avtomatik həyata keçirilir. Təhlükəsizlik səviyyəsinin yüksək olması məlumatların qorunması üçün vacibdir. Əlavə olaraq, sistemlərdə ehtiyat nüsxə mexanizmləri və bərpa planları qurulur. İstifadəçilər üçün sadə interfeys məlumatların əl ilə yoxlanmasını da asanlaşdırır. Süni intellekt və maşın öyrənməsi modulları anomaliyaların aşkarlanmasında geniş tətbiq olunur. Real vaxt rejimində işləyən sistemlər böyük həcmli məlumatların operativ təmizlənməsinə imkan verir. Təşkilatlar bu sistemləri daxili siyasət və standartlara uyğun şəkildə qurur. Beləliklə, təmizləmə sistemi bütövlükdə məlumat keyfiyyətinin saxlanmasında əsas rol oynayır.
Mövcud təmizləmə alətləri və prosesləri ilə bağlı tənqidlər geniş yayılmışdır. Bir çox alət yalnız müəyyən verilən növləri üçün uyğun olur və çevikliyi məhduddur. Avtomatlaşdırılmış proqramlar kontekstual və semantik səhvləri bəzən aşkar edə bilmir. Əl ilə təmizləmə isə çox vaxt və insan resursu tələb edir. Bəzi kommersiya alətlərinin lisenziya xərcləri kiçik müəssisələr üçün yüksək ola bilər. Müxtəlif mənbələrdən məlumat inteqrasiyası aparıldıqda alətlər arasındakı uyğunluq problemləri yaranır. Təlimatların yetərsizliyi və istifadəçi interfeyslərinin mürəkkəbliyi əlavə çətinlik yaradır. Süni intellekt modulları belə tam etibarlı nəticə vermir və bəzən səhv pozitivlər yaradır. Tənqidçilər açıq mənbə kodlu, standartlara uyğun və miqyaslana bilən həllərin inkişafını vacib hesab edirlər. Həmçinin, etik məsələlər — məsələn, şəxsi məlumatların təmizlənməsi zamanı məxfilik — əlavə narahatlıq doğurur. Bu səbəbdən yeni nəsil texnologiyalara və daha elastik yanaşmalara ehtiyac var.[7]
Səhv hadisə sxemi məlumat axınında baş verən səhvlərin təsnifat və izləmə strukturudur. Bu sxem səhvin növünü, mənbəyini, təsir dərəcəsini və aradan qaldırma metodunu qeyd edir.[8] Məsələn, “format səhvi”, “itkin dəyər” və “təkrar qeyd” kimi kateqoriyalar ayrı-ayrılıqda izlənir. Sxem səhvin baş verdiyi vaxt və məsul sistemi də göstərir. Bu məlumatlar sonrakı analiz və hesabatlar üçün vacibdir. Səhv hadisə sxemi prosesin zəif nöqtələrini aşkarlamağa kömək edir. Təşkilatlar bu sxemləri keyfiyyət idarəetmə sistemlərinə inteqrasiya edir. Avtomatik hesabatlar səhv tezliyini və tendensiyalarını izləyir. Bu struktur gələcəkdə oxşar səhvlərin qarşısını almaq üçün profilaktik tədbirlərin planlaşdırılmasını asanlaşdırır. Həmçinin, auditi sadələşdirərək məsuliyyət bölgüsünü dəqiq göstərir. Beləliklə, error event schema verilənlərin təmizlənməsi prosesinin davamlı yaxşılaşdırılmasına xidmət edir.[9]
- ↑ Wu, S., "A review on coarse warranty data and analysis" (PDF), Reliability Engineering and System, 114, 2013: 1–11, doi:10.1016/j.ress.2012.12.021
- ↑ "Data 101: What is Data Harmonization?". Datorama (ingilis). 14 aprel 2017. 24 oktyabr 2021 tarixində orijinalından arxivləşdirilib. İstifadə tarixi: 14 avqust 2019.
- ↑ Côté, P.-O., Nikanjam, A., Ahmed, N., Humeniuk, D., Khomh, F., "Data cleaning and machine learning: a systematic literature review", Automated Software Engineering, Springer Science and Business Media LLC, 31 (2), 2024, arXiv:2310.01765, doi:10.1007/s10515-024-00453-w
- ↑ Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., Becker, B. The Data Warehouse Lifecycle Toolkit, Wiley Publishing, Inc., 2008. ISBN 978-0-470-14977-5
- ↑ Olson, J. E. Data Quality: The Accuracy Dimension", Morgan Kaufmann, 2002. ISBN 1-55860-891-5
- ↑ McKinney, Wes. Data Cleaning and Preparation // Python for Data Analysis (2nd). O'Reilly. 2017. 195–224. ISBN 978-1-4919-5766-0.
- ↑ van der Loo, Mark; de Jonge, Edwin. Statistical Data Cleaning with Applications in R. Hoboken: Wiley. 2018. ISBN 978-1-118-89715-7.
- ↑ Chu, X., Ilyas, I. F., Krishnan, S., Wang, J., Data Cleaning // Proceedings of the 2016 International Conference on Management of Data, ACM, 2016, 2201–2206, doi:10.1145/2882903.2912574, ISBN 978-1-4503-3531-7
- ↑ Chicco D, Oneto L, Tavazzi E. "Eleven quick tips for data cleaning and feature engineering". PLOS Computational Biology. 18 (12). dekabr 2022: e1010718. Bibcode:2022PLSCB..18E0718C. doi:10.1371/journal.pcbi.1010718. PMC 9754225 (#bad_pmc). PMID 36520712 (#bad_pmid).
- Computerworld: Data Scrubbing (February 10, 2003)