top of page

Veri Temizleme Nasıl Yapılır? Aşamalar, Örnekler ve Uygulama Rehberi

Veri temizleme; bir veri setindeki tutarsızlıkların, hataların ve eksik bilgilerin tespit edilip düzeltilmesi veya kaldırılması sürecidir.Amaç, verinin doğruluğunu, geçerliliğini ve bütünlüğünü artırarak analiz için güvenilir hale getirmektir.


Veri temizleme sürecinde araştırmacı, hatalı (örneğin yanlış girilmiş kilo değeri), eksik (örneğin yaş bilgisi boş) veya biçimsel olarak uyumsuz verileri sistematik biçimde kontrol eder ve düzeltir. Bu işlem “veri arıtma”, “veri temizliği” ya da “veri doğrulama” olarak da adlandırılır.

Veri temizleme nedir nasıl yapılır

Veri Temizleme Neden Önemlidir?

Nicel araştırmalarda toplanan veriler, istatistiksel analizlerle hipotezlerin sınanmasında kullanılır. Ancak, temizlenmemiş (kirli) veriler, hatalı sonuçlara veya yanlış yorumlara yol açabilir.


Örnek:

Bir araştırmada yorgunluk giderici bir ilacın etkisi incelenmektedir. Katılımcılara 1’den 7’ye kadar derecelendirmeli Likert tipi sorular yöneltilmiştir. Bazı sorular olumlu (“Sabah dinlenmiş hissediyorum”), bazıları olumsuz (“8 saat uykudan sonra kendimi enerjik hissetmiyorum”) biçiminde yazılmıştır. Olumsuz ifadelerin ters kodlanmaması, analizde yönsel hata oluşturur ve sonuçlar geçerliliğini kaybeder.


Bu tür hatalar, Tip I (yanlış pozitif) veya Tip II (yanlış negatif) hatalara neden olabilir; yani ilaç etkisizken etkiliymiş gibi veya etkiliyken etkisizmiş gibi yorumlanabilir. Bu da araştırma kaynaklarının yanlış yönlendirilmesine yol açar.


Kirli ve Temiz Veri Arasındaki Fark

Kirli Veri

Temiz Veri

Geçersiz

Geçerli

Hatalı

Doğru

Eksik

Tam

Tutarsız

Tutarlı

Yinelenmiş

Benzersiz

Biçimsiz

Standart

Geçerli Veri

Geçerli veri, belirli bir tür veya aralık kuralına uyan veridir. Örneğin doğum tarihi alanında yalnızca “gg-aa-yyyy” formatı geçerliyse, “2024-32-05” değeri geçersizdir. Bu tür geçerlilik kontrolleri, veri doğrulama (validation) aşamasında yapılır.


Doğru (Kesin) Veri

Doğruluk, ölçülen değerin gerçek değere ne kadar yakın olduğunu gösterir. Yanlış formüle edilmiş ya da çok anlamlı sorular (örneğin “biweekly” – haftada iki kez mi yoksa iki haftada bir mi?) veri doğruluğunu düşürür.


Tam Veri

Tam veri, eksiksiz doldurulmuş kayıtlardan oluşur. Eksik veriler (“boş hücreler”) analiz gücünü zayıflatır ve sapmaya yol açabilir.


Tutarlı Veri

Tutarlılık, aynı katılımcıya ait verilerin birbirini mantıksal olarak desteklemesidir. Örneğin, 13 yaşında bir bireyin “doktora mezunu” olarak kaydedilmesi açık bir tutarsızlıktır.


Benzersiz Veri

Aynı katılımcının verisinin birden fazla kez kaydedilmesi (örneğin formun iki kez gönderilmesi) tekrarlı veri (duplicate) oluşturur. Bu kayıtlar silinmezse sonuçlar ağırlıklı olarak o kişiye kayar.


Standart Veri

Veriler aynı ölçü biriminde olmalıdır. Örneğin, katılımcılardan maaşlarını “TL – aylık” belirtmeleri istenmişse, yıllık veya farklı para birimleriyle girilen veriler standardize edilmelidir.


Veri Temizleme Süreci

Veri temizleme süreci her veri setine göre farklılık gösterse de temel adımlar genellikle şöyledir:

  1. Veri doğrulama

  2. Veri tarama

  3. Veri tanılama

  4. Düzeltme veya kaldırma

Amaç, olabildiğince fazla veriyi korurken geçerli, tutarlı, eksiksiz ve standart bir veri seti elde etmektir.


1. Veri Doğrulama

Veri doğrulama, verilerin belirli tür, aralık veya zorunluluk kurallarına uygun girilmesini sağlar. Bu adım genellikle veri toplanmadan önce, ölçüm araçları veya formlar tasarlanırken uygulanır.


Doğrulama Türleri:

  • Tür kısıtlaması: Yalnızca sayı, tarih veya metin biçiminde girişe izin verir.

  • Aralık kısıtlaması: Örneğin yaş yalnızca 18–45 aralığında olmalıdır.

  • Zorunluluk kısıtlaması: Belirli alanların boş geçilmesi engellenir (“Katılıyorum” onayı gibi).


2. Veri Tarama

Veri toplandıktan sonra orijinal dosyanın yedeği alınır ve kopya üzerinde çalışılır. Tarama sürecinde:

  • Boş satırlar ve sütunlar kaldırılır.

  • Değişken adları mantıklı biçimde yeniden düzenlenir.

  • Format hataları, eksik değerler, yinelenen satırlar ve uç değerler (outliers) gözden geçirilir.

  • Görselleştirme araçları (kutugrafik, histogram, dağılım grafiği) kullanılarak veri dağılımı incelenir.

Bu adım, verideki olağan dışı durumların belirlenmesini sağlar.

Veri temizleme süreci nedir kaç aşamadan oluştur

3. Veri Tanılama

Bu aşamada, tespit edilen sorunların türüne göre sistematik bir müdahale planı oluşturulur. Yalnızca “göze çarpan” verileri temizlemek veri yanlılığına neden olur; bu yüzden her adım standartlaştırılmalıdır.


Temel hata türleri ve çözüm yolları:

a) Yinelenen Veriler

Aynı katılımcıya ait iki satır tespit edilirse, yalnızca biri korunur. Bu işlem “de-duplikasyon” olarak adlandırılır.


b) Geçersiz Veriler

Veri biçimlerini birörnek hale getirmek için veri standardizasyonu uygulanır. Örneğin yaşlar “23”, “yirmi üç”, “23 yaşında” gibi farklı biçimlerdeyse, “23” olarak dönüştürülür. Bu işlemde dizgi eşleme yöntemleri kullanılır:

  • Katı eşleme: Tam uyum gerektirir.

  • Bulanık eşleme: Yakın uyumları kabul eder (“eihgteen” → “eighteen” gibi).


c) Eksik Veriler

Eksik hücreler rastgele oluşmuşsa genellikle bırakılır; sistematikse ya silinir ya da tahmin (imputasyon) yöntemiyle tamamlanır. Ancak bu işlemler açık biçimde belgelenmelidir.


d) Aykırı Değerler

Uç değerler ya doğal farklılıkları (örneğin sporcu performansları) ya da hata kaynaklı sapmaları temsil eder. Doğal olanlar korunur, hatalı olanlar açıklama yapılarak çıkarılır.


4. Temiz Veri Seti Oluşturma ve Belgelenme

Tüm işlemler tamamlandığında, elde edilen veri seti;

  • Geçerli,

  • Tutarlı,

  • Eksiksiz,

  • Standartbir yapıya sahip olmalıdır.

Ayrıca yapılan her değişiklik ve karar, şeffaflık ve tekrarlanabilirlik açısından belgelenmelidir. Bu, araştırmanın bilimsel güvenilirliğini artırır.


❓ Veri Temizleme Hakkında Sık Sorulan Sorular

1. Veri temizleme nedir?

Veri temizleme; bir veri setindeki hatalı, tutarsız veya eksik bilgilerin tespit edilip düzeltilmesi ya da kaldırılması sürecidir.


Amaç, verinin doğruluğunu artırarak analiz için güvenilir hale getirmektir. Bu süreçte araştırmacı, kirli verileri gözden geçirir, analiz eder, düzenler veya siler. “Veri arıtma” ya da “veri doğrulama” olarak da adlandırılır.

2. Veri temizleme neden önemlidir?

Veri temizleme, geçerli ve güvenilir analizler için zorunludur.


Kirli veriler tutarsızlıklar ve hatalar içerir; bu durum yanlış sonuçlara veya istatistiksel hatalara (Tip I veya Tip II) yol açabilir.


Bu tür hatalar, araştırma sonuçlarının yanlış yorumlanmasına, yanlış yatırımlara veya fırsat kayıplarına neden olabilir.

3. Veri temizleme ne zaman yapılır?

Veri temizleme genellikle veri toplama ile veri analizi arasındaki aşamada yapılır.Ancak, bazı doğrulama yöntemleri veri toplama öncesinde de uygulanabilir.

  • Veri girişinde doğrulama kuralları (örneğin aralık veya tür kısıtlaması) hatalı girişleri en aza indirir.

  • Veri toplandıktan sonra standardizasyon, dönüştürme, eksik değer tamamlama, aykırı değer inceleme ve yinelenen kayıtların temizlenmesi işlemleri yapılır.

4. Temiz veri ile kirli veri arasındaki fark nedir?

Temiz veri, geçerli, doğru, eksiksiz, tutarlı, benzersiz ve birörnek (standart) özellik taşır. Kirli veri ise hatalı, eksik veya biçimsel olarak tutarsız bilgileri içerir.


Kirli veri; kötü araştırma tasarımından, ölçüm hatalarından veya yanlış veri girişlerinden kaynaklanabilir. Temiz veri ise analiz sürecinde güvenilirlik ve geçerlilik sağlar.


Yorumlar


bottom of page