top of page

Uygulamalı Veri Analizi: SPSS ile Diskriminant ve Kümeleme Yöntemleri

Sınıflandırma Yöntemleri Nedir? Ne İşe Yarar?

  • Veri analizinde sınıflandırma (classification) yöntemleri, gözlemlerin ait olduğu grubu tahmin etmek veya bu grupları yeniden oluşturmak için kullanılan temel analiz türlerindendir.

  • Özellikle gözlemsel verilerle çalışan araştırmalarda, gruplar arası farkları keşfetmek ve yeni gözlemleri bu gruplardan birine doğru şekilde atamak son derece önemlidir.

Bu yazıda, iki temel sınıflandırma yöntemini ele alıyoruz:


1. Diskriminant Fonksiyon Analizi (Discriminant Function Analysis)

Mevcut grup bilgilerine (örneğin: A ve B tipi bireyler) dayanarak, hangi bağımsız değişkenlerin bu grupları en iyi ayırt ettiğini bulur ve yeni verilerin hangi gruba ait olduğunu tahmin etmeye yarar.


2. Kümeleme Analizi (Cluster Analysis)

Etiket bilgisi olmadan (etiketsiz veri ile), gözlemler arasındaki benzerliklere göre doğal grupları (kümeleri) ortaya çıkarır. Sıklıkla keşifsel veri analizinde kullanılır.

Bu yöntemleri, antropolojik bir veri seti olan Tibet kafatası ölçümleri üzerinden SPSS ortamında uygulayacağız.


Antropolojik Uygulama: Tibet Kafatası Verisi Üzerinden Sınıflandırma

Veri Setinin Arka Planı

Veri, Morant (1923) tarafından yayımlanmış ve fiziksel antropoloji literatüründe referans niteliğindedir. Ölçümler, Tibet’in güneybatısındaki Sikkim bölgesi ile doğudaki Lhasa savaş alanından toplanan toplam 32 kafatasına aittir.


Gruplar:

  • Tip A (Sikkim): 17 örnek

  • Tip B (Lhasa): 15 örnek


Ölçülen Değişkenler (mm cinsinden):

  1. En uzun kafatası uzunluğu

  2. Yatay genişlik

  3. Kafatası yüksekliği

  4. Yüz uzunluğu

  5. Elmacık kemikleri arası mesafe

Bu ölçümler aracılığıyla kafataslarının hangi gruba ait olduğu belirlenebilir mi? Veya etiket olmadan doğal kümeler oluşturulabilir mi? Aşağıda bu iki yöntemi SPSS'te nasıl uygulayacağımızı anlatıyoruz.


Aşğıdaki dosya indirme bağlantısından veri setini indirebilir ve inceleyebilirsiniz.


Aşağıdaki görselde, veri setinin değişken tanımlamaları yapılmış, grup değişkeni yeniden kodlanmış ve Diskriminant Fonksiyon Analizi ve Kümeleme Analizi için SPSS yazılımında Data View ekranında analiz öncesi hazır hale getirilmiş düzenlenmiş versiyonu görüntülenmektedir.

Aşağıdaki görselde, veri setinin değişken tanımlamaları yapılmış, grup değişkeni yeniden kodlanmış ve Diskriminant Fonksiyon Analizi için SPSS yazılımında Data View ekranında analiz öncesi hazır hale getirilmiş düzenlenmiş versiyonu görüntülenmektedir.

SPSS Uygulamalı: Diskriminant Fonksiyon Analizi

Amaç:

Verilen ölçümlere göre yeni bir kafatasının Tip A mı yoksa Tip B mi olduğunu yüksek doğrulukla tahmin etmek.

SPSS Uygulama Adımları:

  1. Veriyi Sayısallaştır: kafatasi_turu değişkenini A=1, B=2 olacak şekilde yeniden kodla:Transform > Recode into Different Variables...

  2. Diskriminant Analizi Menüsü:Analyze > Classify > Discriminant...

  3. Ayarlar:

    • Group Variable: grup_kod (1 = A, 2 = B)

    • Independents: 5 ölçüm değişkeni

    • Define Range: 1 to 2

    • Statistics:

      • Means

      • Separate-groups covariance

      • Box's M

      • Unstandardized & Standardized Coefficients

    • Classify... penceresinde:

      • Within-groups covariance

      • Summary Table

      • Leave-one-out classification

  4. Çıktıların Yorumu:

    • Canonical Correlation: Ayrım gücü

    • Wilks’ Lambda (p<0.05): Gruplar arası fark anlamlı mı?

    • Classification Results: Modelin sınıflandırma başarısı


Uygulamalı Diskriminant Analizi: Kafatası Tipi Sınıflandırmasında %81,3 Başarı

Uygulamalı Diskriminant Analizi: Kafatası Tipi SınıflandırUygulamalı Diskriminant Analizi: Kafatası Tipi Sınıflandırmasında %81,3 Başarımasında %81,3 Başarı

Diskriminant Fonksiyon Analizi sonucunda elde edilen sınıflandırma tablosu, SPSS çıktısı üzerinden değerlendirilmiştir. Analiz sonucuna göre, model hem öğrenme (original) hem de çapraz doğrulama (cross-validated) kapsamında başarı oranları sunmaktadır.


Analiz Sonuçlarının Yorumlanması

1. Orijinal Sınıflandırma Başarısı: %81,3

  • Toplam 32 gözlem içeren veri setinde:

    • Tip 1 (Grup A) üyelerinin %82,4’ü doğru sınıflandırılmıştır.

    • Tip 2 (Grup B) üyelerinin %80,0’ı doğru sınıflandırılmıştır.

  • Genel olarak model, orijinal veriye göre %81,3 doğruluk oranı ile sınıflandırma yapmıştır.

  • Bu, modelin eğitim verisine oldukça iyi uyum sağladığını gösterir.


2. Çapraz Doğrulama Sonucu: %65,6

  • Çapraz doğrulama (cross-validation), her bir bireyin diğerlerinden bağımsız olarak değerlendirilmesiyle yapılır ve modelin genellenebilirliğini test eder.

  • Bu aşamada:

    • Tip 1’in doğru sınıflandırılma oranı %70,6

    • Tip 2’nin doğru sınıflandırılma oranı %60,0

  • Toplam başarı: %65,6

  • Bu oran, modelin yeni gözlemler üzerinde orta düzeyde başarılı olabileceğini göstermektedir.


3. Yanlış Sınıflandırmaların İncelenmesi

  • Tip 1’e ait 3 birey, yanlışlıkla Tip 2 olarak sınıflandırılmış.

  • Tip 2’ye ait 3 birey ise Tip 1 olarak tahmin edilmiş.

  • Bu, özellikle benzer morfolojik yapıya sahip bireylerde sınırların bulanıklaştığını gösterebilir.


Sonuç ve Değerlendirme

  • Diskriminant fonksiyon analizi, Tip A ve Tip B kafataslarını ölçümler temelinde ayırmada etkili bir yöntem olduğunu kanıtlamıştır.

  • %81,3 gibi yüksek bir eğitim seti doğruluğu, ölçümlerin sınıflandırıcı gücünü göstermektedir.

  • %65,6'lık çapraz doğrulama başarısı ise yeni veri üzerindeki performansın makul olduğunu ancak daha fazla veriyle modelin geliştirilebileceğini ima eder.

  • Bulgular, kafatası ölçümlerinin antropolojik köken ayrımı için istatistiksel olarak anlamlı ve uygulanabilir olduğunu desteklemektedir.


Aşağıdaki dosya indirme bağlantısından diskriminant fonksiyon analizi uygulamalı veri analizi spss çıktılarını indirebilir ve inceleyebilirsiniz.


SPSS Uygulamalı: Kümeleme Analizi

Amaç:

Etiket olmadan (A/B bilgisi verilmeden), sadece ölçümler üzerinden doğal gruplar oluşuyor mu, bunu test etmek.

SPSS Uygulama Adımları:

  1. Veriyi Standartlaştır: Analyze > Descriptive Statistics > Descriptives → Save standardized values as variables

  2. Hiyerarşik Kümeleme: Analyze > Classify > Hierarchical Cluster...

    • Method: Between-groups linkage veya Ward’s method

    • Measure: Euclidean Distance

  3. Alternatif: Analyze > Classify > K-Means Cluster...

    • Number of Clusters = 2

    • 5 ölçüm değişkenini gir


Kümeleme Analizi Veri İşleme Özeti: Tüm Gözlemler Dahil Edildi

Kümeleme Analizi Veri İşleme Özeti: Tüm Gözlemler Dahil Edildi

1. Tablonun Anlamı

  • Case Processing Summary tablosu, kümeleme analizine kaç gözlemin dahil edildiğini ve eksik veri olup olmadığını gösterir.

  • Bu tablo kümeleme analizinin başlangıç noktasıdır; veri kalitesini ve kapsamını özetler.


2. Analiz Edilen Gözlem Sayısı

  • Valid (Geçerli): 32 gözlem (%100,0)

  • Missing (Eksik): 0 gözlem (%,0)

  • Bu, veri setindeki tüm 32 kafatası ölçümünün analizde kullanıldığını gösterir.


3. Kullanılan Mesafe ve Yöntem Bilgisi

  • Squared Euclidean Distance: Kümeler arası uzaklık ölçütü olarak kareli Öklid mesafesi kullanılmıştır. Bu, en yaygın ve standart mesafe ölçütüdür.

  • Average Linkage (Between Groups): Kümeler arası bağlantı yöntemi olarak ortalama bağlantı kullanılmıştır. Bu yöntem, kümeler arası mesafeyi iki küme içindeki tüm bireylerin ortalama mesafesi olarak hesaplar.


4. Veri Kalitesi Açısından Önemi

  • Eksik veri olmaması, kümeleme sonuçlarının güvenilirliğini artırır.

  • Eksik veri olsa idi, SPSS ya o gözlemleri analiz dışında bırakırdı ya da tahminle doldururdu.


5. Genel Yorum

  • Bu tablo, kümeleme analizinin veri temelinin sağlam olduğunu gösterir.

  • Tüm örnekler analize dahil edildiği için kümelerin oluşumu veri setinin tamamını temsil eder.

  • Sonraki adım, Agglomeration Schedule ve Dendrogram tablolarını inceleyerek kaç kümenin uygun olduğuna karar vermektir.


Özet: Bu tablo kümeleme analizinin tam ve eksiksiz veriyle gerçekleştirildiğini gösterir. 32 gözlemle analiz yapmak, modelin bütün veri seti üzerinden kümeleri oluşturduğu anlamına gelir.


Agglomeration Schedule Analizi: Doğal Küme Sayısının Belirlenmesi

Average Linkage (Between Groups) - Agglomeration Schedule - September 13, 2025

1. Tablonun Amacı

  • Agglomeration Schedule tablosu, kümeleme sürecinin her aşamasında hangi kümelerin birleştirildiğini ve bu birleşme için kullanılan benzerlik/mesafe katsayısını (Coefficient) gösterir.

  • Coefficient değeri ne kadar düşükse kümeler birbirine daha benzer, ne kadar yüksekse o kadar uzak/ayrık olduklarını gösterir.


2. Küme Sayısını Tahmin Etmek

  • Doğal küme sayısını bulmak için Coefficient değerlerindeki ani sıçramalara bakılır.

  • Tabloya baktığımızda:

    • İlk aşamalarda (Stage 1–10) katsayılar 9,250 → 79,250 arasında yavaş artıyor.

    • Stage 14’ten sonra katsayılar hızlı yükseliyor (94,583 → 101,393 → 148,750 …).

    • Stage 20’den sonra 163,500 → 185,864 → 197,750 → 220,229 şeklinde ciddi artışlar başlıyor.

    • Stage 26’dan sonra 398,875 → 414,833 → 463,838 → 474,250 → 597,410 → 821,103 dev sıçramalar oluyor.

Bu desen, yaklaşık 2 kümeli bir çözümün veri yapısına uygun olabileceğini gösteriyor (çünkü 2 küme kaldığında mesafe birden sıçrıyor).


3. İki Kümeli Çözümün Dayanağı

  • Genellikle dendrogramda da bu sıçrama net gözükür.

  • Agglomeration Schedule’da sondan bir önceki aşama (Stage 30) 597,410 iken son aşama (Stage 31) 821,103 oluyor.Bu büyük sıçrama, “birleşmeden hemen önce” iki ayrı küme olduğunu işaret eder.


4. Kümelerin Yorumlanması

  • Senin verinde Tip A ve Tip B olarak iki grup zaten vardı. Kümeleme analizi de bu ayrımı dolaylı olarak destekliyor olabilir.

  • Ancak kümelerin birebir Tip A ve Tip B ile örtüşüp örtüşmediğini anlamak için dendrogram veya SPSS çıktısında “Case Number by Cluster” tablosuna bakmak gerekir.


Özet

  • Agglomeration Schedule tablosundaki coefficients değerlerinin kademeli artışı ve Stage 30–31 arasındaki dev sıçrama, veri setinde doğal olarak 2 küme bulunduğunu işaret ediyor.

  • Bu da Morant’ın (1923) önerdiği Tip A ve Tip B kafatası gruplarının kümeleme analizinde de desteklendiğini düşündürüyor.

  • Daha detaylı doğrulama için dendrogramda küme çizgisini 2 küme seviyesinde keserek gözlem bazında inceleme yapılmalı.


Vertical Icicle Grafiği: Kümeleme Analizi Sonuçlarının Görselleştirilmesi

Vertical Icicle Grafiği: Kümeleme Analizi Sonuçlarının Görselleştirilmesi

1. Grafiğin Amacı

  • Vertical Icicle grafiği, Hierarchical Cluster (Hiyerarşik Kümeleme) analizi sonrası her bir gözlemin hangi kümeye dahil olduğunu ve küme birleşmelerinin hangi aşamalarda gerçekleştiğini gösterir.

  • Her dikey sütun bir gözlemi temsil eder.

  • Sütunlardaki yatay kesik çizgiler, kümelerin hangi seviyede birleştiğini ifade eder.


2. Gözlem ve Etiketler

  • Grafiğin üst kısmında A/B harfleri var; bu, orijinal veri setindeki Tip A (Sikkim) ve Tip B (Lhasa) kafataslarını gösterir.

  • Bu sayede kümeleme sonucu ile orijinal grupları karşılaştırmak mümkün olur.


3. Kümeleme Yapısı

  • Grafikte sütunlar boyunca yüksekten aşağıya doğru kümeler birleşiyor.

  • Üst kısımda (0’a yakın): Gözlemler kendi başlarına ayrı kümeler halinde.

  • Aşağıya doğru indikçe (10–20–30 çizgileri): Kümeler birleşiyor ve grup sayısı azalıyor.

  • Son aşamalara doğru (30–40 arası): Kümeler iyice toplanmış ve en sonunda tek küme kalıyor.


4. İki Kümeli Çözümün Görsel Dayanağı

  • Grafikte aşağı doğru bakıldığında yaklaşık iki büyük blok oluştuğu görülüyor.

  • Bu blokların bir kısmı ağırlıklı Tip A kafataslarını, diğer kısmı ağırlıklı Tip B kafataslarını içeriyor.

  • Bu, Agglomeration Schedule’daki bulguyu destekliyor: doğal iki küme var.


5. Yorum – Grup Örtüşmesi

  • Bazı sütunlarda A ve B harfleri karışmış (örneğin bazı B gözlemleri A bloğuna yakın veya tersi). Bu, Tip A ve Tip B kafataslarının ölçümlerinin birbirine benzediği ve küme sınırlarının %100 net olmadığını gösterir.

  • Bu durum, çapraz doğrulamada da gördüğümüz %65 civarı başarı oranıyla uyumlu.


6. Grafiğin Sağladığı Avantaj

  • Vertical Icicle grafiği sayesinde hangi gözlemin hangi kümeye düştüğü görsel olarak takip edilebilir.

  • Böylece “Tip A mı Tip B mi?” şeklindeki antropolojik sınıflandırmanın SPSS kümeleme sonucu ile ne kadar uyumlu olduğu kolayca incelenebilir.


Sonuç Olarak;

  • Vertical Icicle grafiği, Agglomeration Schedule’daki katsayı sıçramalarının görsel bir teyidi gibidir.

  • Veri setindeki 32 gözlem, aşağı doğru iki ana blok halinde birleşerek doğal olarak 2 küme oluştuğunu gösteriyor.

  • Ancak Tip A ve Tip B tam olarak birbirinden ayrılmamış, bazı örneklerde kümeler karışmış.

  • Bu, kafatası ölçümlerinin çoğunlukla iki ayrı grubu ayırmada etkili olduğunu ama tam ayrım sağlamadığını gösterir.


Aşağıdaki dosya indirme bağlantısından kümeleme analizi uygulamalı veri analizi SPSS çıktılarını indirebilir ve inceleyebilirsiniz.

Bilimsel ve Tarihsel Değerlendirme

Elde edilen analiz sonuçları, özellikle Tip B (Lhasa) kafataslarının diğerlerinden anlamlı şekilde ayrıştığını gösterirse, bu bireylerin Khams bölgesine ait farklı bir etnik kökene sahip olabileceği hipotezini destekler.

Bu tür analizler yalnızca sayısal sınıflandırma değil, aynı zamanda insanlık tarihine dair çıkarımlar için de güçlü bir zemin oluşturur.


Bu örnek, veri biliminin sosyal bilimlerle ve insanlık tarihiyle nasıl güçlü biçimde bütünleşebileceğini gösteren önemli bir uygulamadır.

  • Diskriminant Analizi, önceden tanımlanmış grupların sınıflandırılmasını sağlar

  • Kümeleme Analizi, veri içindeki gizli yapıları keşfetmemize yardımcı olur

SPSS ile bu tür analizleri uygulamak oldukça pratik ve öğretici bir süreçtir. İster antropoloji, ister sosyoloji, ister biyoloji… sınıflandırma yöntemleri tüm disiplinlerde kritik öneme sahiptir.

Yorumlar


bottom of page