Dal-yaprak grafikleri

Tren tarifesinin "dal-yaprak gösterimi", Yokohoma, Japonya "Minatomirai" tren istasyonunda.

Dal-yaprak grafikleri (İngilizce: stem-and-leaf plot veya stemplot), betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

John Tukey’in yaptığı tanıma bağlı olarak açıklayacak olursak grafikteki satırlara "dal" (stem) satırların yanındaki açıklamalara (sayısal değerlere) "yaprak" (leaf) denir. Kısaca bu grafiği çizerken ve okurken kafamızda dallanmış bir ağaç görüntüsü oluşmalıdır.

Tarihçe

Gösterim 20. yüzyılın ilk çeyreğinde istatistikçi Arthur Bowley’in çalışmalarında görülmektedir. Yaygın olarak kullanılmaya başlaması Amerikalı istatistikçi John Tukey’in 1977’de basılan Exploratory Data Analysis adlı kitabından sonradır.

Dal-yaprak grafiklerine görülebilecek veri nitelikleri

  • Gözlem değerleri nerelerde yoğunlaşmıştır?
  • Verilerin yayılma aralığı ne kadardır?
  • Küme çarpık mıdır?
  • Veri kümesinde kaç tane tepe vardır?
  • Verilerin birbirine olan uzaklığı görülebilir.

Dal-yaprak grafiklerinin çizimi

En basit dal-yaprak grafiği aralarında bir çizgi bulunan iki sütun sayıdan oluşur; bu sütunlardan soldaki ilki "dal"ler oluşturup sağdaki ikinci sütundakiler "yaprak"lardır. Böylece iki veya bir sayıdan oluşan bir veri seti olduğu gibi dal-yaprak grafiğinde görülür.

Bir dal-yaprak grafiği çizimi aşamaları şunlardır:

  • . Veri seti en küçükten değerden en büyük değere doğru sıralanır.
  • . Her gözlem değeri dal ve yaprak olarak ayrılır. İki basamaklı tam sayıların onlar basamağındaki rakam 'dal'; birler basamağındaki rakam 'yaprak' diye isimlendirilir. Daha büyük basamaklı veriler için veri değerlerinin belli bir basamağı için (örneğin yüzlüler basamağı şeklinde) yaklaşımları alınır ve bunlar "yaprak" olarak kullanılır.
  • . "Dallar" dikey bir doğrunun sol yanında küçükten büyüğe (veya büyükten küçüğe) doğru sıralanmış "yapraklar" ise dikey bir doğrunun sağ yanında dalların sağında sağa doğru dizilerek yazılır. Her bir veri bir "yaprak" ile ifade edilir.
  • . Kullanana biraz daha destek sağlamak için bir "anahtar" örnek değer, yaprak birimi ve dal birimi verilir.

Dal-yaprak grafiği çizilirken öncelikle gözlem değerleri büyüklük sırasına konulurlar. Gözlem değerlerinin kullanılan son sayısı "yapraktır". Buna göre veri değerleri değişik biçimlerde "dal" ve "yaprak" kısımlarına ayrılabilirler.

Ayrım biçimlerine örnek için dört sayılı bir veri değeri alınsın 2452:

  • 245|2 - Dört sayıdan (binler, yüzler, onlar ve birlerden) oluşan veri değeri ve yaprak dördüncü (birler) sayısı 5;
  • 24|5 - Üç sayıya yuvarlanan (binler, yüzler ve onlar) veri değeri ve yaprak üçüncü aşağı yuvarlanmış (onlar) sayısı 5;
  • 2|5 - İki sayıya yuvarlanan (binler, yüzler) veri değeri ve yaprak ikinci yukarı yuvarlanmış (yüzler) sayısı 5.

Yaprak değeri dal olan diğer değerler bir dik çizgi ile ayrılır. Bu dik çizginin solundakiler dal, sağındakiler yapraktır.

  • "Dal"ın onlar sayılarının "kolay anlaşılır (nice)" kısımlar ayrılması ile elde edilir yani ya 5'li ya 10'lu hatta 2'li dallar olabilir.

Örnek 1:
Veri değerleri 2030 yılında ülkelerin toplam nüfusu içinde olabilecek erkek nüfus oranları:

Ülke İngiltere ABD Türkiye Çin Togo Suriye Venezuela
Oran 24,7 41,5 10,2 25 13,4 51,6 20

Veri değerleri: "24,7", "41,5", "10,2", "25", "13,4", "51,6", "20" Sıralanmış veri değerleri: "10,2", "13,4", "20", "23,7", "25", "41,5", "51,6"

Bu veri değerleri üç hanelidir: onlar, birler ve ondalıklar. Yaprağın hangisi olarak seçileceği ilk sorun olur ve değişik seçimler değişik dal-yaprak-grafiği verir:

En uygun alternatif birler basamağını yaprak olarak farz ederek ve verileri yuvarlayıp onlar ve birlere indirerek çizime devam etmektir. Bu halde dal-yaprak-grafiği çizilmesi için kullanılan veri değerleri şunlar olur: 10, 13, 20, 24, 25, 42, 52
Dallar "onlar" olabilir: yani 1_, 2_, 3_, 4_, 5_

Kullanana biraz daha destek sağlamak için bir "anahtar" örnek değer, yaprak birimi ve gövde birimi verilir.

Bu alternatif için şu "dal-yaprak-grafiği çizimi" elde edilir:

  1|0 3
  2|0 4 5
  3|
  4|2
  5|2
 anahtar: 4|2=42
 yaprak birimi: 1,0
 dal birimi: 10,0

Bu çizimde sağdaki her bir yaprak sayı değişik veri değeridir; örneğin 2|0 4 5 üç veriyi gösterir 20, 24, 25. Yani dallanma ve yapraklama şu şekilde yapılmıştır: 1 dalı (Türkiye, Togo) 2 dalı (Çin, İngiltere, Venezuela), 4 dalı (ABD), 5 dalı (Suriye). Dallar yukarıdan aşağıya ister büyükten küçüğe ister küçükten büyüğe sıralanabilir.

Dal sayısı azsa yorumlamayı kolaylaştırmak adına her dal için "5 sayı" kullanılabilir. İlk dala 0-4 arası ikinci dala 5-9 arası sayıları yazilir vb..

   1|0 3
   1|
   2|0 4
   2|
   4|1
   4|
   5|1
   5|

Bu gösterim biçimiyle hemen bu grafiğin dezavantajı görülebilir. En uygun veriler iki sayılı olanlardır; burada onlar ve birler. Diğer sayılar (burada ondalıklar) basamağındaki ayrıntıyı yitiririz.

Dal yaprak grafiğini saatin tersi yönde 90 derece çevirirseniz grafiğin sıklık dağılımı tablosuna ve hatta bir histograma benzediğini görülebilir. Yorumlamalarda yardımcı olabilir.

Bu grafikten çıkarabileceğimiz yorumlar şunlardır: • 2030 yılında ülkelerdeki toplam nüfusa göre erkek nüfus oranı yayılımı (yani açıklık) %10 ile %51 arasındadır. • Oranlar özellikle %10 ve %20 arasında yoğunlaşmıştır. • Dağılım tek tepelidir. • Dağılım çarpıktır.

Eksi değerleri de görmek açısından şu örneği incelemek uygun olabilir.

Örnek 2:
Bir n=9 büyüklüğündeki bir örneklem veri seti şöyle verilmiş olsun:
"167,8" "56,78" "-236,652" "-14" "43,2" "55" "245" "124,5" "-124.52" "567,8"

Sıralanınca bu veri seti şöyle olur: "-236,652" "-124,53" "-14" "43,3" "55" "56,78" "167,8" "245" "567.8"

Bunları 2 basamaklı ifade etmek için her veri 10 ile bölünüp iki basamaklı hale gelinceye kadar yuvarlanır; yani:"-24" "-12" "-1" "4" "5" "6" "17" "25" "57"

"Dal-yaprak gösterimi" şu olur:

-2 | 4
-1 | 2
-0 | 1
 0 | 4 5 6 
 1 | 7
 2 | 5
 3 | 
 4 | 
 5 | 7
anahtar: -2|4=240 ≈ 236,652 
yaprak birimi: 10
dal birimi: 100,0

Sırt sırta dal yaprak grafikleri

Dal yaprak grafiklerinin en önemli özelliklerinden biri iki veri kümesini karşılaştırmada sağladığı kolaylıktır. Bu grafiği çizerken dal kısmı ortaya yazılır ve farklı iki veri seti sağ ve sol yana yapraklandırılır. Bu şekilde iki farklı veri seti için sağlıklı yorumlar yapılabilir. Çizilmesinde başta belirtilen kurallar aynen geçerlidir.

Örnek 3:
Bir değişken hakkında iki örneklem veri seti elde edilsin:

Set 1 (n=25) :21 22 26 25 24 28 22 22 21 22 24 22 34 30 37 30 53 54 56 54 55 62 76 72 71
Set 2 (n=31) :28 22 20 20 26 20 20 29 26 24 23 28 26 38 32 30 30 36 54 51 52 50 55 56 59 58 54 61 75 76 77
Her iki örneklem veri seti de sıralanınca şunlar elde edilir:
Set 1 (n=25) :21 21 22 22 22 22 22 22 24 24 25 26 28 30 30 34 37 53 54 54 55 62 71 72 76
Set 2 (n=31) :20 20 20 20 22 23 24 26 26 26 28 28 29 30 30 32 36 38 50 51 52 54 54 55 56 58 59 61 75 76 77
"Sırt sırta dal-yaprak gösterimi" şu olur:
8 6 5 4 4 2 2 2 2 2 1 1|2|0 0 0 0 2 3 4 6 6 6 8 8 9 
                7 4 0 0|3|0 0 2 6 8
               5 4 4 3|5|0 1 2 4 4 5 6 8 9
                      2|6|1
                  6 2 1|7|5 6 7
 anahtar: 3|2=32
 yaprak birimi: 1,0
 dal birimi: 10,0

Daha önce dal yaprak grafiklerini okumayı açıklanmıştı. Burada da bunu karşılaştırma yoluyla yaparak iki veri seti arasındaki aynılıklar ve farkları görülebilir.

Beşli Özet

Veri setine bakarak Dal yaprak grafiklerini rahat bir şekilde çizebiliriz fakat birkaç işlem yaparak verilere ilişkin bilgileri arttırabiliriz. Bunun içinde beşli özet kullanılır. Beşli özet kısaca veri kümesindeki iki uç değerin, iki dördebölenin, bir de ortancanın bulunup alt alta yazılmasıdır.[1]

Kaynakça

  1. ^ Şenesen (2004), s. 280

Ayrıca bakınız

  • İstatistiksel grafik

Kaynakça

  • Tukey, John (1977), EDA Exploratory Data Analysis, Addison-Wesley. ISBN 0-201-07616-0. (İngilizce)
  • Akdeniz, Fikri (2006), Olasılık ve İstatistik, İstanbul:Kartal Yayınevi ISBN 975-8561-38-3.
  • Şenesen, Ümit (2004), İstatistik. Sayıların Arkasını Anlamak, İstanbul:Literatür Yayıncılık ISBN 9799750402839.
  • g
  • t
  • d
İstatistik
Betimsel istatistik
Sürekli veriler
Merkezî konum
Ortalama (Aritmetik, Geometrik, Harmonik) • Medyan • Mod
Yayılma
Açıklık • Standart sapma • Varyasyon katsayısı • Çeyrekler açıklığı • Kesirlilikler (kantil) (Dörttebirlik,Ondabirlik, Yüzdebirlik)
Dağılım şekli
Varyans • Çarpıklık • Basıklık • Moment (matematik)
İstatistiksel tablolar
Sıklık dağılımı  • Çoklu sayılı özetleme tabloları  • İlişki tablosu  • Çoklu-yönlü sınıflandırma tabloları
İstatistiksel grafikler
Dairesel grafik • Çubuk grafiği • Kutu grafiği • Dal-yaprak grafikleri •Kontrol diyagramı • Histogram • Sıklık çizelgesi • Q-Q grafiği • Serpilme diyagramı
Veri toplama
Örnek tasarımı
Deneysel tasarım
Anakütle • İstatistiksel deneysel tasarım tipleri  • Deneysel hata  • Yineleme • Bloklama • Duyarlılık ve belirleme
Örneklem kavramları
Örneklem büyüklüğü • Sınama gücü  • Etki büyüklüğü • Örnekleme dağılımı •Standart hata
Çıkarımsal istatistik
ve
İstatistiksel kestirim ve testler
Çıkarımsal analiz tipleri
Kestirim  • Parametrik çıkarımsal analiz  •Parametrik olmayan çıkarımsal analiz  • Bayesci çıkarımsal analiz  • Meta-analiz
Çıkarımsal kestirim
Genel kestirim kavramları
Momentler yöntemi • Enbüyük olabilirlik • Enbüyük artçıl  • Bayes-tipi kestirimci • Minimum uzaklık • Maksimum aralık verme
Tekdeğişkenli kestirim
Kestirim  • Güven aralığı  • İnanılır aralık
Hipotez testi
İstatistiksel test ana kavramları
Sıfır hipotez  • I.Tür ve II.Tür hata  • Anlamlılık seviyesi  •p-değeri
Basit tek-değişkenli ve iki-değişkenli
parametrik hipotez testi
μ için testi •

π için test • μ12 için test • π12 için test  •

σ12 için test
Tek-değişkenli ve iki-değişkenli
parametrik olmayan test analizi
Medyan testi  • Ki-kare testi • Pearson ki-kare testi •Phi katsayısı  • Wald testi • Mann-Whitney U testi • Wilcoxon'in işaretli sıralama testi
Korelasyon
ve
Regresyon analizi
Korelasyon
Doğrusal regresyon
Regresyon analizi  • Doğrusal model • Genel doğrusal model • Genelleştirilmiş doğrusal model
Doğrusal olmayan regresyon
Parametrik olmayan • Yarıparametrik • Logistik
Varyans analizi
Tek-yönlü varyans analizi • Kovaryans analizi • Bloklu tek-yönlü varyans analizi • Etki karışımı değişkeni
Çokdeğişkenli istatistik
Çokdeğişkenli regresyon • temel bileşenler · Faktör analizi  •Kanonik korelesyon  • Uygunluk analizi  • Kümeleme analizi
Zaman serileri analizi
Yapısal model tanımlanması
Zaman serisi yapisal model ögeleri  • Zaman serisi ögeleri saptanması  • Zaman grafiği • Korrelogram
Zaman serileri kestirim teknik ve modelleri
Dekompozisyon • Trend uygulama kestirimi  • Üssel düzgünleştirme  • ARIMA modelleri  • Box–Jenkins  • Spektral yoğunluk kestirimi
Kestirim değerlendirmesi
Zaman seri kestirim değerlendirmesi
Sağkalım analizi
Sağkalım fonksiyonu • Kaplan–Meier • Log-sıra testi • Başarısızlık oranı • orantılı tehlikeler modeli
Kategori • Outline • Endeks