Transcript
O8LuIcw1DtU • Macam Distribusi Data dan Mengapa Distribusi Data harus Normal?
/home/itcorpmy/itcorp.my.id/harry/yt_channel/out/EnsiklopediaAhmadFauzi/.shards/text-0001.zst#text/0071_O8LuIcw1DtU.txt
Kind: captions Language: id Assalamualaikum warahmatullahi wabarakatuh berjumpa lagi dengan saya di channel YouTube saya nensiklopedia Ahmad Fauzi channel yang menjelaskan berbagai hal yang berkaitan dengan statistika penelitian publikasi dan berbagai pengetahuan lain yang mungkin dapat meningkatkan pengetahuan ataupun keterampilan kalian di video Sebelumnya kita telah mempelajari penting nya pengecekan asumsi sebelum melakukan uji hipotesis Khususnya ketika kita melakukan prosedur statistika inferensia dan di video tersebut kita telah membahas salah satu asumsi yang penting dan yang perlu kita cek adalah berkaitan dengan distribusi datanya apakah data dari sampel kita terdistribusi normal ataukah tidak normal di video kali ini Mari kita bahas lebih mendalam Apa saja macam distribusi data yang mungkin dapat kita peroleh ketika kita melakukan pengambilan data dan mengapa data kita diasumsikan atau diharap memiliki distribusi yang normal ketika kita melakukan uji hipotesis oke Sekarang mari kita bahas terlebih dahulu data yang terdistribusi secara normal secara sederhananya ketika kita memiliki data yang terdistribusi normal ketika kita memvisualisasikan distribusi data tersebut maka visualisasi hasil dari data yang kita kumpulkan tadi membentuk kurva yang mirip bel atau mirip lonceng bentuknya seperti ini ya Mengapa kita bisa mendapatkan kurva semacam ini sebetulnya kurva semacam ini dapat kita peroleh dari ketika kita membuat histogram diberapa video yang lalu saya juga telah membahas Bagaimana caranya membuat histogram kita harus menghitung distribusi frekuensinya terlebih dahulu kemudian dari distribusi frekuensi tersebut kita bisa memvisualisasikannya dalam bentuk histogram semacam ini dan di histogram kita bisa menarik garis lurus yang dapat menghubungkan antara satu batang dengan batang yang lain yang ada di dalam histogram ini dan di sini bisa kita lihat seperti yang saya sampaikan tadi garis lurus tersebut akan membentuk kurva yang mirip dengan lonceng atau mirip dengan bel mirip dengan gunung yang bagus karena simetris kemudian di sini bisa kita lihat bahwasanya distribusinya ideal sehingga seringkiali dikatakan kurva normal merupakan kurva dengan distribusi atau kurva dengan bentuk yang ideal di referensi yang lain distribusi normal juga dikatakan sebagai distribusi Gaus atau gausian distribution sebetulnya istilah tersebut merujuk pada pengertian yang sama yaitu pengertian terkait distribusi data yang ketika dikurvakan membentuk kurva mirip lonceng seperti ini Nah ada beberapa karakteristik pada data atau pada grafik yang bila di visualisasikan dalam bentuk kurva membentuk kurva yang distribusinya normal yang pertama adalah pastinya data tersebut berupa data yang dalam skala interval ataupun rasio atau dapat kita Artikan atau dalam istilah lain variabel yang kita kumpulkan berupa variabel kontinu misalkan berat badan tinggi badan jarak panjang daun IQ kemudian tingkat literasi siswa itu semua merupakan data-data dalam variabel kontinu bisa berupa skala interval bila tidak ada nol mutlaknya atau bila ada nol mutlaknya maka skalanya termasuk skala rasio misalkan berat badan tinggi badan itu rasio nah distribusi Normal itu dapat tercipta bila data kita diukur dalam skala interval atau rasio bukan nomin ataupun ordinal karakter selanjutnya adalah ketika kita membuat grafik maka sumbu y-nya berperan sebagai frekuensi atau jumlah kemunculan dari data yang kita ukur sedangkan sumbu x-nya sendiri ya adalah skor-skor dari data yang kita kumpulkan tadi kemudian kruvanya berupa garis kontinu yang mulus seperti yang kita lihat di tampilan sebelumnya jadinya garisnya tidak terputus dan tidak bergerigi sehingga mulus atau rata lalu tadi sudah saya singgung ketika datanya terdistribusi normal maka tentunya yang pertama pastinya mediannya tetap berada di tengah kemudian Karena distribusinya normal bisa kita lihat seperti yang saya sampaikan tadi sumbu y itu berperan sebagai frekuensi maka semakin tinggi kotaknya semakin tinggi angnya maka frekuensi dari skor tersebut juga semakin tinggi Nah kalau kita mengingat lagi bentuk kurva normal bagian yang paling tinggi adalah bagian di tengah sehingga skor yang ada di tengah merupakan skor yang frekuensinya tinggi sehingga dapat dikatakan skor yang ditengahkan adalah median dan skor di median tersebut memiliki nilai tertinggi sehingga skor itu juga sebagai modus sehingga pada distribusi normal median itu sama dengan modus dan Selain itu min-nya atau reratanya pun juga sama sehingga ketika data kita terdistribusi normal angka dari Min angka dari median dan angka dari modus itu sama atau hampir serupa sehingga tendensi Sentral antara satu pengukuran dan pengukuran yang lain antara min median dan modus itu sama atau serupa sehingga tendensi sentralnya benar-benar mampu menggambarkan atau mewakili keseluruhan data sampel yang kita miliki kemudian karena bentuknya tadi dikatakan sebagai bentuk yang ideal maka grafik dari distribusi data yang normal itu bentuknya simetris sehingga ketika kita bagi menjadi dua bagian dua bagiannya itu sama atau kalau kita tekuk maka kita tekuk di bagian tengah ya maka ketika kita tekuk tekukannya itu membentuk tindihan yang sama ada semacam bel bel itu kemudian kita tekuk bel itu adalah lonceng ya lonceng itu kita tekuk kita bayangkan loncengnya dua dimensi Maka nanti tekukan tersebut membentuk lipatan yang sempurna kemudian Seperti yang saya singgung tadi karena bentuknya seperti bel tentunya skor yang paling tinggi itu berada di tengah dan kita mengenal skor yang tertinggi sebagai modus nah mengapa data kita itu harus memiliki distribusi yang normal semacam ini karena dalam kondisi alami variabel-variabel yang di alam ketika diukur bila kita mengambil data keseluruhan populasi khususnya variabel-variabel yang berkaitan dengan makhluk hidup maka data tersebut secara alami terdistribusi secara normal misalkan kita mendatangi suatu negara kemudian kita mencatat IQ dari negara tersebut secara keseluruhan seluruh penduduk yang ada di negara tersebut kemudian kita bentuk kurva berdasarkan data yang kita kumpulkan maka kurva yang terbentuk adalah kurva yang normal begitu juga ketika kita datang ke daerah lain kemudian kita mencatat tinggi badan penduduk di sana maka tinggi badan seluruh orang yang kita kumpulkan nanti juga akan membentuk distribusi yang normal begitu juga variabel-variabel yang berikatan dengan manusia misalkan IQ ketika kita mengumpulkan IQ seluruh dunia misalkan atau salah satu negara maka akan terbentuk juga distribusi yang normal dan mengapa distribusi normal ini menjadi salah satu asumsi penting ketika kita ingin melakukan uji statistika inferensia karena kembali lagi ketika kita menggunakan statistika inferensia kita menggunakan data sampel untuk menarik kesimpulan yang menggambarkan atau memprediksi kondisi dari populasi secara keseluruhan Oleh karena itu kondisi dari sampel ya harus sama dengan kondisi dengan yang terjadi pada populasi populasi itu distribusinya normal maka tentunya sampelnya pun juga distribusinya normal sehingga mampu dengan baik menggambarkan kondisi populasi secara keseluruhan dan ketika kita mengambil data ternyata datanya tidak terdistribusi secara normal maka ada kemungkinan pada saat proses pengumpulan data ada kekeliruan ketidakjelasan saat proses pengambilan data atau mungkin juga instrumen yang digunakan tidak valid namun tidak semua variabel yang di dunia ini terdistribusi secara normal ada beberapa kecualian variabel-variabel itu tidak terdistribusi secara normal dan kalau kita melihat grafik di sini jangan bayangkan seluruh data yang terdistribusi Normal itu bentuknya sebagus ini ketika kita melakukan penelitian data kita Terkadang juga dikatakan masih terdistribusi normal meskipun bentuknya tidak sebagus ini mungkin di sisi kiri dan kanan di salah satu batang ini ada yang sedikit lebih tinggi atau sedikit lebih rendah nanti ada berbagai analisis yang dapat kita gunakan untuk mengecek apakah data kita masih dinyatakan memenuhi asumsi distribusi Normal atau sudah tidak memenuhi prinsipnya adalah ingat distribusi normal datanya belum tentu grafiknya semulus atau sebaik ini Oke sekarang kita lanjutkan Nah kalau kita berbicara distribusi data maka kita juga akan mengenal istilah outliayer outliayer itu dapat kita Artikan sebagai data yang mencal pencalan pencilan artinya data tersebut tidak berada dalam distribusi data kita yang normal tadi Nah keberadaan out layer itu memang sering kita temukan ketika kita mengumpulkan data misalkan kita mengumpulkan data IQ pada satu daerah kemudian setelah kita bentuk kurvanya ternyata kurvanya normal Namun karena ada salah satu orang yang amat sangat jenius sehingga iq-nya sangat tinggi maka ketika dibentuk grafik atau histogram Maka nanti akan ada batang atau ada skor yang terpencal dari distribusi data kita yang lain Nah inilah yang disebut sebagai outlier dan ini memang sering kita temukan misalkan kita melakukan pengambilan data hasil belajar pada satu kelas nah kelas tersebut termasuk ke dalam kelas yang akademiknya sedang misalkan Nah 99% anak itu akademiknya Sendang tetapi ternyata ada satu anak yang akademik tinggi yang salah masuk kelas maka tentunya ketika kita memberikan skor hasil belajar maka anak akademik tinggi ini pada umumnya memberikan skor yang jauh lebih tinggi daripada skor siswa lainnya Nah inilah yang di maksud dengan outlier atau misalkan kita mengumpulkan data IQ kemudian ada yang iq-nya seperti Einstein maka tentunya IQ orang yang seperti Einstein tersebut tidak masuk ke dalam distribusi data yang secara keseluruhan mewakili data-data yang lain tadi itu outlier ya dan bagaimana ketika kita mendapatkan outlier ketika kita mengumpulkan data nanti akan kita bahas di video lainnya bagaimana caranya kita menangani outliayer Kenapa karena berbagai uji hipotesis dalam statistika inferensia mensyaratkan data kita tidak mengandung outlier yang signifikan Nah sekarang Mari kita bahas macam data yang tidak terdistribusi secara normal ketika kita berbicara data yang tidak terdistribusi secara normal maka berbagai referensi statistika pada umumnya akan membahas kurtosis Nah kurtesis itu nama lainnya adalah keruncingan ketika kita melakukan analisis kurtosis sebetulnya kita ingin tahu sejauh mana skor mengelompok di ekor atau di puncak distribusi frekuensi di sini kita mengenal istilah baru yaitu ekor ekor itu dalam bahasa statistiknya adalah Tail t a i l Tail itu apa ekor itu apa secara sederhana kita bisa mengartikan ekor to Tail sebagai data yang jaraknya jauh dari rerata misalkan kita memiliki grafik semacam ini maka Tail itu di bagian ujung daerah yang jauh dari pusat grafik tersebut dari tendensi Sentral dari distribusi data tersebut itulah yang dinamakan Tail nah ketika kita berbicara terkait kurtosis kita akan membahas seberapa tinggi datar tinggi atau seberapa datarnya suatu kurva Kenapa karena seperti yang saya sampaikan tadi ketika kita berbicara atau menganalisis kururtosis kita ingin melihat sejauh mana skor mengelompok kalau mengelompoknya di ekor maka distribusi datanya akan menjadi lebih datar Ya seperti ini seperti grafik yang berwarna hijau ini lebih datar dari grafik yang berwarna merah dengan biru kenapa karena datanya lebih mengelompok di bagian pinggir sehingga datanya semakin flat semakin mendatar namun ada kalanya juga datanya lebih mengelompok di tengah atau di puncak sehingga kurvanya semakin runcing berkebalikan dengan data yang mengelompok di pinggir tadi contohnya Ini grafik yang berwarna biru grafik yang berwarna biru ini merupakan grafik yang datanya lebih mengelompok di bagian tengah nah kelompokkan data Apakah di ekor ataukah di tengah akan menentukan seberapa tinggi kurva tersebut atau seberapa datar kurva tersebut pada data yang terdistribusi normal maka keruncingan atau ketinggian dari kurva tersebut normal tidak terlalu tinggi juga tidak terlalu datar pada skema di sini data yang terdistribusi Normal itu diskemakan dengan grafik berwarna merah nah grafik berwarna merah ini kita kenal juga sebagai kondisi mesokurtik berkaitan dengan mesokurtik kita juga akan mengenal dua istilah lain yaitu leptokurtik dan platikurtik suatu distribusi dikatakan leptokrutik bila Dia memiliki Puncak yang tinggi artinya datanya mengelompok di tengah itu sangat banyak mengelompok di daerah puncak sangat banyak di sisi lain ketika kurva tersebut plate atau hampir rata hampir mendekati sumbu x maka kurva itu atau distribusi data itu dikenal sebagai distribusi plati kurtik plate ya plati kurtik sehingga bisa kita simpulkan kurva tersebut mengindikasikan bahwa kebanyakan data mengelompok di bagian ekor sehingga grafiknya menjadi lebih datar dan dalam arti yang lain kurtosis ini juga mengindikasikan seberapa tersebarkah data kita kalau data kita sebarannya sempit maka tentunya puncaknya akan semakin tinggi kalau data kita sebaran datanya semakin lebar maka puncaknya akan semakin rendah ya ingat sebaran data ketika kita mengumpulkan data dari suatu sampel atau suatu populasi tentunya data tersebut tidak sama misalkan kita mengambil hasil belajar tentunya hasil belajar dari 100 siswa itu tidak semuanya 60 Tapi ada yang 60 61 59 sehingga kita hitung rerata dan standar deviasinya misalkan kemudian kita mendapatkan rerata 60 kemudian plus minus 2 koma sekian nah plus minus ini merupakan salah satu statistik yang bisa mengindikasikan sebaran data semakin tinggi standar deviasinya semakin tersebar juga data tersebut semakin rendah standar deviasinya Plus minusnya semakin rendah maka semakin dikit juga sebaran data tadi dan berkaitan dengan kurva semakin tersebar data tersebut alias standar deviasinya semakin besar maka kurvanya pun akan semakin datar namun semakin sempit sebaran data tersebut semakin runcing atau semakin tinggi Puncak dari kurva distribusi di data tersebut itulah yang dibahas di dalam kurtosis kemudian Selain kurtosis Kita juga mengenal squinus squines itu kemiringan Nah kalau kita berbicara analisis squines analisis ini kita gunakan untuk mengukur derajat sejauh mana ketidaksimetrisan suatu distribusi data kalau kurvanya normal maka salah satu karakteristik yang saya jelaskan di awal tadi adalah Dia memiliki kesimetrisan dalam grafik nah ini merupakan grafik yang kurvanya normal kurvanya simetris sehingga min itu membagi data yang sama membagi data menjadi dua bagian yang sama data di kiri dan distribusi data di kanan memiliki luasan yang sama sehingga kurvanya dikatakan simetris tetapi adaakanya data yang kita kumpulkan itu tidak simetris sehingga data tersebut membentuk kurva yang juga tidak simetris juga sehingga nanti kita juga Bisa menghitung derajat ketidaksimetrisan tersebut nah derajat ketidaksimetrisan ini kita kenal sebagai skuinus atau ukuran kemiringan nah skuinus ini ada dua macam ada squinus positif ada squinus negatif yang Sisi kiri ini merupakan squinus negatif sedangkan sisi kanan ini merupakan squinus yang positif Apa perbedaannya nah ketidaksimetrisan suatu distribusi data atau kemiringan suatu kurva itu salah satunya dipengaruhi oleh keberadaan outlier nah ketika kita berbicara kurva kurva juga kita juga mengenal istilah Tail nah ketika distribusi datanya semacam ini kita lihat ya daerah kiri dengan daerah kanan ini berbeda daerah kiri lebih panjang daerah kanan Lebih bendek sehingga kalau dari gambaran sini semacam kurva ini ditarik ke arah kiri ya ini kalau kurva normal kemudian kita bayangkan ditarik ke arah kiri sehingga kurvanya akan miring seperti ini tidak simetris daerah sini semacam lebih luas karena ditarik maka minnya akan bergeser mediannya pun juga akan sedikit bergeser dan kita lihat modusnya tetap berada di tengah Berada di posisi awal nah ketika kondisinya semacam ini kita kenal sebagai squinus negatif Kenapa kalau ditarik ke kiri dikatakan squinus negatif ini juga berkaitan dengan ketika kita membuat grafik atau mengurutkan bilangan bilangan itu bisa bilangan negatif bilangan oll Bil bisa juga bilangan positif bilangan negatif itu biasanya di sisi kiri kemudian l kemudian dilanjutkan bilangan positif sehingga pada kurva semacam ini dianggap dia tertarik ke arah negatif tersebut sehingga dikatakan memiliki arah yang negatif sehingga juga dikenal sebagai squinus negatif dan salah satu ciri lain dari squinus yang negatif adalah min-nya lebih kecil dari modus dan mediannya sebaliknya kita lihat di sinus yang positif pada squinus yang positif kita lihat minnya minnya ini angkanya akan lebih besar dari median maupun modusnya dan kenapa dikatakan positif Karena dia ditarik ya bagian di sini bagian kanan ini tertarik sehingga kurvanya bentuknya seperti ini dan kita lihat ketika ditarik ke kanan min-nya langsung berubah drastis mediannya juga sedikit berubah sedangkan modusnya posisinya tetap sehingga ketika kita mengingat bahasan kita di video yang menjelaskan terkait statistika deskriptif khususnya pada tendensi Sentral Kita pernah membahas bahwa min itu sangat sensitif terhadap keberadaan outlier ketika ada data yang ekstrem maka min itu mudah berubah dan ketika kita membahas Quin semacam ini terlihat juga dengan jelas bahwa Min merupakan tendensi Sentral yang paling mudah berubah ketika distribusi datanya tidak simetris median juga berubah tetapi tidak terlalu sedangkan modus tetap Kenapa karena modus itu frekuensi yang paling tinggi dan ketika data kita terdistribusi secara normal Seperti yang saya sampaikan tadi maka nilai min sama dengan atau serupa dengan median dan sama dengan atau serupa dengan modus nah selain squinus dan kurtosis kita juga mengenal distribusi data yang membentuk kurva bimodal B itu dua modal itu dari kata modus modus sendiri merupakan skor atau data yang frekuensinya tertinggi Nah adakanya kita mengumpulkan data kemudian ketika kita sudah selesai mengumpulkan data tersebut Lalu kita membentuk kurva distribusi data ternyata datanya membentuk dua Puncak semacam ini kalau ada dua Puncak semacam ini artinya ada dua skor yang frekuensinya tinggi inilah yang dinamakan graf yang distribusinya bimodal ketika kita memperoleh hasil seperti ini maka tentunya maka distribusi data ini harus dipisah menjadi dua sehingga membentuk kurva yang unimodal kurva normal mengapa hal ini terjadi bisa saja di dalam populasi tersebut terdapat dua subpopulasi ketika kita mengambil kelompok kita mengambil data ternyata data itu mengandung atau berasal dari dua populasi yang berbeda misalkan saja ya kita melakukan penelitian ee misalkan fitness eh mohon maaf seberapa tahan seseorang untuk lelah Nah misalkan seperti itu jadinya indikator yang kita gunakan adalah seberapa jauh siswa di klas tertentu itu dapat menyelesaikan lari sampai seberapa meter sampai berapa kilo misalkan misalkan kita melibatkan 50 siswa dari satu kelas 50 siswa tersebut terdiri atas beberapa laki-laki dan beberapa perempuan nah sesuai dengan sifat alami sifat biologis manusia laki-laki itu lebih kuat dari perempuan itu berkaitan dengan masassa otot dan sebagainya Oleh karena itu ketika kita melakukan penelitian terkait hal tersebut terkait Seberapa jauh siswa dapat menyelesaikan Tes lari dengan dengan jarak tes lari yang tidak terbatas maka ketika kita catat Siswa A sampai berapa kilo siswa B sampai berapa kilo hingga siswa ke-50 sampai berapa kilo Ada kemungkinan distribusi datanya akan membentuk distribusi data bimodal laki-laki dan perempuan memiliki modus yang berbeda bisa saja mungkin perempuan di sisi kiri membentuk gunung membentuk kurva sendiri kemudian di sisi kanan merupakan kurva yang mewakili data dari laki-laki karena tingkat kekuatan fisik laki-laki lebih tinggi daripada perempuan sehingga modusnya pun juga berbeda sehingga muncul dua modus muncullah distribusi bimodal dan di bagian tengah ini bisa perempuan bisa laki-laki karena adakanya ada laki-laki yang ternyata fisiknya rata-rata ee jauh di bawah rata-rata dari teman-teman laki-laki lainnya ada juga perempuan yang fisiknya lebih kuat daripada rata-rata teman-teman perempuannya maka mereka akan terkumpul di bagian tengah dari grafik bimodal ini maka di sini overlapping antara laki-laki dan perempuan Nah itu salah satu penyebab mengapa data kita bisa memiliki distribusi yang bimodal ada kemungkinan data kita berasal dari dua populasi yang berbeda adakanya juga distribusi data yang dihasilkan multimodal Nah multimodal itu itu terjadi ketika ada lebih dari dua skor yang frekuensinya tertinggi ini bukan dua modus ya tapi tiga modus maksud saya ya ketika ada tiga modus atau lebih maka kita katakan sebagai multimodal bukan trimodal atau kuartor modal bukan tetapi langsung multimodal ketika data kita terdistribusi membentuk multimodal semacam ini ini mengindikasikan bahwa ada masalah ketika kita mengumpulkan data tersebut masalah bisa bermacam macam bisa karena mungkin instrumennya yang jelek atau proses pengambilan sampelnya yang tidak bagus atau juga proses analisis skor yang didapat atau pengelolaan data yang diperoleh juga tidak baik sehingga grafik yang dihasilkan multimodal kita harus mengecek Apa penyebabnya kalau grafiknya semacam ini jelas kita tidak bisa melakukan analisis statistika inferensi ya menggunakan uji hptes uji hipotesis yang umum begitu juga ketika data kita terlalu skquines terlalu kurtosis atau bimodal itu juga tidak bisa data kita dianalisis menggunakan berbagai macam uji hipotesis dalam statistika inferensia Kenapa karena asumsi dari Asta statistika inferensia adalah data kita terdistribusi secara normal dan yang terakhir kita bisa juga mendapatkan distribusi yang rektangular rektangular itu persegi panjang nah distribusi ini bisa kita peroleh ketika skor yang kita dapat satu skor dengan skor yang lain memiliki frekuensi yang sama Nah kalau kita memiliki semacam 10 skor 12 skor atau 6 skor dan setiap skor itu frekuensinya sama tentunya kalau kita buat histogram ya akan membentuk persegi panjang atau rektanggular seperti ini dan sama juga kita tidak bisa melakukan berbagai analisis statistika inferensi ya kalau distribusi datanya seperti ini begitu ya Oke demikian penjelasan saya terkait berbagai macam distribusi data dan mengapa data kita harus terdistribusi normal ketika kita ingin melakukan analisis statistika inferensia semoga ilmu atau pengetahuan yang kita pelajari di video kali ini akan bermanfaat baik ketika kalian melakukan pengambilan data atau melakukan kegiatan ilmiah lainnya dan bila ada masalah semoga anda dapat memecahkan permasalahan tersebut karena di video-video selanjutnya kita akan membahas Bagaimana caranya kita mengatasi permasalahan terkait distribusi data sehingga data kita bisa dilanjutkan untuk dilakukan analisis data menggunakan statistika inferensia demikian video kali ini mohon maaf bila ada kesalahan Terima kasih asalamualaikum warahmatullahi wabarak