Rumus signifikansi statistik. Keandalan statistik. Aturan untuk menolak Ho dan menerima h1

Signifikansi statistik dari suatu hasil (nilai-p) adalah perkiraan ukuran keyakinan terhadap “kebenaran” (dalam arti “keterwakilan sampel”). Secara lebih teknis, nilai p adalah ukuran yang bervariasi dalam urutan besarnya menurun sesuai dengan keandalan hasilnya. Nilai p yang lebih tinggi berarti tingkat kepercayaan yang lebih rendah terhadap hubungan antar variabel yang ditemukan dalam sampel. Secara khusus, nilai p mewakili kemungkinan kesalahan yang terkait dengan generalisasi hasil pengamatan ke seluruh populasi. Misalnya, nilai p=0,05 (yaitu 1/20) menunjukkan bahwa ada kemungkinan 5% bahwa hubungan antar variabel yang ditemukan dalam sampel hanyalah fitur acak dari sampel. Dengan kata lain, jika hubungan tertentu tidak ada dalam suatu populasi, dan Anda melakukan eksperimen serupa berkali-kali, maka dalam sekitar satu dari dua puluh pengulangan eksperimen Anda akan mengharapkan hubungan yang sama atau lebih kuat antar variabel.

Dalam banyak penelitian, nilai p 0,05 dianggap sebagai “margin yang dapat diterima” untuk tingkat kesalahan.

Tidak ada cara untuk menghindari kesewenang-wenangan dalam memutuskan tingkat signifikansi apa yang benar-benar dianggap “signifikan”. Pemilihan tingkat signifikansi tertentu yang di atasnya hasilnya ditolak karena salah merupakan pilihan yang sewenang-wenang. Dalam praktiknya, keputusan akhir biasanya bergantung pada apakah hasilnya diprediksi secara apriori (yaitu, sebelum eksperimen dilakukan) atau ditemukan secara a posteriori sebagai hasil dari banyak analisis dan perbandingan yang dilakukan pada berbagai data, serta pada data. tradisi bidang studi. Biasanya, di banyak bidang, hasil p 0,05 merupakan batas signifikansi statistik yang dapat diterima, namun perlu diingat bahwa tingkat ini masih mencakup tingkat kesalahan yang cukup besar (5%). Hasil yang signifikan pada tingkat p 0,01 umumnya dianggap signifikan secara statistik, dan hasil dengan tingkat p 0,005 atau p 0,001 umumnya dianggap sangat signifikan. Namun perlu dipahami bahwa klasifikasi tingkat signifikansi ini cukup bersyarat dan hanya merupakan kesepakatan informal yang diadopsi berdasarkan pengalaman praktis dalam bidang penelitian tertentu.

Seperti telah disebutkan, besaran hubungan dan reliabilitas mewakili dua karakteristik hubungan antar variabel yang berbeda. Namun, tidak bisa dikatakan bahwa mereka benar-benar independen. Secara umum, semakin besar besarnya hubungan (relationship) antar variabel dalam sampel yang berukuran normal, maka semakin dapat diandalkan.

Jika kita berasumsi bahwa tidak ada hubungan antara variabel-variabel yang bersesuaian dalam populasi, maka kemungkinan besar diharapkan bahwa dalam sampel yang diteliti juga tidak akan ada hubungan antara variabel-variabel tersebut. Oleh karena itu, semakin kuat suatu hubungan ditemukan dalam suatu sampel, semakin kecil kemungkinan bahwa hubungan tersebut tidak ada dalam populasi asal sampel tersebut.


Ukuran sampel mempengaruhi signifikansi hubungan. Jika pengamatannya sedikit, maka kemungkinan kombinasi nilai untuk variabel-variabel tersebut juga sedikit dan dengan demikian kemungkinan menemukan kombinasi nilai yang menunjukkan hubungan kuat secara tidak sengaja relatif tinggi.

Bagaimana tingkat signifikansi statistik dihitung. Anggaplah Anda telah menghitung ukuran ketergantungan antara dua variabel (seperti dijelaskan di atas). Pertanyaan selanjutnya yang Anda hadapi adalah: “seberapa signifikankah hubungan ini?” Misalnya, apakah 40% varian yang dijelaskan antara dua variabel cukup untuk menganggap hubungan tersebut signifikan? Jawabannya: “tergantung keadaan”. Artinya, signifikansinya terutama bergantung pada ukuran sampel. Seperti yang telah dijelaskan, dalam sampel yang sangat besar hubungan antar variabel yang sangat lemah sekalipun akan menjadi signifikan, sedangkan dalam sampel yang kecil sekalipun, hubungan yang sangat kuat pun tidak dapat diandalkan. Jadi, untuk menentukan tingkat signifikansi statistik, Anda memerlukan fungsi yang merepresentasikan hubungan antara "besarnya" dan "signifikansi" hubungan antar variabel untuk setiap ukuran sampel. Fungsi ini akan memberi tahu Anda secara pasti “seberapa besar kemungkinan diperolehnya hubungan dengan nilai tertentu (atau lebih) dalam sampel dengan ukuran tertentu, dengan asumsi bahwa tidak ada hubungan seperti itu dalam populasi”. Dengan kata lain, fungsi ini akan memberikan tingkat signifikansi (nilai-p), dan oleh karena itu kemungkinan menolak asumsi bahwa suatu hubungan tertentu tidak ada dalam populasi. Hipotesis “alternatif” ini (bahwa tidak ada hubungan dalam populasi) biasanya disebut hipotesis nol. Idealnya jika fungsi yang menghitung probabilitas kesalahan bersifat linier dan hanya memiliki kemiringan yang berbeda untuk ukuran sampel yang berbeda. Sayangnya, fungsi ini jauh lebih kompleks dan tidak selalu sama persis. Namun, dalam banyak kasus, bentuknya diketahui dan dapat digunakan untuk menentukan tingkat signifikansi dalam studi sampel dengan ukuran tertentu. Sebagian besar fungsi ini berhubungan dengan kelas distribusi yang sangat penting yang disebut normal.

Ciri-ciri utama dari setiap hubungan antar variabel.

Kita dapat mencatat dua sifat paling sederhana dari hubungan antar variabel: (a) besarnya hubungan dan (b) keandalan hubungan.

- Besarnya . Besaran ketergantungan lebih mudah dipahami dan diukur dibandingkan reliabilitas. Misalnya, jika ada pria dalam sampel yang memiliki nilai jumlah sel darah putih (WCC) lebih tinggi dibandingkan wanita mana pun, maka dapat dikatakan bahwa hubungan antara kedua variabel (Gender dan WCC) sangat tinggi. Dengan kata lain, Anda dapat memprediksi nilai suatu variabel dari nilai variabel lainnya.

- Keandalan ("kebenaran"). Keandalan saling ketergantungan adalah konsep yang kurang intuitif dibandingkan besarnya ketergantungan, namun hal ini sangat penting. Keandalan hubungan berhubungan langsung dengan keterwakilan sampel tertentu yang menjadi dasar pengambilan kesimpulan. Dengan kata lain, reliabilitas mengacu pada seberapa besar kemungkinan suatu hubungan akan ditemukan kembali (dengan kata lain, dikonfirmasi) dengan menggunakan data dari sampel lain yang diambil dari populasi yang sama.

Harus diingat bahwa tujuan akhirnya hampir tidak pernah mempelajari contoh nilai tertentu ini; Suatu sampel akan menarik perhatian hanya jika sampel tersebut memberikan informasi mengenai keseluruhan populasi. Jika penelitian memenuhi kriteria tertentu, maka keandalan hubungan yang ditemukan antara variabel sampel dapat diukur dan disajikan menggunakan ukuran statistik standar.

Besaran ketergantungan dan reliabilitas mewakili dua karakteristik ketergantungan antar variabel yang berbeda. Namun, tidak bisa dikatakan bahwa mereka benar-benar independen. Semakin besar besarnya hubungan (koneksi) antar variabel dalam sampel berukuran normal, maka semakin dapat diandalkan (lihat bagian selanjutnya).

Signifikansi statistik dari suatu hasil (p-level) adalah perkiraan ukuran keyakinan terhadap “kebenaran” (dalam arti “keterwakilan sampel”). Secara lebih teknis, tingkat p adalah ukuran yang bervariasi dalam urutan besarnya menurun sesuai dengan keandalan hasilnya. Tingkat p yang lebih tinggi berarti tingkat kepercayaan yang lebih rendah terhadap hubungan antar variabel yang ditemukan dalam sampel. Yaitu, tingkat p mewakili kemungkinan kesalahan yang terkait dengan distribusi hasil pengamatan ke seluruh populasi.

Misalnya, tingkat p = 0,05(yaitu 1/20) menunjukkan bahwa ada kemungkinan 5% bahwa hubungan antar variabel yang ditemukan dalam sampel hanyalah fitur acak dari sampel. Dalam banyak penelitian, tingkat p sebesar 0,05 dianggap sebagai "margin yang dapat diterima" untuk tingkat kesalahan.

Tidak ada cara untuk menghindari kesewenang-wenangan dalam memutuskan tingkat signifikansi apa yang benar-benar dianggap "signifikan". Pemilihan tingkat signifikansi tertentu yang di atasnya hasilnya ditolak karena salah merupakan pilihan yang sewenang-wenang.



Dalam praktiknya, keputusan akhir biasanya bergantung pada apakah hasilnya diprediksi secara apriori (yaitu, sebelum eksperimen dilakukan) atau ditemukan secara a posteriori sebagai hasil dari banyak analisis dan perbandingan yang dilakukan pada berbagai data, serta pada data. tradisi bidang studi.

Secara umum, di banyak bidang, hasil p 0,05 merupakan batas yang dapat diterima untuk signifikansi statistik, namun perlu diingat bahwa tingkat ini masih mencakup margin kesalahan yang cukup besar (5%).

Hasil yang signifikan pada tingkat p.01 umumnya dianggap signifikan secara statistik, sedangkan hasil pada tingkat p.005 atau p.00 umumnya dianggap signifikan secara statistik. 001 sebagai sangat signifikan. Namun, perlu dipahami bahwa klasifikasi tingkat signifikansi ini bersifat sewenang-wenang dan hanya merupakan kesepakatan informal yang diadopsi berdasarkan pengalaman praktis. dalam bidang studi tertentu.

Jelas bahwa semakin besar jumlah analisis yang dilakukan terhadap totalitas data yang dikumpulkan, semakin besar pula jumlah hasil signifikan (pada tingkat yang dipilih) yang akan ditemukan secara kebetulan.

Beberapa metode statistik yang melibatkan banyak perbandingan, sehingga memiliki peluang besar untuk mengulangi jenis kesalahan ini, melakukan penyesuaian atau koreksi khusus untuk jumlah total perbandingan. Namun, banyak metode statistik (terutama metode analisis data eksplorasi sederhana) tidak menawarkan cara apa pun untuk memecahkan masalah ini.

Jika hubungan antar variabel “secara obyektif” lemah, maka tidak ada cara lain untuk menguji hubungan tersebut selain dengan mempelajari sampel yang besar. Sekalipun sampelnya benar-benar representatif, pengaruhnya tidak akan signifikan secara statistik jika sampelnya kecil. Demikian pula, jika suatu hubungan “secara obyektif” sangat kuat, maka hubungan tersebut dapat dideteksi dengan tingkat signifikansi yang tinggi bahkan dalam sampel yang sangat kecil.

Semakin lemah hubungan antar variabel, semakin besar ukuran sampel yang diperlukan untuk mendeteksinya secara bermakna.

Banyak perbedaan ukuran hubungan antar variabel. Pilihan ukuran tertentu dalam penelitian tertentu bergantung pada jumlah variabel, skala pengukuran yang digunakan, sifat hubungannya, dan lain-lain.

Namun, sebagian besar pengukuran ini mengikuti prinsip umum: pengukuran tersebut berupaya memperkirakan hubungan yang diamati dengan membandingkannya dengan “hubungan maksimum yang dapat dibayangkan” antara variabel-variabel yang diteliti. Secara teknis, cara yang biasa dilakukan untuk membuat perkiraan tersebut adalah dengan melihat bagaimana nilai-nilai variabel bervariasi dan kemudian menghitung berapa banyak total variasi yang tersedia yang dapat dijelaskan dengan adanya variasi "umum" ("gabungan") dalam dua (atau lebih) variabel.

Signifikansi terutama bergantung pada ukuran sampel. Seperti yang telah dijelaskan, dalam sampel yang sangat besar hubungan antar variabel yang sangat lemah sekalipun akan menjadi signifikan, sedangkan dalam sampel yang kecil sekalipun, hubungan yang sangat kuat pun tidak dapat diandalkan.

Oleh karena itu, untuk menentukan tingkat signifikansi statistik, diperlukan suatu fungsi yang dapat merepresentasikan hubungan antara “besarnya” dan “signifikansi” hubungan antar variabel untuk setiap ukuran sampel.

Fungsi seperti itu akan menunjukkan dengan tepat “seberapa besar kemungkinan memperoleh ketergantungan sebesar nilai tertentu (atau lebih) dalam sampel dengan ukuran tertentu, dengan asumsi bahwa tidak ada ketergantungan seperti itu dalam populasi.” Dengan kata lain fungsi ini akan memberikan tingkat signifikansi
(p-level), dan, oleh karena itu, kemungkinan menolak asumsi tidak adanya ketergantungan ini dalam populasi secara keliru.

Hipotesis "alternatif" ini (bahwa tidak ada hubungan dalam populasi) biasa disebut hipotesis nol.

Idealnya jika fungsi yang menghitung probabilitas kesalahan bersifat linier dan hanya memiliki kemiringan yang berbeda untuk ukuran sampel yang berbeda. Sayangnya, fungsi ini jauh lebih kompleks dan tidak selalu sama persis. Namun, dalam banyak kasus, bentuknya diketahui dan dapat digunakan untuk menentukan tingkat signifikansi dalam studi sampel dengan ukuran tertentu. Sebagian besar fungsi ini terkait dengan kelas distribusi yang disebut normal .

FITUR BERBAYAR. Fitur signifikansi statistik hanya tersedia pada paket tertentu. Periksa apakah sudah masuk.

Anda dapat mengetahui apakah terdapat perbedaan yang signifikan secara statistik dalam tanggapan yang diterima dari berbagai kelompok responden terhadap pertanyaan dalam survei. Untuk menggunakan fitur signifikansi statistik di SurveyMonkey, Anda harus:

  • Aktifkan fitur signifikansi statistik saat menambahkan aturan perbandingan ke pertanyaan dalam survei Anda. Pilih kelompok responden untuk dibandingkan untuk mengurutkan hasil survei ke dalam kelompok untuk perbandingan visual.
  • Periksa tabel data pertanyaan survei Anda untuk mengidentifikasi perbedaan signifikan secara statistik dalam tanggapan yang diterima dari berbagai kelompok responden.

Lihat signifikansi statistik

Dengan mengikuti langkah-langkah di bawah ini, Anda dapat membuat survei yang menampilkan signifikansi statistik.

1. Tambahkan pertanyaan tertutup ke survei Anda

Untuk menunjukkan signifikansi statistik saat menganalisis hasil, Anda perlu menerapkan aturan perbandingan untuk setiap pertanyaan dalam survei Anda.

Anda dapat menerapkan aturan perbandingan dan menghitung signifikansi statistik dalam tanggapan jika Anda menggunakan salah satu dari jenis pertanyaan berikut dalam desain survei Anda:

Penting untuk memastikan bahwa pilihan jawaban yang diusulkan dapat dibagi menjadi kelompok-kelompok yang lengkap. Opsi respons yang Anda pilih untuk perbandingan saat membuat aturan perbandingan akan digunakan untuk mengatur data ke dalam tab silang selama survei.

2. Kumpulkan jawaban

Setelah Anda menyelesaikan survei, buatlah kolektor untuk mendistribusikannya. Ada beberapa cara.

Anda harus menerima setidaknya 30 respons untuk setiap opsi respons yang ingin Anda gunakan dalam aturan perbandingan untuk mengaktifkan dan melihat signifikansi statistik.

Contoh survei

Anda ingin mengetahui apakah pria secara signifikan lebih puas dengan produk Anda dibandingkan wanita.

  1. Tambahkan dua pertanyaan pilihan ganda ke survei Anda:
    Apa jenis kelaminmu? (pria, wanita)
    Apakah Anda puas atau tidak puas dengan produk kami? (puas, tidak puas)
  2. Pastikan setidaknya 30 responden memilih “laki-laki” untuk pertanyaan gender DAN setidaknya 30 responden memilih “perempuan” sebagai gender mereka.
  3. Tambahkan aturan perbandingan pada pertanyaan "Apa jenis kelamin Anda?" dan pilih kedua opsi jawaban sebagai grup Anda.
  4. Gunakan tabel data di bawah bagan pertanyaan “Apakah Anda puas atau tidak puas dengan produk kami?” untuk melihat apakah ada opsi respons yang menunjukkan perbedaan signifikan secara statistik

Apa perbedaan yang signifikan secara statistik?

Perbedaan yang signifikan secara statistik berarti analisis statistik menentukan adanya perbedaan yang signifikan antara tanggapan kelompok responden yang satu dengan tanggapan kelompok responden yang lain. Signifikansi statistik artinya angka yang diperoleh berbeda nyata. Pengetahuan tersebut akan sangat membantu Anda dalam analisis data. Namun, Anda menentukan pentingnya hasil yang diperoleh. Andalah yang memutuskan bagaimana menafsirkan hasil survei dan tindakan apa yang harus diambil berdasarkan hasil tersebut.

Misalnya, Anda lebih banyak menerima keluhan dari pelanggan wanita dibandingkan pelanggan pria. Bagaimana kita dapat menentukan apakah perbedaan tersebut nyata dan apakah perlu diambil tindakan terkait hal tersebut? Salah satu cara terbaik untuk menguji pengamatan Anda adalah dengan melakukan survei yang akan menunjukkan apakah pelanggan pria jauh lebih puas dengan produk Anda. Dengan menggunakan rumus statistik, fungsi signifikansi statistik kami akan memberi Anda kemampuan untuk menentukan apakah produk Anda sebenarnya lebih menarik bagi pria dibandingkan wanita. Ini akan memungkinkan Anda mengambil tindakan berdasarkan fakta, bukan hanya dugaan.

Perbedaan yang signifikan secara statistik

Jika hasil Anda disorot dalam tabel data, berarti kedua kelompok responden tersebut berbeda secara signifikan satu sama lain. Istilah “signifikan” tidak berarti bahwa angka-angka yang diperoleh mempunyai arti penting atau signifikansi tertentu, hanya saja terdapat perbedaan statistik di antara angka-angka tersebut.

Tidak ada perbedaan yang signifikan secara statistik

Jika hasil Anda tidak disorot dalam tabel data terkait, ini berarti meskipun mungkin terdapat perbedaan pada kedua angka yang dibandingkan, tidak ada perbedaan statistik di antara keduanya.

Respons yang tidak memiliki perbedaan signifikan secara statistik menunjukkan bahwa tidak ada perbedaan signifikan antara kedua item yang dibandingkan berdasarkan ukuran sampel yang Anda gunakan, namun hal ini tidak berarti bahwa keduanya tidak signifikan. Mungkin dengan meningkatkan ukuran sampel Anda akan dapat mengidentifikasi perbedaan yang signifikan secara statistik.

Ukuran sampel

Jika ukuran sampel Anda sangat kecil, hanya perbedaan yang sangat besar antara kedua kelompok yang akan menjadi signifikan. Jika Anda memiliki ukuran sampel yang sangat besar, perbedaan kecil dan besar akan dianggap signifikan.

Namun, jika dua angka berbeda secara statistik, hal ini tidak berarti bahwa perbedaan antara hasil tersebut memiliki arti praktis bagi Anda. Anda harus memutuskan sendiri perbedaan mana yang bermakna bagi survei Anda.

Menghitung Signifikansi Statistik

Kami menghitung signifikansi statistik menggunakan tingkat kepercayaan standar 95%. Jika suatu pilihan jawaban terbukti signifikan secara statistik, hal ini berarti bahwa secara kebetulan atau karena kesalahan pengambilan sampel, terdapat kemungkinan kurang dari 5% terjadinya perbedaan antara kedua kelompok (sering ditunjukkan sebagai: p<0,05).

Untuk menghitung perbedaan yang signifikan secara statistik antar kelompok, kami menggunakan rumus berikut:

Parameter

Keterangan

a1Persentase peserta kelompok pertama yang menjawab pertanyaan dengan cara tertentu dikalikan dengan besar sampel kelompok tersebut.
b1Persentase peserta kelompok kedua yang menjawab pertanyaan dengan cara tertentu dikalikan dengan besar sampel kelompok tersebut.
Proporsi sampel yang dikumpulkan (p)Kombinasi dua saham dari kedua kelompok.
Kesalahan standar (SE)Indikator seberapa besar perbedaan bagian Anda dengan bagian sebenarnya. Nilai yang lebih rendah berarti pecahan tersebut mendekati pecahan sebenarnya, nilai yang lebih tinggi berarti pecahan tersebut berbeda nyata dengan pecahan sebenarnya.
Statistik uji (t)Statistik uji. Jumlah deviasi standar yang membedakan nilai tertentu dengan mean.
Signifikansi statistikJika nilai absolut statistik pengujian lebih besar dari 1,96* standar deviasi dari mean, maka hal tersebut dianggap sebagai perbedaan yang signifikan secara statistik.

*1,96 adalah nilai yang digunakan untuk tingkat kepercayaan 95% karena 95% rentang yang ditangani oleh fungsi distribusi t Student berada dalam standar deviasi mean 1,96.

Contoh perhitungan

Melanjutkan contoh di atas, mari kita cari tahu apakah persentase pria yang menyatakan puas dengan produk Anda jauh lebih tinggi dibandingkan persentase wanita.

Katakanlah 1.000 pria dan 1.000 wanita ikut serta dalam survei Anda, dan hasil survei menunjukkan bahwa 70% pria dan 65% wanita mengatakan mereka puas dengan produk Anda. Apakah tingkat 70% jauh lebih tinggi dibandingkan tingkat 65%?

Gantikan data survei berikut ke dalam rumus yang diberikan:

  • p1 (% pria puas dengan produk) = 0,7
  • p2 (% wanita puas dengan produk) = 0,65
  • n1 (jumlah laki-laki yang disurvei) = 1000
  • n2 (jumlah perempuan yang diwawancarai) = 1000

Karena nilai absolut statistik uji lebih besar dari 1,96, berarti perbedaan antara laki-laki dan perempuan adalah signifikan. Dibandingkan wanita, pria lebih cenderung puas dengan produk Anda.

Menyembunyikan signifikansi statistik

Cara menyembunyikan signifikansi statistik untuk semua pertanyaan

  1. Klik panah bawah di sebelah kanan aturan perbandingan di sidebar kiri.
  2. Pilih item Sunting aturan.
  3. Nonaktifkan fitur tersebut Tunjukkan signifikansi statistik menggunakan saklar.
  4. Klik tombolnya Menerapkan.

Untuk menyembunyikan signifikansi statistik untuk satu pertanyaan, Anda perlu:

  1. Klik tombolnya Lagu di atas diagram masalah ini.
  2. Buka tabnya pilihan tampilan.
  3. Hapus centang pada kotak di sebelahnya Signifikansi statistik.
  4. Klik tombolnya Menyimpan.

Opsi tampilan diaktifkan secara otomatis ketika tampilan signifikansi statistik diaktifkan. Jika Anda menghapus opsi tampilan ini, tampilan signifikansi statistik juga akan dinonaktifkan.

Aktifkan fitur signifikansi statistik saat menambahkan aturan perbandingan ke pertanyaan dalam survei Anda. Periksa tabel data pertanyaan survei Anda untuk menentukan apakah terdapat perbedaan signifikan secara statistik dalam tanggapan yang diterima dari berbagai kelompok responden.

Tingkat signifikansi dalam statistik merupakan indikator penting yang mencerminkan tingkat keyakinan terhadap keakuratan dan kebenaran data yang diperoleh (diprediksi). Konsep ini banyak digunakan di berbagai bidang: mulai dari penelitian sosiologi hingga pengujian statistik hipotesis ilmiah.

Definisi

Tingkat signifikansi statistik (atau hasil signifikan secara statistik) menunjukkan kemungkinan munculnya indikator-indikator yang diteliti secara kebetulan. Signifikansi statistik keseluruhan dari suatu fenomena dinyatakan dengan koefisien nilai p (p-level). Dalam setiap percobaan atau pengamatan, ada kemungkinan bahwa data yang diperoleh disebabkan oleh kesalahan pengambilan sampel. Hal ini terutama berlaku untuk sosiologi.

Artinya, nilai signifikan secara statistik adalah nilai yang probabilitas kemunculannya secara acak sangat kecil atau cenderung ekstrim. Ekstrem dalam konteks ini dianggap sejauh mana statistik menyimpang dari hipotesis nol (hipotesis yang diuji konsistensinya dengan data sampel yang diperoleh). Dalam praktik ilmiah, tingkat signifikansi dipilih sebelum pengumpulan data dan, biasanya, koefisiennya adalah 0,05 (5%). Untuk sistem yang nilai presisinya sangat penting, angka ini mungkin 0,01 (1%) atau kurang.

Latar belakang

Konsep tingkat signifikansi diperkenalkan oleh ahli statistik dan genetika Inggris Ronald Fisher pada tahun 1925, ketika ia mengembangkan teknik untuk menguji hipotesis statistik. Saat menganalisis proses apa pun, ada kemungkinan tertentu terjadinya fenomena tertentu. Kesulitan muncul ketika bekerja dengan persentase probabilitas yang kecil (atau tidak jelas) yang termasuk dalam konsep “kesalahan pengukuran”.

Saat bekerja dengan data statistik yang tidak cukup spesifik untuk mengujinya, para ilmuwan dihadapkan pada masalah hipotesis nol, yang “mencegah” pengoperasian dengan jumlah kecil. Fisher mengusulkan sistem seperti itu untuk menentukan probabilitas kejadian pada 5% (0,05) sebagai potongan pengambilan sampel yang mudah, yang memungkinkan seseorang menolak hipotesis nol dalam perhitungan.

Pengenalan peluang tetap

Pada tahun 1933, ilmuwan Jerzy Neumann dan Egon Pearson merekomendasikan dalam karya mereka bahwa tingkat signifikansi tertentu harus ditetapkan terlebih dahulu (sebelum pengumpulan data). Contoh penggunaan aturan tersebut terlihat jelas pada saat pemilu. Misalkan ada dua kandidat, yang satu sangat populer dan yang lainnya kurang dikenal. Jelas bahwa kandidat pertama akan memenangkan pemilu, dan peluang kandidat kedua cenderung nol. Mereka berusaha keras - namun tidak setara: selalu ada kemungkinan force majeure, informasi sensasional, keputusan tak terduga yang dapat mengubah prediksi hasil pemilu.

Neyman dan Pearson sepakat bahwa tingkat signifikansi Fisher sebesar 0,05 (dilambangkan dengan α) adalah yang paling tepat. Namun, Fischer sendiri pada tahun 1956 menentang penetapan nilai ini. Ia percaya bahwa tingkat α harus diatur sesuai dengan keadaan tertentu. Misalnya, dalam fisika partikel nilainya 0,01.

nilai tingkat p

Istilah nilai p pertama kali digunakan oleh Brownlee pada tahun 1960. P-level (p-value) merupakan indikator yang berbanding terbalik dengan kebenaran hasil. Koefisien nilai p tertinggi berhubungan dengan tingkat kepercayaan terendah dalam hubungan sampel antar variabel.

Nilai ini mencerminkan kemungkinan kesalahan yang terkait dengan interpretasi hasil. Mari kita asumsikan level-p = 0,05 (1/20). Ini menunjukkan kemungkinan lima persen bahwa hubungan antar variabel yang ditemukan dalam sampel hanyalah fitur acak dari sampel. Artinya, jika ketergantungan ini tidak ada, maka dengan mengulangi percobaan serupa, rata-rata, dalam setiap penelitian kedua puluh, kita dapat mengharapkan ketergantungan yang sama atau lebih besar antar variabel. Level-p sering kali dilihat sebagai "margin" untuk tingkat kesalahan.

Omong-omong, nilai p mungkin tidak mencerminkan hubungan nyata antar variabel, tetapi hanya menunjukkan nilai rata-rata tertentu sesuai asumsi. Secara khusus, analisis akhir data juga akan bergantung pada nilai yang dipilih dari koefisien ini. Pada p-level = 0,05 akan ada beberapa hasil, dan pada koefisien sama dengan 0,01 akan ada hasil yang berbeda.

Menguji hipotesis statistik

Tingkat signifikansi statistik sangat penting ketika menguji hipotesis. Misalnya, saat menghitung pengujian dua sisi, daerah penolakan dibagi rata di kedua ujung distribusi pengambilan sampel (relatif terhadap koordinat nol) dan kebenaran data yang dihasilkan dihitung.

Misalkan, ketika memantau suatu proses (fenomena), ternyata informasi statistik baru menunjukkan perubahan kecil dibandingkan nilai sebelumnya. Pada saat yang sama, perbedaan hasil kecil, tidak jelas, namun penting untuk penelitian. Spesialis dihadapkan pada dilema: apakah perubahan benar-benar terjadi atau apakah ini kesalahan pengambilan sampel (ketidakakuratan pengukuran)?

Dalam hal ini, mereka menggunakan atau menolak hipotesis nol (menghubungkan semuanya dengan kesalahan, atau mengakui perubahan dalam sistem sebagai fait accompli). Proses penyelesaian masalah didasarkan pada rasio signifikansi statistik secara keseluruhan (p-value) dan tingkat signifikansi (α). Jika tingkat p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Nilai yang digunakan

Tingkat signifikansinya tergantung pada materi yang dianalisis. Dalam praktiknya, nilai tetap berikut digunakan:

  • α = 0,1 (atau 10%);
  • α = 0,05 (atau 5%);
  • α = 0,01 (atau 1%);
  • α = 0,001 (atau 0,1%).

Semakin akurat perhitungan yang diperlukan maka semakin rendah koefisien α yang digunakan. Tentu saja, perkiraan statistik dalam fisika, kimia, farmasi, dan genetika memerlukan akurasi yang lebih besar dibandingkan dalam ilmu politik dan sosiologi.

Ambang batas signifikansi pada area tertentu

Dalam bidang presisi tinggi seperti fisika partikel dan manufaktur, signifikansi statistik sering dinyatakan sebagai rasio deviasi standar (dilambangkan dengan koefisien sigma - σ) relatif terhadap distribusi probabilitas normal (distribusi Gaussian). σ adalah indikator statistik yang menentukan sebaran nilai besaran tertentu relatif terhadap ekspektasi matematis. Digunakan untuk memplot kemungkinan kejadian.

Tergantung pada bidang ilmunya, koefisien σ sangat bervariasi. Misalnya, ketika memprediksi keberadaan Higgs boson, parameter σ sama dengan lima (σ = 5), yang sesuai dengan nilai p = 1/3,5 juta. Dalam studi genom, tingkat signifikansinya bisa 5 × 10 - 8, hal yang biasa terjadi di wilayah ini.

Efisiensi

Harus diingat bahwa koefisien α dan nilai p bukanlah karakteristik yang pasti. Apapun tingkat signifikansi dalam statistik dari fenomena yang diteliti, hal ini bukanlah dasar tanpa syarat untuk menerima hipotesis. Misalnya, semakin kecil nilai α, semakin besar kemungkinan hipotesis yang diajukan adalah signifikan. Namun, terdapat risiko kesalahan yang mengurangi kekuatan statistik (signifikansi) penelitian.

Peneliti yang hanya fokus pada hasil yang signifikan secara statistik mungkin akan mengambil kesimpulan yang salah. Pada saat yang sama, sulit untuk memeriksa ulang pekerjaan mereka, karena mereka menerapkan asumsi (yang sebenarnya adalah nilai α dan p). Oleh karena itu, selalu disarankan, bersamaan dengan penghitungan signifikansi statistik, untuk menentukan indikator lain - besarnya pengaruh statistik. Ukuran efek adalah ukuran kuantitatif dari kekuatan suatu efek.

Menurut Anda apa yang membuat “separuh orang” Anda istimewa dan bermakna? Apakah ini terkait dengan kepribadiannya atau perasaan Anda terhadap orang tersebut? Atau mungkin dengan fakta sederhana bahwa hipotesis tentang keacakan simpati Anda, seperti yang ditunjukkan oleh penelitian, memiliki probabilitas kurang dari 5%? Jika kami menganggap pernyataan terakhir dapat diandalkan, maka pada prinsipnya situs kencan yang sukses tidak akan ada:

Saat Anda melakukan pengujian terpisah atau analisis lainnya terhadap situs Anda, kesalahpahaman “signifikansi statistik” dapat menyebabkan salah tafsir terhadap hasil dan, oleh karena itu, tindakan yang salah dalam proses pengoptimalan konversi. Hal ini berlaku untuk ribuan uji statistik lainnya yang dilakukan setiap hari di setiap industri yang ada.

Untuk memahami apa yang dimaksud dengan “signifikansi statistik”, Anda perlu menyelami sejarah istilah tersebut, mempelajari arti sebenarnya, dan memahami bagaimana pemahaman lama yang “baru” ini akan membantu Anda menafsirkan hasil penelitian Anda dengan benar.

Sedikit sejarah

Meskipun umat manusia telah menggunakan statistik untuk memecahkan berbagai masalah selama berabad-abad, pemahaman modern tentang signifikansi statistik, pengujian hipotesis, pengacakan, dan bahkan Design of Experiments (DOE) mulai terbentuk hanya pada awal abad ke-20 dan terkait erat dengan nama Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher adalah seorang ahli biologi evolusi dan ahli statistik yang memiliki minat khusus terhadap studi evolusi dan seleksi alam di dunia hewan dan tumbuhan. Selama kariernya yang cemerlang, ia mengembangkan dan mempopulerkan banyak alat statistik berguna yang masih kita gunakan hingga saat ini.

Fisher menggunakan teknik yang dikembangkannya untuk menjelaskan proses dalam biologi seperti dominasi, mutasi, dan penyimpangan genetik. Kita dapat menggunakan alat yang sama saat ini untuk mengoptimalkan dan meningkatkan konten sumber daya web. Fakta bahwa alat analisis ini dapat digunakan untuk bekerja dengan objek yang bahkan belum ada pada saat penciptaannya nampaknya cukup mengejutkan. Hal yang sama mengejutkannya adalah orang biasa melakukan perhitungan rumit tanpa kalkulator atau komputer.

Untuk mendeskripsikan hasil eksperimen statistik yang memiliki probabilitas kebenaran yang tinggi, Fisher menggunakan kata “signifikansi”.

Selain itu, salah satu perkembangan Fisher yang paling menarik adalah hipotesis “anak seksi”. Menurut teori ini, perempuan lebih menyukai laki-laki yang melakukan hubungan seks bebas (promiscuous) karena hal ini akan memungkinkan anak laki-laki yang lahir dari laki-laki tersebut memiliki kecenderungan yang sama dan menghasilkan lebih banyak keturunan (perhatikan bahwa ini hanya teori).

Namun tidak seorang pun, bahkan ilmuwan brilian sekalipun, yang kebal dari kesalahan. Kelemahan Fisher masih menjangkiti para spesialis hingga hari ini. Tapi ingat kata-kata Albert Einstein: “Siapa pun yang tidak pernah melakukan kesalahan, dia tidak pernah menciptakan sesuatu yang baru.”

Sebelum melanjutkan ke poin berikutnya, ingatlah: signifikansi statistik adalah ketika perbedaan hasil tes begitu besar sehingga perbedaan tersebut tidak dapat dijelaskan oleh faktor acak.

Apa hipotesis Anda?

Untuk memahami apa yang dimaksud dengan “signifikansi statistik”, pertama-tama Anda perlu memahami apa yang dimaksud dengan “pengujian hipotesis”, karena kedua istilah tersebut saling terkait erat.
Hipotesis hanyalah sebuah teori. Setelah Anda mengembangkan sebuah teori, Anda perlu menetapkan proses untuk mengumpulkan cukup bukti dan benar-benar mengumpulkan bukti tersebut. Ada dua jenis hipotesis.

Apel atau jeruk - mana yang lebih baik?

Hipotesis nol

Biasanya, di sinilah banyak orang mengalami kesulitan. Satu hal yang perlu diingat adalah hipotesis nol bukanlah sesuatu yang perlu dibuktikan, seperti misalnya Anda membuktikan bahwa perubahan tertentu pada suatu website akan menyebabkan peningkatan konversi, namun sebaliknya. Hipotesis nol adalah teori yang menyatakan bahwa jika Anda melakukan perubahan apa pun pada situs, tidak akan terjadi apa-apa. Dan tujuan peneliti adalah menyangkal teori ini, bukan membuktikannya.

Jika kita melihat pengalaman dalam menyelesaikan tindak pidana, dimana penyidik ​​juga membuat hipotesis mengenai siapa pelakunya, maka hipotesis nol berupa apa yang disebut dengan asas praduga tak bersalah, yaitu konsep yang menyatakan bahwa terdakwa dianggap tidak bersalah sampai terbukti bersalah. di pengadilan.

Jika hipotesis nol menyatakan bahwa dua benda memiliki sifat yang sama, dan Anda mencoba membuktikan bahwa salah satu lebih baik (misalnya, A lebih baik daripada B), Anda harus menolak hipotesis nol dan memilih alternatifnya. Misalnya, Anda membandingkan satu atau beberapa alat pengoptimalan konversi. Dalam hipotesis nol, keduanya mempunyai pengaruh yang sama (atau tidak berpengaruh sama sekali) terhadap target. Sebaliknya, efek salah satunya lebih baik.

Hipotesis alternatif Anda mungkin berisi nilai numerik, seperti B - A > 20%. Dalam hal ini, hipotesis nol dan alternatifnya dapat berbentuk sebagai berikut:

Nama lain dari hipotesis alternatif adalah hipotesis penelitian karena peneliti selalu tertarik untuk membuktikan hipotesis khusus tersebut.

Signifikansi statistik dan nilai p

Mari kita kembali ke Ronald Fisher dan konsep signifikansi statistiknya.

Sekarang setelah Anda mempunyai hipotesis nol dan alternatifnya, bagaimana Anda dapat membuktikan satu hipotesis dan menyangkal hipotesis lainnya?

Karena statistik, pada dasarnya, melibatkan studi terhadap populasi (sampel) tertentu, Anda tidak akan pernah bisa 100% yakin dengan hasil yang diperoleh. Sebuah contoh yang baik: hasil pemilu sering kali berbeda dengan hasil jajak pendapat pendahuluan dan bahkan exit pool.

Dr Fisher ingin membuat garis pemisah yang akan memberi tahu Anda apakah eksperimen Anda berhasil atau tidak. Ini adalah bagaimana indeks keandalan muncul. Kredibilitas adalah tingkat yang kita ambil untuk mengatakan apa yang kita anggap “penting” dan apa yang tidak. Jika "p", indeks signifikansinya, adalah 0,05 atau kurang, maka hasilnya dapat diandalkan.

Jangan khawatir, ini sebenarnya tidak membingungkan seperti kelihatannya.

Distribusi probabilitas Gaussian. Di sepanjang tepinya terdapat nilai variabel yang lebih kecil kemungkinannya, di tengah adalah nilai yang paling mungkin. P-score (area berarsir hijau) adalah probabilitas hasil pengamatan terjadi secara kebetulan.

Distribusi probabilitas normal (distribusi Gaussian) merupakan representasi dari semua kemungkinan nilai suatu variabel tertentu pada suatu grafik (pada gambar di atas) dan frekuensinya. Jika Anda melakukan penelitian dengan benar dan kemudian memplot semua jawaban Anda pada grafik, Anda akan mendapatkan distribusi seperti ini. Menurut distribusi normal, Anda akan menerima sebagian besar jawaban serupa, dan opsi lainnya akan ditempatkan di tepi grafik (yang disebut “ekor”). Distribusi nilai ini banyak dijumpai di alam sehingga disebut “normal”.

Dengan menggunakan persamaan berdasarkan sampel dan hasil pengujian, Anda dapat menghitung apa yang disebut “statistik pengujian”, yang akan menunjukkan seberapa besar penyimpangan hasil Anda. Ini juga akan memberi tahu Anda seberapa dekat Anda dengan kebenaran hipotesis nol.

Untuk membantu Anda memahaminya, gunakan kalkulator online untuk menghitung signifikansi statistik:

Salah satu contoh kalkulator tersebut

Huruf "p" mewakili probabilitas bahwa hipotesis nol benar. Jika angkanya kecil, hal ini menunjukkan adanya perbedaan antar kelompok uji, sedangkan hipotesis nolnya adalah kelompok tersebut sama. Secara grafis, statistik pengujian Anda akan terlihat mendekati salah satu ekor distribusi berbentuk lonceng Anda.

Dr Fisher memutuskan untuk menetapkan ambang signifikansi pada p ≤ 0,05. Namun pernyataan ini kontroversial karena menimbulkan dua kesulitan:

1. Pertama, fakta bahwa Anda telah membuktikan hipotesis nol salah tidak berarti Anda telah membuktikan hipotesis alternatif. Semua arti penting ini berarti Anda tidak dapat membuktikan A atau B.

2. Kedua, jika p-score 0,049 berarti probabilitas hipotesis nol adalah 4,9%. Ini mungkin berarti bahwa hasil tes Anda mungkin benar dan salah pada saat yang bersamaan.

Anda boleh menggunakan skor-p atau tidak, namun Anda perlu menghitung probabilitas hipotesis nol berdasarkan kasus per kasus dan memutuskan apakah skor tersebut cukup besar untuk mencegah Anda melakukan perubahan yang Anda rencanakan dan uji. .

Skenario paling umum untuk melakukan uji statistik saat ini adalah menetapkan ambang batas signifikansi p ≤ 0,05 sebelum menjalankan pengujian itu sendiri. Pastikan untuk mencermati nilai p saat memeriksa hasil Anda.

Kesalahan 1 dan 2

Begitu banyak waktu telah berlalu sehingga kesalahan yang dapat terjadi saat menggunakan metrik signifikansi statistik bahkan telah diberi nama sendiri.

Kesalahan Tipe 1

Seperti disebutkan di atas, nilai p 0,05 berarti terdapat 5% kemungkinan hipotesis nol benar. Jika tidak, Anda akan membuat kesalahan nomor 1. Hasilnya menunjukkan bahwa situs web baru Anda meningkatkan rasio konversi, namun ada kemungkinan 5% tidak.

Kesalahan Tipe 2

Kesalahan ini merupakan kebalikan dari kesalahan 1: Anda menerima hipotesis nol padahal hipotesis tersebut salah. Misalnya, hasil pengujian memberi tahu Anda bahwa perubahan yang dilakukan pada situs tidak membawa perbaikan apa pun, padahal ada perubahan. Akibatnya, Anda kehilangan kesempatan untuk meningkatkan kinerja Anda.

Kesalahan ini biasa terjadi pada pengujian dengan ukuran sampel yang tidak mencukupi, jadi ingatlah: semakin besar sampel, semakin dapat diandalkan hasilnya.

Kesimpulan

Mungkin tidak ada istilah yang sepopuler signifikansi statistik di kalangan peneliti. Ketika hasil pengujian tidak signifikan secara statistik, konsekuensinya berkisar dari peningkatan tingkat konversi hingga jatuhnya perusahaan.

Dan karena pemasar menggunakan istilah ini ketika mengoptimalkan sumber daya mereka, Anda perlu mengetahui apa arti sebenarnya. Kondisi pengujian mungkin berbeda-beda, namun ukuran sampel dan kriteria keberhasilan selalu penting. Ingat ini.