Teorema limit pusat. Konsep teorema limit pusat. Bereksperimen dengan model

Salah satu ketentuan terpenting dari teori probabilitas adalah apa yang disebut teorema limit pusat. Seperti hukum bilangan besar, hukum ini mempunyai beberapa bentuk. Dalam semua bentuk hukum bilangan besar, fakta konvergensi probabilitas beberapa variabel acak menjadi konstan, variabel non-acak ditetapkan dengan bertambahnya jumlah percobaan. P atau jumlah variabel acak yang diamati.

Pada bagian ini kita akan membahas kelompok teorema limit lainnya, yaitu teorema yang menentukan syarat munculnya distribusi normal (hukum Gauss). Kondisi seperti ini sering terjadi dalam praktik, yang menjelaskan meluasnya hukum normal dalam fenomena alam acak.

Kita telah mengatakan sesuatu tentang kondisi ini (pada tingkat deskriptif murni) sebelumnya (Bab 6), ketika kita pertama kali menemukan distribusi normal. Yaitu, distribusi normal terjadi ketika banyak variabel acak independen (atau dependen lemah) yang sebanding dalam urutan pengaruhnya terhadap penyebaran jumlah dijumlahkan.

Dalam kerja praktek seorang insinyur, keadaan seperti itu sering terjadi.

Misalnya, perhatikan penyimpangannya Y n parameter keluaran sirkuit terpadu besar (LSI) dari nilai nominal. Penyimpangan ini (dengan asumsi tertentu) dapat direpresentasikan sebagai penjumlahan P penyimpangan dasar yang terkait dengan alasan individu:

dimana, misalnya,

X x - penyimpangan yang disebabkan oleh pengaruh suhu;

X 2 - penyimpangan yang disebabkan oleh pengaruh kelembaban udara;

X - penyimpangan yang disebabkan oleh kesalahan dalam memasukkan suatu parameter; X 4 - penyimpangan yang disebabkan oleh kurangnya kemurnian bahan produk;

Nomor P penyimpangan dasar ini sangat besar, begitu pula jumlahnya P alasan yang menyebabkan penyimpangan total; biasanya istilah Xx, X2, ..., X hal sebanding dalam urutan pengaruhnya terhadap penyebaran jumlah. Memang, jika salah satu variabel acak Xx, X2,..., ^„memiliki pengaruh yang jauh lebih besar terhadap penyebaran jumlah dibandingkan yang lainnya, wajar jika mengambil tindakan khusus untuk menghilangkan penyebab utama penyebaran; Karena tidak ada tindakan seperti itu yang dilakukan, maka dapat diasumsikan bahwa suku-suku acak yang tersisa sebanding dalam urutan pengaruhnya (yang kecil secara seragam) terhadap penyebaran jumlah tersebut.

Hukum normal tersebar luas di bidang teknologi; dalam banyak kasus, kesalahan dalam mengukur parameter, kesalahan dalam menjalankan perintah, kesalahan dalam memasukkan berbagai besaran ke dalam perangkat teknis didistribusikan menurut hukum normal (atau mendekati normal); kesalahan seperti itu biasanya dapat direpresentasikan sebagai jumlah dari banyak “kesalahan mendasar” xb masing-masing berhubungan dengan sebab yang terpisah dan hampir independen satu sama lain.

Dalam penerapan teori kesalahan hukum normal pertama kali dibuktikan oleh Laplace dan Gauss.

Hukum normal tersebar luas dalam biologi: massa, ukuran, dan parameter lain dari perwakilan dunia tumbuhan dan hewan dalam banyak kasus memiliki distribusi normal, karena penyebarannya disebabkan oleh pengaruh total dari banyak faktor, di antaranya tidak ada yang dominan. yang.

Teorema limit pusat, dalam berbagai bentuknya, menetapkan kondisi di mana distribusi normal terjadi dan pelanggarannya menyebabkan distribusi selain normal.

Berbagai bentuk teorema limit pusat berbeda satu sama lain dalam kondisi yang dikenakan pada distribusi suku-suku acak yang membentuk jumlah tersebut X x, X 2, ..., X hal. Semakin ketat kondisinya, semakin mudah untuk membuktikan teorema tersebut; semakin luas, semakin sulit pembuktiannya. Disini kita akan membuktikan salah satu bentuk paling sederhana dari teorema ini, yaitu teorema limit pusat untuk suku-suku yang berdistribusi identik.

Dalil. Jika X x, X 2, X n,... adalah variabel acak bebas, memiliki distribusi yang sama dengan ekspektasi matematis m dan varians sebuah 2, maka seiring bertambahnya n, hukum distribusi jumlah

Bukti. Mari kita lakukan pembuktian untuk kasus variabel acak kontinu (untuk variabel diskrit akan serupa). Mari kita gunakan peralatan fungsi karakteristik untuk ini. Menurut sifat-sifat yang dibuktikan pada sub-bagian 8.9, fungsi karakteristik dari jumlah (10.2.2) sama dengan hasil kali fungsi karakteristik suku-suku tersebut. Variabel acak X v X 2, ..., X hal mempunyai kepadatan yang sama f(x), dan oleh karena itu fungsi karakteristik yang sama 0* ( T). Tanpa kehilangan sifat umum, kita dapat memindahkan asal semua variabel acak X v X 2, ..., X p masuk ekspektasi matematis total mereka T ini setara dengan pemusatannya dan, oleh karena itu, dengan fakta bahwa m.o. masing-masing akan sama dengan nol.

Ingatlah bahwa fungsi karakteristik masing-masing s. V. Xk (k= 1,2,..., P) menurut definisi sama dengan (lihat (8.9.4))

Di mana / =4=~ - satuan imajiner. Fungsi karakteristik dari variabel acak Y n sama dengan produknya P fungsi karakteristik istilah (lihat 8.9.9):

Mari kita perluas fungsinya ( T) di sekitar titik tersebut t = 0 dalam deret Maclaurin dengan tiga suku:

dari mana turunannya diambil itu (t)-> 0 jam T -» 0.

Mari kita cari nilainya &D0); 9^(0); $"(0).

Menetapkan /= 0 dalam rumus (10.2.3), kita memiliki:

berdasarkan sifat kepadatan distribusi/(x).

Mari kita bedakan (10.2.3) terhadap T.

Menetapkan /= 0 in (10.2.6), kita mendapatkan:

dimana M [X - ekspektasi matematis hal. V. Xs kepadatan/(x). Dalam kasus kami, semua variabel acak Xx, X2, ..., X hal memiliki kepadatan /(x), dan persamaan m.o. sama dengan nol, jadi

Mari kita bedakan (10.2.6) lagi:

Dengan asumsi / = 0, kita peroleh:

dan ini tidak lebih dari penyebaran sistem yang terpusat. V. Xs kepadatan /(x) (dengan tanda minus).

Karena itu,

Substitusikan ke (10.2.5) E x (0) = 1; 0" x (0) = 0 dan "(0) = -сг 2, kita peroleh

Mari kita beralih ke variabel acak Yn. Kami ingin membuktikannya dengan semakin meningkat P hukum distribusinya mendekati normal. Untuk melakukan ini, mari kita beralih darinya ke yang berhubungan secara linier Y n variabel acak "dinormalisasi".

Kuantitas ini nyaman karena penyebarannya tidak bergantung pada P dan sama dengan satu untuk semua P. Ini mudah diverifikasi dengan melihat Zn sebagai fungsi linier dari variabel acak independen Xx, X2, ..., X hal, yang masing-masing mempunyai variansi sebuah 2.

Jika kita membuktikan bahwa s. V. Zn berdistribusi normal, artinya c. V. kamu, berhubungan secara linier dengan Z„, terdistribusi secara normal.

Daripada membuktikan bahwa hukum distribusi c. V. Z„ dengan meningkatnya P mendekati normal, kita buktikan bahwa fungsi karakteristiknya, yang secara unik menentukan massa jenis, mendekati fungsi karakteristik hukum normal dengan parameter yang sama dengan Z„: mz = 0; o z =1 (8.9.16).

Mari kita cari fungsi karakteristiknya c. V. Z. Dari properti (8.9.7) dari fungsi karakteristik (ayat 8.9) kita mendapatkan:

dimana fungsi karakteristik c. V. Yn. Dari (10.2.4) dan (10.2.8) kita mendapatkan:

Atau, dengan menggunakan rumus (*),

Mari kita ambil logaritma dari ungkapan ini:

Mari kita perkenalkan notasinya


Kami akan meningkat tanpa batas waktu P dalam hal ini menurut (10.2.10), nilai k akan cenderung nol. Mari kita kembangkan In (1 - k) dalam deret pangkat k dan batasi diri kita pada satu suku pemuaian (sisanya karena i -> oo dapat diabaikan):


Tetapi fungsinya a(0 cenderung nol sebagai T-> 0; maka lima (t/(oJn)) = 0dan pengapuran (t) = -t 2 / 2, dari mana pengapuran itu berasal (t) = e~'' 2 ,

tl-L->0c nn-> OO"

dan ini tidak lebih dari fungsi karakteristik dari variabel acak yang didistribusikan menurut hukum normal dengan parameter T= O, st = 1 (lihat (8.9.16)).

Jadi, kami telah membuktikan teorema limit pusat untuk kasus khusus suku-suku yang terdistribusi identik. Kami menyajikan bentuk teorema limit pusat lainnya yang lebih umum (dan lebih kompleks) tanpa bukti.

teorema Lyapunov. Membiarkan Xx, X2, ..., X hal- variabel acak independen dengan ekspektasi matematis m Xi, t X2,..., t HP dan varians Z), Dr,..., Z> , dan dengan P-" oo.

x x 2 x hal

Di mana Xk = Xk -tk.

A. M. Lyapunov membuktikan hal itu di n-> oo hukum distribusi variabel acak

tanpa batas waktu mendekati normal.

Arti dari kondisi (10.2.12) adalah bahwa penjumlahan (10.2.13) tidak boleh mengandung suku-suku yang pengaruhnya terhadap penyebaran penjumlahan tersebut sangat besar dibandingkan dengan pengaruh semua suku lainnya, dan juga tidak boleh ada a sejumlah besar suku-suku acak yang pengaruhnya terhadap penyebaran jumlah tersebut semakin kecil dibandingkan dengan pengaruh total suku-suku lain.

Kondisi paling umum (perlu dan cukup) untuk validitas teorema limit pusat adalah Kondisi Lindeberg: untuk setiap m > 0

Di mana F(x) - kepadatan distribusi c. V. X h t-,= M [X'] (/" = 1, 2,P).

Namun, menggunakan kondisi Lindeberg dalam praktiknya sulit dilakukan, karena kita jarang mengetahui secara pasti hukum distribusi variabel acak Xt (/ = 1, 2,P).

Secara historis, bentuk teorema limit pusat pertama yang terbukti adalah teorema Laplace, terdiri dari berikut ini. Jika diproduksi P eksperimen independen, yang masing-masing berisi peristiwa A muncul dengan probabilitas R, kemudian secara luas P perkiraan persamaannya valid:

Di mana kamu n - jumlah kemunculan peristiwa tersebut A V P eksperimen; Q = 1 - RФ(х) - Fungsi Laplace.

Mari kita turunkan rumus (10.2.15) sebagai konsekuensi dari teorema limit pusat untuk suku-suku yang terdistribusi identik. Variabel acak yang "dinormalisasi".

terkait dengan ketergantungan nonlinier, sebenarnya, bersifat diskrit, juga diskrit dengan. V. ya, didistribusikan menurut hukum binomial, tetapi secara luas P nilainya terletak sangat dekat pada sumbu absis sehingga dapat dianggap kontinu, dengan kepadatan distribusi /(r). Nilai acak Y n memiliki distribusi binomial dengan parameter dll. ekspektasi matematisnya M [ Y n ] = dll. variansnya sama dengan D[ Y n ] = npq. Mari kita cari karakteristik numerik dari variabel acak (10.2.16): m.o. dan varians fungsi linier s. V. Yn. Kita punya:


Jadi, variabel acak Zn(10.2.16) memiliki independensi P karakteristik numerik T= 0, a = 1 (makanya kami pindah ke r.v. Zn dari Yn).

Mengingat Т„ = ^dimana X (- indikator acara A pada percobaan ke-1 - 1=1

itu, kami pastikan itu s. V. Zn(10.2.16) adalah jumlahnya P variabel acak independen yang terdistribusi secara identik. Menerapkan teorema limit pusat untuk suku-suku yang terdistribusi secara identik, kami yakin bahwa dengan sejumlah besar percobaan P Dengan. V. Zn memiliki distribusi mendekati normal, dengan parameter T= 0; a = 1 yang berarti validitas rumus (10.2.15).

Teorema Laplace memungkinkan untuk menemukan secara kasar probabilitas nilai variabel acak yang terdistribusi menurut hukum binomial untuk nilai parameter yang besar P sedangkan kemungkinannya R tidak boleh terlalu besar atau terlalu kecil.

Dalam praktiknya, seseorang dapat menilai kemungkinan penggantian distribusi binomial dengan distribusi normal berdasarkan apakah datanya memuaskan P Dan R kondisi:

Jika kondisi tersebut terpenuhi, maka probabilitas dapat dihitung R k = R ( kamu n = k) sebagai pertambahan fungsi distribusi normal di daerah tersebut Ke sebelum k+ 1:

Di mana F(x)- fungsi distribusi hukum normal:

Mengganti (10.2.19) t - di sebuah = yfnpq, kita mendapatkan:

Menghitung kenaikan fungsi ini di area dari Ke sebelum k+ 1, kita mendapatkan:

Teorema Laplace (10.2.15) dapat ditulis dalam bentuk yang sedikit berbeda jika kita kembali dari normalisasi c. V. Zn(10.2.16) hingga hal. V. kamu n -

jumlah kemunculan suatu peristiwa di P eksperimen - terkait dengan Zn ketergantungan linier:

Fungsi Distribusi Variabel Acak Y n pada umumnya P akan mendekati fungsi distribusi normal dengan parameter kamu - pr; o „ = Jnpq:

dan kemungkinan mengenai variabel acak Y n untuk setiap bagian dari a sampai p kira-kira sama dengan

dimana bentuk lain penulisan teorema Laplace:

Mari kita lihat sejumlah contoh, yang masing-masing contoh harus menerapkan satu atau beberapa bentuk teorema limit pusat untuk menyelesaikan masalah.

Contoh 1. Tersedia P perangkat teknis identik (TD), waktu operasi bebas kegagalan masing-masing /-thnya merupakan variabel acak 7), didistribusikan menurut hukum eksponensial dengan parameter X, sama untuk semua spesifikasi. Nomor P Spesifikasi yang dikumpulkan dalam sistem seperti itu cukup besar. Variabel acak 7j, T 2, ..., T t..., ^tidak tergantung satu sama lain. Jika terjadi kegagalan perangkat teknis ke-/, terjadi peralihan instan dan aman dari kegagalan ke perangkat berikutnya secara berurutan (/ + )-e TU (/" + 1 p). Total waktu operasi bebas kegagalan sistem TU sama dengan jumlah waktu T;.

Temukan kira-kira probabilitas bahwa sistem peralatan teknis akan beroperasi tanpa kegagalan untuk waktu tidak kurang dari t:

(sejak r.v. T kontinu, tanda sama dengan dapat dipangkas;.

Larutan. Menurut teorema limit pusat untuk suku-suku yang terdistribusi identik c. V. T(10.2.23) akan berdistribusi kira-kira menurut hukum normal dengan parameter:

Kami menemukan kira-kira probabilitas (10.2.24): dimana F( m) - fungsi distribusi normal dengan parameter:

Menurut hukum normal, fungsi distribusi sama dengan:

dimana (X)- Fungsi Laplace.

Contoh 2. Mesin yang dikontrol secara numerik berproduksi per shift P= 1000 produk, rata-rata 2% di antaranya cacat. Temukan kira-kira probabilitas bahwa setidaknya 970 produk berkualitas baik (tidak cacat) akan diproduksi per shift jika produk-produk tersebut ternyata berkualitas baik secara independen satu sama lain.

Larutan. Kemungkinan R menghasilkan produk berkualitas tinggi: R = 0,98, kamu- jumlah produk berkualitas baik; sejumlah percobaan independen P= 1000. Kita periksa apakah kondisi (10.2.17) terpenuhi; kami menemukan:

Oleh karena itu, hukum normal dapat digunakan; Menerapkan teorema Laplace dalam bentuk (10.2.22), kita menemukan:

Jadi, probabilitas yang dibutuhkan cukup tinggi (sama dengan 0,988), namun tetap dengan probabilitas 0,012 kita dapat memperkirakan bahwa jumlah produk berkualitas baik per shift akan kurang dari 970. ?

Contoh 3. Untuk kondisi pada contoh sebelumnya, tentukan berapa banyak produk berkualitas baik yang harus dirancang untuk wadah yang disiapkan, sehingga kemungkinan meluapnya per shift tidak melebihi 0,01.

Larutan. Mari kita cari y dari kondisi tersebut

Kami mencari nilai seperti itu kamu = y, di mana fungsi distribusi variabel acak Y n

yaitu

Dengan menggunakan tabel fungsi Laplace (lihat Lampiran 2), kita menemukan argumen yang fungsi Laplace sama dengan 0,49; itu kira-kira sama dengan 2,33, oleh karena itu

Contoh 4. Kereta api terdiri dari P gerbong; massa setiap mobil dalam ton merupakan variabel acak Xs m.o. tx dan S. ko. Oh. Jumlah mobil P- besar (beberapa lusin). Lokomotif tidak mampu lagi mengangkut massa Q(T); jika massa komposisinya lebih besar Q(t), harus memasang lokomotif kedua. Tentukan peluang satu lokomotif tidak cukup untuk mengangkut kereta api.

Larutan. Mari kita tunjukkan Q = ^JXj berat komposisi. Berdasarkan

teorema limit pusat untuk yang cukup besar P Dengan. V. Q didistribusikan kira-kira menurut hukum normal dengan parameter

m q - pt x, o q =^ = y = yD; D = n/X 2. Oleh karena itu, hal. V. Xs distribusi normal yang kita perlukan ditentukan oleh T(hal) rumus

dan besarnya X akan ditentukan dari kondisi dari mana

Contoh 9. Perkirakan hukum normal dengan parameter wx Dan Dx menggunakan jumlah i dari s independen. V. X dan ..., X hal, didistribusikan secara merata pada interval (0, 1).

Larutan. Berdasarkan teorema limit pusat untuk besar P nilai acak

didistribusikan kira-kira menurut hukum normal dengan parameter:

Variabel acak yang kita butuhkan X merepresentasikannya sebagai fungsi linier dari variabel acak Y N:


Di mana kita menemukan koefisiennya? A Dan B dalam rumus (10.2.29)

Jadi untuk mendapatkan variabel acak X, didistribusikan kira-kira menurut hukum normal, Anda perlu menambahkan jumlah yang cukup besar P variabel acak independen terdistribusi secara merata dalam interval (0, 1) dan menjumlahkannya dengan transformasi linier (10.2.29).

Dalam praktik bekerja dengan komputer ketika memodelkan fenomena acak, variabel acak yang terdistribusi normal diperoleh dengan cara ini. Pengalaman menunjukkan bahwa akurasi yang cukup memuaskan sudah dapat diperoleh dengan P= 6; angka P= Yun-12 sudah cukup. ?

Contoh 10. Ada sejumlah uang di meja kas lembaga D= 3500 (gosok). Berbaris n = 20 orang. Jumlah X, yang harus dibayarkan kepada seorang individu - variabel acak dengan ekspektasi matematis t x = 150 (gosok) dan standar deviasi o* = 60 (gosok). Temukan probabilitas bahwa jumlahnya jatuh tempo cukup untuk membayar semua orang yang mengantri.

Larutan. Berdasarkan teorema limit pusat untuk suku-suku besar yang terdistribusi identik P(A P= 20 secara praktis dapat dianggap “besar”) sebagai variabel acak atau

Di mana Xj- jumlah yang harus dibayarkan kepada orang ke-i berdistribusi kurang lebih normal dengan parameter :


Jadi, dengan probabilitas sekitar 3%, jumlah yang tersedia di kasir tidak akan cukup untuk membayar semua orang yang mengantri.

Contoh 11. Pada kondisi contoh sebelumnya: berapa jumlahnya A perlu ada di mesin kasir sehingga peluang tidak cukupnya membayar setiap orang yang layak menjadi sama dengan 0,005?

Larutan. Kami memiliki kondisi P ( kamu n > a)= 0,5 - F ((A- 3000)/268) = = 0,005, yaitu F ((A- 3000)/268) = 0,495. Dengan menggunakan tabel Ф(х) di lampiran, kita menemukan argumen fungsi Laplace, yang sama dengan 0,495:

Di mana A - 3691.

Jadi, peningkatan jumlahnya relatif kecil A(dari 3500 hingga 3691) cukup untuk menjamin pembayaran kepada semua orang dengan probabilitas yang sangat tinggi yaitu 0,995. ?

Contoh 12: Melempar koin P= 1000 kali. Dianggap hal. V. X- jumlah emblem yang dijatuhkan. Menentukan rentang nilai yang mungkin c. V. X, simetris relatif terhadap m.o. desa ini c., yang kemungkinan besar akan jatuh 9 > = 0,997.

Larutan. X = ^X ( , Di mana X ( - jumlah emblem yang dijatuhkan selama lemparan ke /: ""=i



Berdasarkan teorema limit pusat hal. V. X berdistribusi normal, oleh karena itu,

Menggunakan tabel Ф(х) - Fungsi Laplace yang kita temukan:

Interval yang diperlukan adalah:

Jadi, dengan kemungkinan yang sangat tinggi $P= 0,997, dapat dikatakan bahwa jumlah lambang yang dijatuhkan akan berkisar antara 453 hingga 577 (hal ini telah dibahas pada ayat 1L). ?

  • Perhatikan bahwa perangkat ini dibuat oleh A.M. Lyapunov secara khusus membuktikan teorema limit pusat.

Batasi teorema teori probabilitas

Ketimpangan Chebyshev

Mari kita perhatikan sejumlah pernyataan dan teorema dari sekelompok besar yang disebut teorema limit teori probabilitas yang membangun hubungan antara karakteristik teoretis dan eksperimental variabel acak dengan sejumlah besar pengujian terhadapnya. Mereka membentuk dasar statistik matematika. Teorema limit secara konvensional dibagi menjadi dua kelompok. Kelompok teorema pertama, disebut hukum bilangan besar, menetapkan stabilitas nilai rata-rata, mis. dengan sejumlah besar tes, hasil rata-ratanya tidak lagi acak dan dapat diprediksi dengan cukup akurat. Kelompok teorema kedua, disebut batas pusat, menetapkan kondisi di mana hukum distribusi jumlah sejumlah besar variabel acak mendekati normal tanpa batas.

Pertama, mari kita pertimbangkan pertidaksamaan Chebyshev, yang dapat digunakan untuk: a) memperkirakan secara kasar probabilitas kejadian yang terkait dengan variabel acak yang distribusinya tidak diketahui; b) pembuktian sejumlah teorema hukum bilangan besar.

Teorema 7.1. Jika variabel acak X memiliki ekspektasi dan varians matematis DX, maka untuk setiap ketidaksetaraan Chebyshev adalah valid

. (7.1)

Perhatikan bahwa pertidaksamaan Chebyshev dapat ditulis dalam bentuk lain:

Untuk frekuensi atau peristiwa di N uji coba independen, yang masing-masing uji coba dapat terjadi dengan probabilitas , yang variansnya, pertidaksamaan Chebyshev berbentuk

Pertidaksamaan (7.5) dapat ditulis ulang menjadi

. (7.6)

Contoh 7.1. Dengan menggunakan pertidaksamaan Chebyshev, perkirakan probabilitas deviasi suatu variabel acak X dari ekspektasi matematisnya akan kurang dari tiga standar deviasi, yaitu. lebih sedikit .

Larutan:

Dengan asumsi rumus (7.2), kita peroleh

Perkiraan ini disebut aturan tiga sigma.

teorema Chebyshev

Pernyataan utama hukum bilangan besar terdapat dalam teorema Chebyshev. Teorema ini dan teorema hukum bilangan besar lainnya menggunakan konsep “konvergensi variabel acak dalam probabilitas”.

Variabel acak kemungkinan bertemu ke nilai A (acak atau non-acak), jika ada peluang suatu kejadian di cenderung kesatuan, yaitu.

(atau ). Konvergensi probabilitas secara simbolis ditulis sebagai berikut:

Perlu dicatat bahwa konvergensi dalam probabilitas mengharuskan ketimpangan dipenuhi bagi sebagian besar anggota urutan (dalam analisis matematis - untuk semua n>N, Di mana N- angka tertentu), dan kapan hampir semua anggota barisan harus masuk ε- lingkungan A.

Teorema 7.3 (Hukum bilangan besar dalam bentuk P.L. Chebyshev). Jika variabel acak mandiri dan jumlahnya banyak C> 0, apa, lalu untuk siapa pun

, (7.7)

itu. rata-rata aritmatika dari variabel-variabel acak ini kemungkinannya menyatu dengan rata-rata aritmatika dari ekspektasi matematisnya:

.

Bukti. Dari dulu

.

Kemudian, dengan menerapkan pertidaksamaan Chebyshev (7.2) pada variabel acak, kita mendapatkan:

itu. mean aritmatika dari variabel acak konvergen dalam probabilitas terhadap ekspektasi matematis A:

Bukti. Karena

dan varians variabel acak, yaitu terbatas, maka dengan menerapkan teorema Chebyshev (7.7), kita memperoleh pernyataan (7.9).

Akibat wajar dari teorema Chebyshev membenarkan prinsip “rata-rata aritmatika” dari variabel acak X saya, terus-menerus digunakan dalam praktik. Jadi biarlah diproduksi N pengukuran independen suatu besaran, yang nilai sebenarnya A(tidak diketahui). Hasil setiap pengukuran merupakan variabel acak X saya. Menurut akibat wajarnya, sebagai perkiraan nilai kuantitas A anda dapat mengambil rata-rata aritmatika dari hasil pengukuran:

.

Kesetaraannya semakin akurat N.

Teorema Chebyshev juga menjadi dasar metode yang banyak digunakan dalam statistik. metode pengambilan sampel, yang intinya adalah kualitas sejumlah besar bahan homogen dapat dinilai dari sampelnya yang kecil.

Teorema Chebyshev menegaskan hubungan antara keacakan dan kebutuhan: nilai rata-rata variabel acak praktis tidak berbeda dengan variabel non-acak.

teorema Bernoulli

Teorema Bernoulli secara historis merupakan bentuk hukum bilangan besar yang pertama dan paling sederhana. Ini secara teoritis mendukung sifat stabilitas frekuensi relatif.

Teorema 7.4 (Hukum bilangan besar dalam bentuk J. Bernoulli). Jika probabilitas suatu peristiwa terjadi A dalam satu pengujian sama dengan R, jumlah terjadinya peristiwa ini di N pengujian independen sama dengan , maka untuk bilangan berapa pun persamaan tersebut berlaku

, (7.10)

yaitu frekuensi relatif kejadian tersebut A menyatu dalam probabilitas ke probabilitas R acara A: .

Bukti. Mari kita perkenalkan variabel acak sebagai berikut: jika di Saya-sebuah peristiwa muncul selama tes A, dan jika tidak muncul, maka . Lalu nomornya A(jumlah keberhasilan) dapat direpresentasikan sebagai

Ekspektasi matematis dan varians variabel acak sama dengan: , . Hukum distribusi variabel acak X i berbentuk

X saya
R R

apapun Saya. Jadi, variabel acak X saya independen, variansnya terbatas pada angka yang sama, karena

.

Oleh karena itu, teorema Chebyshev dapat diterapkan pada variabel acak ini

.

,

Karena itu, .

Teorema Bernoulli secara teoritis membenarkan kemungkinan penghitungan perkiraan probabilitas suatu peristiwa menggunakan frekuensi relatifnya. Jadi, misalnya, probabilitas memiliki anak perempuan dapat dianggap sebagai frekuensi relatif kejadian ini, yang menurut data statistik kira-kira sama dengan 0,485.

Pertidaksamaan Chebyshev (7.2) untuk variabel acak

mengambil formulir

Di mana pi saya- kemungkinan kejadian A V Saya- tes saya.

Contoh 7.2. Peluang salah ketik pada satu halaman naskah adalah 0,2. Perkirakan probabilitas bahwa dalam sebuah naskah yang berisi 400 halaman, frekuensi kesalahan ketik berbeda dari modulo probabilitas yang sesuai kurang dari 0,05.

Larutan:

Mari kita gunakan rumus (7.11). Pada kasus ini , , , . Kami punya, mis. .

Teorema limit pusat

Teorema limit pusat adalah kelompok teorema limit kedua yang menetapkan hubungan antara hukum distribusi jumlah variabel acak dan bentuk pembatasnya - hukum distribusi normal.

Mari kita rumuskan teorema limit pusat untuk kasus ketika suku-suku jumlah mempunyai distribusi yang sama. Teorema ini paling sering digunakan dalam praktik. Dalam statistik matematika, variabel acak sampel mempunyai distribusi yang identik karena diperoleh dari populasi yang sama.

Teorema 7.5. Biarkan variabel acak menjadi independen, terdistribusi secara identik, dan memiliki ekspektasi dan varians matematis yang terbatas, . Kemudian fungsi distribusi jumlah variabel acak terpusat dan ternormalisasi tersebut cenderung ke fungsi distribusi variabel acak normal standar.

Charles Whelan Bab buku
Rumah penerbitan "Mann, Ivanov dan Ferber"

Akhirnya, waktunya telah tiba untuk merangkum apa yang telah dikatakan. Karena rata-rata sampel terdistribusi secara normal (karena teorema limit pusat), kita dapat memanfaatkan potensi kaya dari kurva lonceng. Kami memperkirakan bahwa sekitar 68% dari seluruh mean sampel akan berada dalam satu kesalahan standar dari mean populasi; 95% - pada jarak tidak melebihi dua kesalahan standar; dan 99,7% - pada jarak tidak melebihi tiga kesalahan standar.

Sekarang mari kita kembali ke deviasi (penyebaran) pada contoh bus yang hilang - namun, kali ini kita akan menggunakan angka, bukan intuisi, untuk membantu. (Contoh ini sendiri masih tidak masuk akal; kita akan melihat banyak kasus yang lebih realistis di bab berikutnya.) Katakanlah penyelenggara studi Mengubah Kehidupan mengundang semua pesertanya ke Boston pada akhir pekan untuk bersenang-senang dan pada saat yang sama waktu memberikan beberapa data yang hilang. Peserta secara acak ditugaskan ke bus dan dibawa ke pusat tes, di mana mereka akan ditimbang, ditentukan tinggi badannya, dll. Yang membuat ngeri penyelenggara acara, salah satu bus menghilang di suatu tempat dalam perjalanan ke tes. tengah. Acara ini diumumkan dalam program berita radio dan televisi lokal. Saat berkendara kembali dari Festival Sosis pada waktu yang hampir bersamaan, Anda melihat sebuah bus mogok di pinggir jalan, rupanya pengemudinya terpaksa membuat keputusan. berbelok tajam ke samping untuk menghindari tabrakan dengan rusa besar yang tiba-tiba muncul di jalan. Akibat manuver tajam tersebut, seluruh penumpang kehilangan kesadaran atau terdiam, meski untungnya tidak satupun dari mereka yang mengalami luka serius. (Saya membuat asumsi ini semata-mata untuk kemurnian contoh yang diberikan di sini, dan harapan bahwa penumpang tidak akan terluka parah dijelaskan oleh kecintaan saya pada kemanusiaan.) Dokter ambulans yang segera tiba di lokasi kecelakaan memberi tahu Anda bahwa berat rata-rata 62 penumpang di dalam bus adalah 194 pon. Selain itu, ternyata (yang sangat melegakan bagi semua pecinta binatang) bahwa rusa yang coba dihindari oleh sopir bus tersebut praktis tidak terluka (kecuali sedikit memar di kaki belakangnya), namun karena ketakutan yang parah ia juga kalah. kesadaran dan berbaring di samping bus.

Untungnya, Anda mengetahui berat rata-rata penumpang bus, serta standar deviasi untuk seluruh populasi orang Amerika. " Mengubah Kehidupan. Selain itu, kami memiliki pemahaman umum tentang teorema limit pusat dan mengetahui cara memberikan pertolongan pertama pada korban cedera. hewan. Berat rata-rata peserta dalam studi Amerika "Mengubah Kehidupan adalah 162 pon; standar deviasinya adalah 36. Berdasarkan informasi tersebut, Anda dapat menghitung standar error untuk sampel 62 orang (banyaknya penumpang bus yang pingsan): .

Perbedaan antara rata-rata sampel (194 pon) dan rata-rata populasi (162 pon) adalah 32 pon, lebih dari tiga kesalahan standar. Dari teorema limit pusat, Anda mengetahui bahwa 99,7% dari seluruh mean sampel akan berada dalam tiga kesalahan standar dari mean populasi. Oleh karena itu, kecil kemungkinannya bahwa bus yang Anda lewati membawa sekelompok orang Amerika yang Mengubah Kehidupan. Sebagai seorang aktivis komunitas terkemuka di kota tersebut, Anda menghubungi penyelenggara acara untuk melaporkan bahwa bus yang Anda lewati kemungkinan besar membawa sekelompok orang lain. Benar, dalam hal ini Anda dapat mengandalkan hasil statistik, dan bukan pada “tebakan intuitif” Anda. Anda memberi tahu penyelenggara bahwa Anda menyangkal kemungkinan bahwa bus yang Anda temukan adalah bus yang mereka cari, dengan tingkat kepercayaan 99,7%. Dalam hal ini, Anda berbicara dengan orang-orang yang akrab dengan statistik, Anda dapat yakin bahwa mereka memahami bahwa Anda benar (Berurusan dengan orang pintar selalu menyenangkan!).

Kesimpulan Anda semakin didukung ketika dokter gawat darurat mengambil sampel darah dari penumpang bus dan menemukan bahwa rata-rata kadar kolesterol darah mereka lima standar kesalahan lebih tinggi daripada rata-rata kadar kolesterol darah peserta studi Changing Lives - peserta Sausage Lovers Festival -. menjadi tidak sadarkan diri (Ini kemudian terbukti secara tak terbantahkan.)

[Cerita ini memiliki akhir yang bahagia. Ketika para penumpang bus sadar kembali, penyelenggara penelitian American' Changing Lives menyarankan mereka untuk berkonsultasi dengan ahli gizi tentang bahaya mengonsumsi makanan tinggi lemak jenuhnya. Setelah konsultasi tersebut, banyak pecinta sosis memutuskan untuk memutuskan masa lalu mereka yang memalukan dan rusa besar yang terluka dibawa ke klinik hewan setempat dan dilepaskan dan mendapat tepuk tangan dari anggota Masyarakat Kesejahteraan Hewan setempat karena statistik tidak berhubungan dengan nasib individu. Ini adalah masalah yang sama sekali berbeda; tidak mungkin membungkam nasibnya! Jika sesuatu terjadi, Masyarakat Kesejahteraan Hewan dapat membelanya.]

Dalam bab ini saya mencoba berbicara hanya tentang dasar-dasarnya. Anda mungkin telah memperhatikan bahwa teorema limit pusat hanya berlaku jika ukuran sampel cukup besar (biasanya minimal 30). Selain itu, kita memerlukan sampel yang relatif besar jika kita ingin mengasumsikan bahwa simpangan bakunya kira-kira sama dengan simpangan baku populasi.

Ada beberapa penyesuaian statistik yang dapat dilakukan jika kondisi ini tidak terpenuhi, namun semuanya seperti lapisan gula pada kue (dan mungkin bahkan keping coklat yang ditaburkan di atas lapisan gula). “Gambaran besar” di sini sederhana dan sangat efektif.

  1. Jika Anda membentuk sampel acak yang besar (dalam hal volume) berdasarkan populasi mana pun, maka nilai rata-ratanya akan terdistribusi menurut hukum normal mendekati nilai rata-rata populasi yang bersangkutan (apa pun bentuk sebaran populasi aslinya. ).
  2. Sebagian besar rata-rata sampel akan cukup dekat dengan rata-rata populasi (apa yang seharusnya dianggap “cukup dekat” dalam kasus tertentu ditentukan oleh kesalahan standar).
  3. Teorema limit pusat menyatakan probabilitas bahwa mean sampel akan berada dalam jarak tertentu dari mean populasi. Relatif kecil kemungkinannya bahwa rata-rata sampel akan berjarak lebih dari dua kesalahan standar dari rata-rata populasi, dan sangat tidak mungkin bahwa rata-rata sampel akan lebih dari tiga kesalahan standar dari rata-rata populasi.
  4. Semakin kecil kemungkinan suatu hasil terjadi secara acak, semakin yakin kita bahwa ada faktor lain yang terlibat.

Hal ini pada umumnya merupakan inti dari inferensi statistik. Teorema Limit Pusat pada dasarnya adalah yang membuat semua ini mungkin terjadi. Dan sampai LeBron James memenangkan gelar NBA sebanyak Michael Jordan (enam), teorema limit sentral akan membuat kita lebih terkesan daripada pemain bola basket terkenal itu.

LeBron Raymone James adalah pemain bola basket profesional Amerika yang bermain sebagai penyerang kecil dan penyerang kuat untuk tim NBA Cleveland Cavaliers. Catatan terjemahan

Perhatikan penggunaan presisi palsu yang sangat cerdik dalam kasus ini.

Ketika simpangan baku dari populasi terkait dihitung berdasarkan sampel yang lebih kecil, rumus yang kami berikan sedikit dimodifikasi: Hal ini membantu memperhitungkan fakta bahwa varians dalam sampel kecil mungkin “meremehkan” varians di seluruh populasi. Hal ini tidak mempunyai kaitan khusus dengan ketentuan-ketentuan yang lebih universal yang dibahas dalam bab ini.

Rekan saya di Universitas Chicago, Jim Salley, melontarkan kritik yang sangat penting terhadap contoh bus yang hilang. Dia mencontohkan, hilangnya bus merupakan kejadian yang sangat langka saat ini. Oleh karena itu, jika kita harus mencari bus yang hilang, maka bus apa pun yang kita temui yang ternyata hilang atau rusak pastilah bus yang kita minati, berapapun berat penumpang bus tersebut. Mungkin Jim benar. (Saya akan menggunakan analogi ini: jika Anda kehilangan anak Anda di supermarket dan manajemen toko ini melaporkan di radio bahwa anak hilang seseorang berdiri di dekat kasir nomor enam, maka Anda mungkin akan segera memutuskan bahwa itu adalah anak Anda. bicarakan.) Akibatnya, kami tidak punya pilihan selain menambahkan unsur absurditas lain ke dalam contoh kami, karena percaya bahwa hilangnya bus adalah peristiwa biasa.

Mari kita tunjukkan kesimpulan utama Teorema Limit Pusat dengan menggunakanMSUNGGUL: Mari kita buat distribusi sampel mean, hitung kesalahan standar dan bandingkan nilai yang diperoleh dari sampel dengan kesimpulan CLT.

berjuang untuk distribusi normal dengan nilai rata-rataμ dan deviasi standar sama dengan σ/√n

Catatan: Pro statistik dan mereka distribusi sampel bisa dibaca di artikel.

Mari kita tunjukkan alasannya sama dengan σ/√n.

Setiap pengamatan individu X i masuk Sampel Memiliki penyebaranσ 2 . Dari , maka jumlah variabel acak independen di Sampel, yaitu. x 1 + x 2 ... + x n, punya penyebaran n*σ 2 , A deviasi standar jumlah ini sama dengan ROOT(n) *σ . Mencari deviasi standar mean sampel perlu dibagi deviasi standar jumlah per n. Hasilnya, kami mendapatkan itu deviasi standar mean sampel sama dengan σ/√n.

Karena biasanya deviasi standar distribusi asli dari mana ia diambil Sampel, tidak diketahui, maka perkiraannya digunakan dalam perhitungan, bukan σ S - deviasi standar sampel.

Nilai yang sesuai adalah s/√n, dengan n adalah ukurannya sampel, memiliki nama khusus: Kesalahan standar (Kesalahan StandardariituBerarti, SEM).

Catatan: Istilah SEM terkadang juga dapat digunakan deviasi standar rata-rata distribusi sampel.

Catatan: Meskipun Kesalahan standar sebenarnya adalah deviasi standar, nama khususnya karena keinginan untuk menekankan bahwa ini menunjukkan besarnya ketidakpastian rata-rata sampel. Kesalahan standar memperkirakan berapa banyak rata-rata sampel X rata-rata berbeda dari nilai rata-rataμ dari distribusi aslinya. Dan istilahnya deviasi standar biasanya digunakan untuk menunjukkan jumlah variabilitas elemen individu sampel dari rata-rata.

Untuk digunakan CPT kondisi berikut harus dipenuhi:

  • pengamatan individu di Sampel harus mandiri;
  • pengamatan diambil dari hal yang sama populasi, yaitu. mempunyai distribusi yang sama dengan parameter μ dan σ ;
  • ukuran sampel n harus "cukup besar" (lihat penjelasan di bawah).

Catatan: Rata-rata sampel adalah variabel acak. Jika syarat di atas terpenuhi, maka Rata-rata sampel didistribusikan ke seluruh hukum biasa. Dalam hal ini tidak diperlukan distribusi asli dari mana Sampel harus normal.

Catatan: Terlepas dari kenyataan bahwa nilai-nilai individu x saya mematuhi beberapa hukum distribusi yang tidak kita ketahui, prosedur untuk menggabungkan banyak nilai untuk menghitung jumlah atau rata-rata, mengarah ke distribusi normal(yang mana kita dapat menghitung probabilitasnya). Seringkali yang masuk akal adalah distribusinya normal atau tidak, hanya dalam kaitannya dengan jumlah atau rata-rata.

Contoh perhitungan probabilitas di MS EXCEL menggunakan CLT

Masalah 1 . Perusahaan memproduksi keju olahan. Berat nominal keju harus 100 gram. Karena alasan alami, berat setiap keju berbeda dari nilai nominalnya. Berdasarkan pengalaman diketahui bahwa berat rata-rata keju adalah 105g, dan simpangan bakunya adalah 15g. Untuk menghindari hilangnya reputasi perusahaan, berat keju tidak boleh terlalu kecil, tetapi juga tidak boleh terlalu besar, karena... pada saat yang sama biaya meningkat. Diketahui bahwa kemasan apa pun yang berisi 30 potong dadih keju ditolak jika berat rata-rata keju di dalamnya kurang dari 95g dan lebih dari 110g. Bagian mana dari paket yang akan ditolak dengan pemeriksaan 100%?

Untuk mencari probabilitas (proporsi paket yang ditolak), kita harus mengetahui distribusi variabel acak – bobot paket. Meskipun kita tidak mengetahui pola distribusi masing-masing keju (ini distribusi tidak perlu normal), tapi dari CPT Kita tahu bahwa berat paket akan didistribusikan ke seluruh bagian hukum biasa. Masih menentukan parameter distribusi ini.

Catatan: Meskipun di CPT dikatakan bahwa oleh hukum biasa didistribusikan rata-rata sampel, tapi jelas itu distribusi pengambilan sampel jumlahnya juga akan didistribusikan di antara hukum biasa, tetapi dengan parameter yang berbeda.

Dari kondisi permasalahan kita mengetahui hal tersebut nilai rata-rata berat bungkusan keju tersebut adalah 30 buah*105 gram. Kita juga bisa menghitungnya deviasi standar ini distribusi pengambilan sampel.

Deviasi standar hanya dikenal dengan keju ( 15 gram), tetapi dari (kita asumsikan bobot dadih diperoleh secara acak) kita dapat menghitungnya Deviasi standar untuk paket:
Var(x 1 +…+x 30)= Var(x 1)+…+ Var(x 30)=30* Var(x)

Karena Kita asumsikan semua bobot x i mempunyai distribusi yang sama, maka kita cukup menyatakan variabel acak (berat keju) dengan x.

Karena itu, deviasi standar paket keju =15*ROOT(30)

Pertama, mari kita tentukan probabilitas bahwa sebungkus dadih keju beratnya kurang dari 95*30g. Di MS EXCEL hal ini dapat dilakukan dengan menggunakan rumus:
=NORM.DIST(95*30; 105*30; 15*SQRT(30); BENAR)=0,013%

Sekarang mari kita tentukan probabilitas sebungkus dadih keju memiliki berat lebih dari 110*30g.
=1-NORM.DIST(110*30; 105*30; 15*SQRT(30); BENAR)=3,395%

Jadi, 3,395% + 0,013% = 3,407% produk akan ditolak.

Hasil yang sama dapat diperoleh dengan perhitungan tembus nilai rata-rata satu keju:
=NORM.DIST(95, 105, 15/SQRT(30), BENAR)+ 1-NORM.DIST(110, 105, 15/SQRT(30), BENAR)

Masalah 2. Dari properti distribusi normal diperkirakan terjadi pada sekitar 95% kasus rata-rata sampel akan berada dalam 2 kesalahan standar dari rata-rata populasi(distribusi asli dari mana Sampel), yaitu di dalam:

2*s/ROOT(n)<μ<2*s/КОРЕНЬ(n)

Misalnya saja ukurannya sampel n=30, rata-rata populasi μ=0, dan dihitung berdasarkan sampel deviasi standar s=5.

Pada kasus ini kesalahan standar = 5/AKAR(30)

Mari kita tunjukkan dengan menggunakan rumus MS EXCEL bahwa probabilitas yang diinginkan mendekati 95%:
=1-((1-NORM.DIST(2*5/SQRT(30),0,5/SQRT(30),TRUE))+ NORM.DIST(-2*5/SQRT(30),0,5 /ROOT(30);BENAR))=95,45%

Bagaimana cara kerja CLT pada n=3 dan n=10

Untuk mendemonstrasikan temuannya CPT Mari kita lakukan “penilaian normalitas” distribusi rata-rata sampel pada n=3 dan n=10.

Sebagai distribusi awal, kita ambil , yang menggambarkan peluang munculnya sisi tertentu pada pelemparan sebuah dadu.

Seperti diketahui, nilai rata-rata distribusi ini =(1+6)/2=3,5; A distribusi standar =ROOT(((6-1+1)^2-1)/12)=1,708

Dengan menggunakan MS EXCEL, kita akan membuat 100 rangkaian lemparan 3 dadu (n=3) dan 100 rangkaian lemparan 10 dadu (n=10).

Untuk setiap rangkaian lemparan (yaitu untuk setiap lemparan sampel) kami akan menghitung rata-rata sampel. Lalu kita hitung rata-rata Contoh berarti Dan kesalahan standar. Mari kita pastikan itu sesuai dengan CPT, nilai-nilai ini masing-masing adalah 3.5 dan 1.708/ROOT(n) .

Kami juga akan membangun untuk memastikan hal itu rata-rata sampel didistribusikan ke , dan untuk yang asli distribusi seragam dan distribusi rata-rata sampel.

contoh file pada lembar CPT Classic.

Ketika n=3 Grafik distribusi pengujian normalitas akan sesuai dengan garis lurus dengan sangat kondisional (kebijaksanaan data yang diwarisi dari distribusi asli dipertahankan), tetapi untuk n=10 - korespondensi distribusi normal akan berjalan dengan baik.


Catatan: Sebagai ilustrasi, bandingkan grafik uji distribusi normalitas dengan n=3 dan inisial , mis. untuk n=1 (titik merah pada gambar di bawah). Seperti terlihat pada gambar, nilai-nilai yang diambil distribusi seragam, terletak dalam kelompok yang jelas.

Rata-rata Dan Kesalahan Standar Distribusi Sampel Mean mendekati nilai perhitungan yang diprediksi CPT.

Untuk n=10 jelas penyebaran nilai rata-rata sampel(histogram di sebelah kiri) tidak ada hubungannya dengan histogram yang diperoleh sampel dari aslinya distribusi seragam(histogram di sebelah kanan).

Kesimpulan: Menggunakan MS EXCEL kami mendemonstrasikan cara kerjanya CPT: meskipun distribusi bentuk aslinya tidak ada hubungannya dengan itu normal, sudah dengan n=10 kecil rata-rata sampel didistribusikan ke seluruh hukum mendekati normal dengan yang sama nilai rata-rata dan dengan deviasi standar setara kesalahan standar.

Dalam praktiknya, sering kali perlu menentukan ukuran sampel n yang cukup untuk menjamin distribusi rata-rata sampel sudah cukup mendekati normal. Jelas bahwa perkiraan distribusi asimtotik rata-rata sampel tergantung pada distribusi asli dari mana ia diambil Sampel(jika distribusi aslinya memiliki , maka distribusinya rata-rata sampel akan mendekati normal lebih lambat seiring bertambahnya n). Dalam praktiknya, distribusi aslinya tidak diketahui, sehingga biasanya diasumsikan bahwa ukuran sampel adalah n=>30.

Algoritma penyelesaian masalah menggunakan CLT klasik

Anda sedang melakukan audit terhadap bank besar. Seorang teller bank memberi tahu Anda bahwa rata-rata simpanan di bank adalah $200 dan deviasi standarnya adalah $45. Anda ingin memastikan bahwa informasi manajer benar, jadi Anda memutuskan untuk mengambil data dari sampel acak yang terdiri dari 50 simpanan.
Berikan gambaran tentang distribusi sampel mean padaN=50. Dengan asumsi bahwa karakteristik distribusi yang dilaporkan manajer benar, hitung probabilitas bahwa rata-rata sampel yang Anda hitung akan kurang dari $190.

NASIHAT : Ringkasan materi yang bagus tentang topik ini tersedia di situs web http:// brownmath.com/swt/chap08.htm(Bahasa inggris)

Pertama mari kita beri deskripsi rata-rata distribusi sampel. Kenapa kita perlu ini? Intinya untuk menghitung probabilitas Anda perlu mengetahui distribusi probabilitas. Itu. perlu menunjukkan hal itu rata-rata sampel didistribusikan menurut hukum biasa.

Ingatlah bahwa untuk menggambarkan distribusi apa pun, perlu untuk menghitungnya rata-rata, menyebar Dan membentuk.

Bentuk distribusi. Untuk mengatasi masalah tersebut, Anda perlu memastikannya distribusi rata-rata pengambilan sampel adalah normal(persyaratan penerapan CPT terpenuhi). Sebagai aturan, untuk ini Anda perlu memeriksa 2 kondisi:

  • ukuran sampel tidak boleh melebihi 10% dari populasi;
  • ukuran sampel cukup bahwa, terlepas dari bentuk distribusi aslinya, distribusi rata-rata sampel dulu normal. Biasanya n cukup lebih besar dari 30.

Misalkan syarat pertama terpenuhi (maklumi bahwa bank mempunyai lebih dari 1000 simpanan, maka 50 simpanan kurang dari 10% dari jumlah simpanan bank); Distribusi aslinya kemungkinan besar akan condong ke kiri, karena Biasanya, sebagian besar simpanan berukuran kecil hingga sedang, dan simpanan besar berukuran jauh lebih kecil. Ukuran sampel cukup besar (50>30) untuk memastikan bahwa bentuk distribusi mean sampel mendekati distribusi normal.

Rata-rata. Rata-rata distribusi sampel, berdasarkan CPT, sama rata-rata distribusi asli, mis. dalam kasus kami, 200 dolar.

Menyebarkan. Standar deviasi mean sampel (kesalahan standar), menurut CLT, sama dengan =45/ROOT(50)=6.36.

Sekarang mari kita langsung ke pemecahan masalah. Mari kita membangun terlebih dahulu rata-rata sampel N(200; 45/SQRT(50)).

Garis vertikal hijau berhubungan dengan x=$190.

Sesuai dengan kondisi permasalahan yang kami ambil Sampel dari 50 deposito dan dihitung rata-rata sampel ini (Xsr). Sekarang mari kita hitung probabilitas Xcp kurang dari $190. Hal ini dapat dilakukan dengan menggunakan rumus
=NORM.DIST(190, 200, 45/SQRT(50), BENAR)=0,058

Jadi, jika rata-rata X, dihitung dari 50 simpanan, ternyata kurang dari $190, maka hal ini dapat menjadi alasan serius untuk meragukan kebenaran perkataan pegawai bank (yang menyatakan bahwa rata-rata simpanan bank sama dengan $200) , Karena ini adalah peristiwa yang tidak mungkin terjadi (<6%).

Perhitungan diberikan dalam contoh file pada lembar Tugas.

Catatan: Kesalahan umum dalam memecahkan masalah tersebut adalah penggunaan yang salah deviasi standar, yaitu. kapan sebaliknya kesalahan standar gunakan diketahui deviasi standar alokasi awal ($45), yang belum tentu normal. Tetapi meskipun distribusinya asli normal, maka nilai probabilitas yang dihitung (dalam kasus kami sekitar 40%) selalu jauh lebih tinggi daripada nilai yang benar (sekitar 6%). Hal ini sesuai dengan skema perhitungan jika kita hanya memilih 1 deposit (bukan 50) dan mencoba memutuskan kebenaran perkataan pegawai bank berdasarkan nilainya.

Ringkasan: Paling sering dalam praktiknya, distribusinya dari mana Sampel tidak diketahui (kita hanya dapat berasumsi bahwa distribusi simpanan bank kemungkinan besar condong ke kiri, karena simpanan kecil biasanya merupakan jumlah terbesar). Namun tanpa mengetahui ekspresi matematis untuk distribusinya, kita tidak dapat memperkirakan kemungkinan mendapatkan nilai tertentu dari distribusi tersebut. Dalam kasus seperti itulah hal itu membantu kita CPT.

Formulasi alternatif CLT

Sekarang mari kita lihat cara kerjanya CPT dalam hal variabel acak adalah jumlah variabel acak yang didistribusikan menurut hukum yang berbeda dengan yang berbeda rata-rata Dan deviasi standar.

Jika x 1, x 2, x 3, … x n adalah variabel acak yang nilainya diketahui rata-rata μ saya dan deviasi standarσ i, dan y= x 1 +x 2 +x 3 + … +x n, maka distribusinya

mendekat N(0;1) pada N berjuang menuju ketidakterbatasan.

Dengan kata lain CPT menyatakan bahwa jumlahnya N variabel acak independen untuk jumlah yang cukup besar N, akan didistribusikan hukum biasa dengan rata-rata nilai sama dengan jumlah rata-rata nilai variabel acak ini dan penyebaran sama dengan jumlah mereka varians, yaitu. dalam hukum

Seperti dalam kasus ini CPT klasik, untuk mendemonstrasikan keluaran CPT kami menggunakan MS EXCEL. Sebagai distribusi awal kita ambil 4 B(0,1; 20), 3 U dan 3 )