thongke.info
Đang tải dữ liệu...
Phân bố chuẩn (Normal distribution) trong Stata
Trang chủ  >  Quản lý, phân tích số liệu  >  Quản lý số liệu (Data management)  >  Xử lý số liệu  >  Kiểm tra số liệu (Checking data)  >  Phân bố chuẩn (Normal distribution) trong Stata

Phân bố chuẩn (Normal distribution) trong Stata

Trong phân tích các biến liên tục, hầu hết kiểm định thống kê chỉ thực hiện được với những biến có phân phối chuẩn. Vì vậy việc xác định một biến có phân phối chuẩn hay không là hết sức cần thiết trước khi ta tiến hành một kiểm định nào đó. Nếu như biến có phân phối chuẩn chúng ta chạy các kiểm định thống kê. Nếu như biến không có phân phối chuẩn, ta có 2 lựa chọn: một là chuyển (convert) biến đó về biến có phân phối chuẩn (ví dụ dùng log) sau đó chạy kiểm định thống kê (phiên giải theo cách khác), hai là dùng các kiểm định thống kê cho biến phân phối không chuẩn.

Để xem xét phân phối chuẩn của một biến ta có rất nhiều cách như vẽ biểu đồ, sử dụng kiểm đinh phân phối chuẩn… Sau đây là một số cách thông thường.

Ví dụ: Ta muốn kiểm tra 2 biến liên tục là thời gian bà mẹ nghỉ sinh (a120) và chiều cao của bà mẹ (m132a).

a. Các phương pháp vẽ đồ thị.

histogram a120, normal

histogram m132a, normal


Nhìn và đồ thị histogram của 2 biến, ta có thể thấy rằng biến a120-Thời gian nghỉ sinh của bà mẹ là biến liên tục không có phân phối chuẩn. Biến 132a –Chiều cao của bà mẹ dường như có phân phối chuẩn (phân bố hình chuông). Để kiểm tra phân phối này ta có thể xem xét trên các dạng đồ thị khác hoặc sử dụng kiểm định phân phối chuẩn sẽ được mô tả sau đây.

*Đồ thị dotplot

dotplot a120

dotplot m132a


*Graph box

graph box a120

graph box m132a


*Q-Q plot

qnorm a120

qnorm m132a


*P-P plot

pnorm a120

pnorm m132a


b.Phương pháp xem xét các giá trị Skewness và Kurtosis

Skewness (độ lệch) và kurtosis (đồ gù) là hai chỉ số chính chúng ta cần xem xét để quyết định biến định lượng có phân phối chuẩn hay không. Một biến có phân phối chuẩn khi giá trị của skweness và kutorsis tiến gần đến giá trị 0 và 3.

*Mô tả biến

summarize a120,d


summarize m132a,d


*Sử dụng kiểm định 2 giá trị

Ta dùng lệnh sktest [tên biến].

sktest a120


sktest m132a


Trong kiểm định phân phối chuẩn này. Giả thiết Ho của chúng ta là biến có phân phối chuẩn.Vì vậy dựa vào giá trị p ta có thể xác định được là sẽ bác bỏ hay chấp nhận Ho để biết phân phối có chuẩn hay không?

Nhận xét ví dụ:

Kết quả kiểm định biến a120-Thời gian nghỉ sinh của bà mẹ, chúng ta thấy giá trị p value của kiểm định của Skewness và Kurtosis đều có p<0.05 à Ho bị bác bỏ, có nghĩa là biến a120 phân phối không chuẩn.

Kết quả kiểm định biến m132a -Chiều cao của bà mẹ có giá trị p value của Skewness >0.05 và Kurtosis p<0.05 àChấp nhận Ho, biến m132a có phân phối chuẩn.