|
Quản lý số liệu (Data management) |
|
|
|
|
|
|
|
Dùng frequency kiểm tra số liệu trong Stata |
|
|
|
|
Trang chủ
>
Quản lý, phân tích số liệu
>
Quản lý số liệu (Data management)
>
Xử lý số liệu
>
Kiểm tra số liệu (Checking data)
>
Dùng frequency kiểm tra số liệu trong Stata | Dùng frequency để kiểm tra giá trị bất thường trong Stata | Kiểm tra giá trị bất thường (outliners) là một bước quan trọng
trong quá trình làm sạch số liệu, nó giúp hạn chế được sai số trong quá trình phân
tích. Có nhiều cách để kiểm tra giá trị bất thường của biến: frequency, sorting, kiểm tra phân bố chuẩn của
biến liên tục, mối tương quan, vv. Trong bài viết này thongke.info xin giới thiệu
syntax của lệnh frequency, các lệnh khác sẽ được giới thiệu trong những bài
sau.
Ta có thể viết lệnh
phân bố tần số từng biến một hoặc viết nhiều biến cùng lúc mà vẫn nhận được kết
quả chạy riêng của từng biến như sau”
Syntax chạy từng biến:
tab [tên biến1]
Syntax chạy cùng lúc nhiều biến:
tab1 [tên biến1] [tên biến 2] [tên biến]
Ví dụ 1: Kiểm tra giá
trị bất thường của biến giới tính. Ví dụ 2: Một nghiên cứu về tình trạng dinh dưỡng của trẻ em
dưới 2 tuổi được triển khai vào ngày
19/2/2011. Trước khi tiến hành các phân tích sâu ta cần tính tuổi của các
em, để tính được tuổi chính xác ta cần kiểm tra xem biến ngày tháng năm sinh của
các em có điều gì bất thường không. Cách đơn giản nhất chính là ta chạy lệnh mô
tả biến ngày tháng năm sinh: tab q371c
Nhìn
vào kết quả mô tả tần số của biến ngày tháng năm sinh khi so sánh với ngày điều
tra 19/2/2011 ta nhận thấy có 2 giá trị về ngày sinh của trẻ (ngày 14/3/2011,
ngày 7/8/2011) là vô lý vì trẻ không thể sinh ra sau khi nghiên cứu đã kết thúc
được. Vì vậy ta cần phải kiểm tra lại thông tin từ phiếu phỏng vấn.
Ví
dụ 3: Kiểm tra giá trị bất thường về số
điếu thuốc (i35), số cốc rượu (i39) người cao tuổi sử dụng hàng ngày.
tab1
i35 i37
Số lượt đọc:
1799
-
Cập nhật lần cuối:
29/06/2012 04:07:11 PM |
|
|
|
|
|
|
|