Kiểm tra giá trị bất thường (outliners) là một
bước quan trọng trong quá trình làm sạch số liệu. Nó giúp các bạn kiểm tra được
tất cả các giá trị bất thường trong bộ số liệu và giúp hạn chế được sai số
trong quá trình phân tích. Có nhiều cách để kiểm tra giá trị bất thường của
biến: frequency, sorting, kiểm tra phân bố chuẩn của biến liên tục, mối tương quan, vv. Trong
bài viết này thongke.info xin giới thiệu syntax của lệnh frequency, các lệnh
khác sẽ được giới thiệu trong những bài sau. Syntax: FREQUENCIES VARIABLES= [biến 1] [biến 2] ….[biến n] /STATISTICS=MINIMUM MAXIMUM /ORDER=ANALYSIS. Kiểm
tra biến C5-Hỏi về số con dưới 24 tháng tuổi của bà mẹ? Khi chạy Frequency biến
C5 chúng ta thấy có một số kết quả khá bất thường, cần được kiểm tra lại với
phiếu gốc.
(Giá trị được highlight màu vàng là giá trị bất thường) Sử dụng Frequency để kiểm tra giá
trị ID (mã số bộ câu hỏi). 
(Có 2 giá trị được highlight màu vàng
bị trùng) Sử dụng
Frequency để kiểm tra mã không phú hợp cho biến danh mục. 
Sử dụng
Freqency để kiểm tra các biến ngày tháng
Kiểm tra
giá trị missing của từng biến
Tất cả các biến đều cần được thu thập đầy đủ
thông tin. Ví dụ cỡ mẫu là 1281 phụ nữ trong độ tuổi 15-49, nhưng lại chỉ có 1233
phụ nữ trả lời câu hỏi về đã từng quan hệ tình dục chưa. Vì vậy việc phân tích
liên quan đến biến về từng quan hệ tình dục chưa chỉ được phân tích tên 1233
người chứ không phải 1281 phụ nữ.
Tuy
nhiên, cần chú ý rằng có một số biến bị mất thông tin nhiều là do có bước nhảy ở
phần trước đó, không phải tất cả những người tham gia nghiên cứu đều phải trả lời
câu hỏi đó.
Ví dụ: Chỉ có những trường hợp trả lời đã từng
có quan hệ tình dục thì mới hỏi tiếp câu về đã từng mang thai hay chưa (Q31).
Số lượt đọc:
3948
-
Cập nhật lần cuối:
30/10/2013 04:26:31 PM |