Thiết kế nghiên cứu
	Thiết kế công cụ thu nhập số liệu
	Phương pháp thu nhập số liệu
	Quản lý, phân tích số liệu
	Trình bày kết quả phân tích xuất bản
	Nghiên cứu định tính

	Quản lý số liệu (Data management)
	Phân tích số liệu (Data analysis)
	Bộ số liệu mẫu (dùng cho thực hành)

	Cơ sở dữ liệu địa lý, nhân khẩu
	Cơ sở dữ liệu chuyên ngành
	Xuất bản phẩm

	Đào tạo trực tuyến etraining
	Đào tạo tập trung
	Đào tạo
	Tư vấn
	Các bài giảng theo chủ đề
	Dịch vụ ISMS

Nhập liệu

Xử lý số liệu

Phân tích đơn biến

Phân tích đôi biến (Bivariate analysis)

Kiểm định khi bình phương (chi Square test)

So sánh giá trị trung bình (mean test)

Kiểm định t (t-test)

ANOVA

Phân tích nhân tố khám phá (factor analysis)

Hồi quy logic (logistic regression)

Hồi quy tuyến tính (linear regression)

Quản lý số liệu (Data management)

Nhập liệu

Xử lý số liệu

	Tạo form nhập liệu
	Viết lệnh check
	Viết file check/batch
	So sánh giữa 2 lần nhập liệu (Validation)
	Kết hợp các bộ số liệu (Combine data files)
	Chuyển dữ liệu sang các dạng khác nhau

	Đặt Tên biến và giá trị biến (Variable name and value label)
	Kiểm tra số liệu (Checking data)
	Xóa bỏ các biến trùng lặp (Remove character, duplicate or variable)
	Xử lý giá trị missing (Working with missing values)
	Lựa chọn trường hợp (select cases)
	Mã hóa biến (recode)
	Tạo biến mới (Compute-generate or gen)
	Xử lý biến ngày tháng, thời gian (date and time)
	Xử lý biến chữ (strings)
	Xử lý biến trong câu hỏi nhiều lựa chọn (multiple responses)

Tạo form nhập bằng epidata

Tạo form nhập bằng Cspro

Viết lệnh check trong epidata

Viết lệnh check trong SPSS

Viết lệnh check trong stata

Viết lệnh check trong Cspro

Viết file batch trong Cspro

Viết file check trong epidata

Dùng Epidata để so sánh

Dùng SPSS để so sánh

Dùng Stata để so sánh

Nối data files bằng epidata

Nối data files bằng SPSS

Nối data files bằng stata

Gộp data files bằng epidata

Gộp data files bằng Cspro

Gộp data files bằng SPSS

Gộp data files bằng stata

Định nghĩa biến trong SPSS

Đặt giá trị cho biến trong SPSS

Thay đổi tên biến trong SPSS

Định nghĩa biến (Stata)

Đặt giá trị cho biến (Stata)

Thay đổi tên biến (Stata)

Dùng frequency kiểm tra số liệu trong SPSS

Dùng sorting kiểm tra số liệu trong SPSS

Phân bố chuẩn trong SPSS

Tính tương quan trong SPSS

Dùng frequency kiểm tra số liệu trong Stata

Dùng lệnh sorting kiểm tra số liệu trong Stata

Phân bố chuẩn (Normal distribution) trong Stata

Tính tương quan trong Stata

Xóa bỏ các biến trùng lặp trong SPSS

Phương pháp xóa bỏ biến trùng lặp trong Stata

Xử lý giá trị missing trong SPSS

Xử lý giá trị missing trong Stata

Lựa chọn các trường hợp (SPSS)

Lựa chọn trường hợp (Stata)

Xử lý biến ngày tháng, thời gian (SPSS)

Biến về ngày tháng và thời gian (Stata)

Xử lý biến chữ (SPSS)

Xử lý biến chữ (Stata)

Xử lý biến trong câu hỏi nhiều lựa chọn (SPSS)

Xử lý biến trong câu hỏi nhiều lựa chọn (Stata)

Xóa bỏ các biến trùng lặp trong SPSS

Trang chủ > Quản lý, phân tích số liệu > Quản lý số liệu (Data management) > Xử lý số liệu > Xóa bỏ các biến trùng lặp (Remove character, duplicate or variable) > Xóa bỏ các biến trùng lặp trong SPSS

Xóa bỏ các biến trùng lặp trong SPSS

Trong quá trình nhập liệu, hoặc nối, gộp các file số liệu có thể dẫn đến nhiều biến, bản ghi bị trùng lặp (duplicate) đặc biệt là với những bộ số liệu lớn. Để xử lý tình huống này, thongke.info xin giới thiệu tới các bạn một số cách đơn giản để phát hiện và loại bỏ các bản ghi trùng lặp.

Xử lý trùng lặp được chia làm 2 bước là phát hiện trùng lặp và xóa bỏ các bản ghi trùng lặp. Sau đây chúng tôi sẽ đi vào cụ thể từng bước.

1. Phát hiện bản ghi trùng lặp

Cách thông thường và đơn giản nhất để phát hiện bản ghi trùng lặp là sử dụng lệnh sắp xếp thứ tự (sorting) bản ghi theo một biến đặc trưng (unique) hoặc chạy lênh phân bố tần số của biến đó và quan sát trực tiếp bộ số liệu để nhìn thấy sự trùng lặp (chỉ áp dụng được đối với các bộ số liệu nhỏ, ít bản ghi). Trong các ví dụ nêu dưới đây, chúng tôi sử dụng biến mã bộ câu hỏi (qid) làm biến đặc trưng.

a. Sắp xếp bộ số liệu (sorting)

sort qid

Kết quả khi thu được cho ta thấy trong bộ số liệu có qid 15404, 15517 có trùng lặp.

b. Chạy phân bố tần suất

freq qid

c. Tạo biến mới nhận biết trùng lặp

sort cases by qid .

compute dup = 0 .

if lag(qid) = qid dup = 1 .

variable labels dup 'Indicator of duplicate record'.

value labels dup 0 'None' 1 'Duplicate'.

freq dup.

Kết quả phân bố tần số của biến chị thị

Hiển thị tên các bản ghi trùng lặp

temporary.

select if dup=1.

list qid.

Kết quả.

2. Xóa các bản ghi trùng lặp

Sau khi đã phát hiện ra các bản ghi bị trùng lặp, việc tiếp theo của chúng ta là cần xóa các bản ghi đó để có thể thực hiện các phân tích tiếp theo. Để xóa các bản ghi bị trùng ta sử dụng lênh select if với cấu trúc sau:

temporary.

select if dup=0.

save.

outfile='D:\Work\RESEARCH_2012\Thongke.info\data_dup2.sav'.

restore.

Với lệnh temporary và restore chúng ta đã tạo ra được một file data mới không còn biến trùng lặp có tên là data_dup2. Với bộ data mới ta có thể thực hiện lại các thao tác như hướng dẫn ở trên để kiểm tra sự trùng lặp, và dưới đây là kết quả kiểm tra:

freq qid.