Thứ Sáu, ngày 12 tháng 3 năm 2010

Chương 2 - Phân tích dữ liệu bằng máy tính

Các bước đầu tiên với SPSS cho Windows

Do các loại thống kê khác nhau nêu trong sách nầy được thực hiện với một trong những , nếu không muốn nói là duy nhất, phần mềm thống kê được sử dụng rộng rãi và toàn diện nhất trong khoa học xã hội, SPSS, chúng ta sẽ bắt đầu bằng cách khái quát các yêu cầu của nó. SPSS viết tắt từ Statistical Package for Social Sciences (Phần mềm Thống kê dùng cho Khoa học Xã hội). Những chương trình nầy được nâng cấp liên tục và vì thế hiện nay có nhiều phiên bản khác nhau.

Currently there are two main kinds of operating system for computers. The traditional system, still employed by mainframe (or multi-user) computers, requires commands and names to be typed in. The more recent system uses menus and dialog boxes from which these commands and names can be selected by keys or a mouse, although commands can also be typed in. This latter system was originally developed for Macintosh personal computers and is now available for a Windows environment on IBM-compatible personal computers with a 386 or higher processor. The version for Windows 3.1 is known as SPSS Release 6, which we have outlined in an earlier book (Bryman and Cramer, 1997). After the introduction of Windows 95, a new release of SPSS (Release 7) was designed to run on this operating system. The latest version for Windows 95/98 is Release 10. This book describes the use of Release 10, which we shall refer to as SPSS for short unless otherwise indicated. The use of Releases 8 and 9 was described in the previous edition of this book (Bryman and Cramer, 1999).


Ưu điểm lớn của sử dụng phần mềm như SPSS là nó giúp bạn ghi và phân tích dữ liệu định lượng rất nhanh và theo nhiều cách khác nhau một khi bạn đã học cách sử dụng. Nói cách khác, nó sẽ giúp bạn loại bỏ những giờ phút lê thê lập các bảng ghi, tính toán, và thường xuyên phạm những lỗi không thể tránh khỏi khi làm điều đó. Nó cũng mang lại cho bạn cơ hội sử dụng các kỹ thuật thống kê phức tạp hơn và phù hợp hơn mà bạn chưa từng dám mơ đến.


Dĩ nhiên có một có một nhược điểm lớn khi bắt đầu sử dụng các chương trình máy tính là bạn phải học để sử dụng các chương trình nầy. Tuy vậy, thời gian dùng để học điều đó ít hơn nhiều thời gian cần để thực hiện các tính toán đó bằng tay. Ngoài ra, bạn còn thu hoạch được một số kiến thức có ích cho bạn trong một thế giới mà sử dụng máy tính ngày càng phổ biến. Khả năng thực hiện các công việc một cách nhanh chóng và ít tốn sức cũng sẽ thích thú hơn và thường dễ hơn so với bạn hình dung ban đầu.

Khi nắm vững được một kỹ năng mới, như SPSS, không tránh khỏi việc bạn sẽ phạm một số sai sót có thể gây bối rối và nản lòng. Ai cũng vậy cả, dường như chúng ta phạm nhiều sai sót khi học dùng máy tính hơn là làm việc khác. Lý do là các chương trình đòi hỏi sự hướng dẫn ở hình thức rất chính xác và thường theo một trình tự đặc thù để chúng vận hành. Sự chính xác nầy thường ít thấy ở những công việc hàng ngày chúng ta thường làm khác. Dẫu sao, đáng để lưu ý rằng những sai sót nầy chẳng có hại gì với máy tính hay các chương trình.


Để phạm càng ít sai lầm càng tốt, quan trong lúc nầy là phải theo chính xác sự hướng dẫn bằng các ví dụ ở chương nầy và những chương sau. Dù 'lỗi' (bug) thỉnh thoảng xuất hiện, sai sót luôn luôn là kết quả của việc bạn đã làm cái gì đó chứ không phải là khiếm khuyết của máy tính hay chương trình. Chương trình sẽ báo cho bạn biết lỗi gì nếu có điều gì sai ở hình thức chỉ dẫn bạn đã cung cấp cho nó, nhưng nó sẽ không báo nếu bạn bảo nó cộng dồn tập hợp sai các số. Nói cách khác, nó đặt vấn đề về cách trình bày chứ không phải mục tiêu của sự chỉ dẫn đó.

FILE DỮ LIỆU

Trước khi bạn phân tích dữ liệu, bạn cần tạo ra một file chứa chúng. Để minh hoạ cách tạo các file nầy, chúng tôi sẽ dùng một tập hợp dữ liệu tưởng tượng từ một nghiên cứu dùng bảng câu hỏi (questionnaire study) liên quan đến Khảo sát Việc làm (Job Survey). Dữ liệu liên quan đến nghiên cứu nầy rút ra từ hai nguồn: bàng câu hỏi của các nhân viên trả lời các câu hỏi về chính họ và bảng câu hỏi của các quản lý trả lời các câu hỏi liên quan đến từng công nhân. Các câu hỏi được nêu ở Phụ lục 2.1 ở cuối chương nầy, trong khi mã hoá (coding) các thông tin hay dữ liệu thu thập được trình bày ở Bảng 2.1

Bảng 2.1 Dữ liệu Khảo sát Việc làm

01

1

1

16600

29

1

4

0

3

4

4

2

4

2

2

2

2

3

2

2

3

0

1

7

02

2

1

14600

26

5

2

0

0

2

3

2

2

1

2

3

4

4

4

1

3

4

4

8

03

3

1

17800

40

5

4

4

4

4

1

2

1

2

2

2

1

2

3

1

4

3

4

0

04

3

1

16400

46

15

2

2

5

2

4

1

2

2

2

3

2

2

3

2

3

3

4

4

05

2

2

18600

63

36

4

3

4

4

1

2

3

3

3

4

5

5

4

1

3

5

3

0

06

1

1

16000

54

31

2

2

5

3

3

2

1

1

2

4

4

4

4

1

1

3

4

1

07

1

1

16600

29

2

0

3

3

2

3

2

2

3

2

3

5

4

2

2

3

5

2

0

08

3

1

17600

35

2

5

2

2

4

2

3

4

3

2

3

3

3

2

2

3

4

4

2

09

2

2

17600

33

4

3

3

1

2

4

2

3

4

1

2

2

3

2

2

2

1

1

5

10

2

2

13800

27

6

4

3

2

3

3

2

1

3

2

3

4

3

5

1

2

2

4

4

11

1

1

14200

29

4

2

2

4

1

4

2

1

1

2

5

4

3

4

2

2

2

3

8

12

2

1

0

19

2

1

1

5

2

4

1

1

1

1

3

4

3

3

1

3

2

3

4

13

4

1

18000

55

35

3

3

3

4

2

2

2

3

2

5

5

5

4

1

4

3

5

1

14

1

2

17000

29

1

2

3

4

2

4

2

2

3

1

4

3

4

4

1

1

2

2

0

15

3

1

18200

48

8

3

3

2

2

1

3

2

4

4

2

3

3

3

2

4

5

5

1

16

2

1

15800

32

7

3

3

4

2

2

2

3

1

2

4

2

2

2

2

2

2

3

4

17

1

1

16600

48

14

3

3

3

2

4

1

2

2

2

4

5

4

4

1

2

5

3

1

18

1

2

13400

18

1

2

2

4

2

4

2

3

2

2

5

5

5

1

1

2

3

3

6

19

3

2

15000

28

2

4

4

2

3

2

3

4

3

3

3

2

3

2

2

3

4

4

3

20

3

2

17600

37

1

3

2

3

3

3

3

2

1

2

5

4

4

5

1

1

4

1

3

21

1

1

0

43

16

1

4

4

3

3

3

2

3

3

3

2

4

4

2

4

5

2

6

22

1

1

17400

39

6

3

2

3

2

3

3

2

2

3

4

3

5

3

2

1

1

5

5

23

1

1

18000

53

5

1

4

3

4

4

4

3

2

2

3

5

4

2

1

3

3

5

13

24

2

2

16000

34

9

1

3

4

1

5

1

2

1

1

3

4

4

3

2

1

3

3

9

25

3

2

17000

43

17

4

3

4

5

3

3

1

3

2

3

2

4

4

1

3

5

2

2

26

1

1

14000

21

1

4

4

2

2

3

4

3

3

4

2

3

2

2

1

2

5

5

3

27

1

1

16200

50

28

3

2

3

3

4

2

1

1

2

5

5

5

4

1

2

2

4

8

28

1

2

12400

31

9

1

2

5

1

4

2

2

1

2

4

4

5

4

2

3

5

5

0

29

1

1

13600

31

12

3

3

4

3

3

3

2

2

3

2

3

1

2

1

3

5

4

6

30

2

2

16400

52

21

2

3

2

3

2

3

3

3

3

2

2

2

2

2

4

4

3

10

31

1

1

14400

54

12

3

5

3

3

3

3

2

3

2

4

3

4

4

2

4

4

2

99

32

3

2

12400

28

10

2

2

4

1

5

1

2

2

2

3

3

3

2

1

2

4

4

9

33

2

2

16600

50

23

4

4

3

4

3

4

2

3

4

3

3

3

3

2

3

4

5

5

34

2

2

16000

52

21

5

4

3

3

3

3

4

3

3

2

3

3

2

1

3

2

5

4

35

1

2

15000

40

21

1

1

3

4

3

3

2

3

2

2

3

2

2

1

2

2

3

6

36

2

1

11800

19

1

2

2

5

2

4

2

1

2

2

5

5

5

5

2

2

3

2

3

37

2

1

17600

38

4

5

4

1

4

3

5

3

3

3

2

1

2

1

2

4

4

4

8

38

2

1

18000

61

41

5

3

2

4

1

3

2

2

2

2

2

1

2

2

3

5

4

3

39

1

2

15600

37

8

3

2

4

2

3

2

3

3

2

4

5

4

5

1

3

4

4

8

40

2

1

13400

31

5

2

2

5

2

5

2

2

2

1

5

5

5

4

2

1

1

2

5

41

2

2

15000

43

21

4

3

2

2

2

3

4

2

3

3

3

3

3

1

1

4

2

0

42

3

1

13600

23

3

1

2

5

3

5

1

1

2

1

4

4

4

5

1

3

2

2

8

43

2

2

14000

27

5

1

1

4

1

4

1

1

1

2

4

5

4

4

2

1

2

1

9

44

1

1

15000

28

7

3

3

1

3

3

3

5

3

3

1

2

2

1

1

2

4

3

9

45

1

1

13200

0

10

1

1

4

1

4

2

2

2

2

4

2

5

5

1

4

1

3

10

46

3

1

13400

18

1

4

2

3

4

2

2

3

3

2

4

3

5

4

1

4

3

4

3

47

1

2

20600

48

23

3

4

3

3

3

2

2

3

2

2

1

3

2

2

4

4

3

8

48

1

2

13600

29

10

2

3

5

4

4

2

2

2

1

3

4

2

2

1

3

4

4

11

49

1

2

14600

42

10

2

2

3

3

3

2

2

1

2

5

5

5

5

2

1

4

4

0

50

1

1

18200

53

12

4

5

2

5

1

4

5

3

4

2

2

2

2

2

4

4

4

1


51

1

1

15200

32

12

3

2

4

1

4

3

2

2

3

3

3

4

2

1

2

3

2

1

52

1

2

13000

31

2

1

3

5

1

5

2

2

3

2

5

4

4

5

2

1

3

1

8

53

1

1

19000

55

19

5

4

3

5

3

5

4

3

3

3

4

3

3

1

3

4

3

0

54

3

2

14800

26

8

4

4

1

3

3

4

5

2

3

1

2

1

2

2

4

3

3

2

55

1

2

17200

53

22

3

4

2

3

1

3

4

4

3

2

1

2

2

1

3

5

5

0

56

1

1

15600

51

31

2

3

3

3

3

3

2

4

4

5

4

5

5

1

4

1

1

8

57

1

1

15400

48

23

3

1

4

3

4

2

2

2

2

5

5

4

5

1

1

3

2

6

58

1

2

13800

48

28

1

1

4

1

5

2

2

2

1

5

5

5

5

2

1

4

3

4

59

2

2

15800

62

40

1

2

3

2

5

2

2

3

2

5

4

4

5

2

1

1

5

7

60

2

1

17400

57

13

2

3

4

2

3

2

3

1

2

3

3

4

3

1

4

4

1

4

61

1

2

17800

42

20

5

4

2

2

2

3

3

3

3

2

1

2

4

2

3

3

3

2

62

1

1

14200

21

2

1

2

3

1

4

2

3

2

1

3

3

3

3

1

4

2

2

0

63

3

2

12800

26

8

3

1

3

2

4

1

2

1

1

2

3

3

2

1

4

1

1

4

64

1

2

13600

46

0

1

2

5

2

4

3

1

2

2

5

5

5

5

2

2

3

4

5

65

1

2

21000

59

21

4

3

2

4

2

2

2

3

3

2

3

2

2

2

4

5

1

4

66

4

2

14200

30

8

0

3

3

2

4

2

3

2

2

5

4

4

4

1

2

2

3

2

67

1

1

14600

29

8

3

2

2

3

3

2

3

2

1

5

3

4

3

2

1

4

5

10

68

3

1

13800

45

9

2

3

4

3

4

3

3

3

3

3

4

3

3

2

2

3

4

9

69

3

1

16000

53

30

3

2

5

3

2

2

1

2

2

4

5

3

4

2

2

1

4

2

70

1

1

13800

47

22

2

3

4

2

52

3

4

2

4

3

5

4

1

2

4

4

1

1



Các trường hợp bao gồm những người, thường được các nhà khoa học xã hội gọi là người trả lời (respondents) và các nhà tâm lý gọi là đối tượng (subjects), và giờ đây họ lại thích gọi là người tham gia (participants). Cho dù dữ liệu bảng câu hỏi được dùng như một ví dụ, cần thấy rằng SPSS và qui trình phân tích dữ liệu trình bày trong sách nầy có thể được sử dụng ở những dạng phân tích dữ liệu định lượng khác, như thống kê chính thức hay các đo lường quan sát.

Do tập hợp dữ liệu tương đối lớn, do vậy nếu có thể, để thuận tiện bạn có thể giao cho những người có kỹ năng nhập dữ liệu vào một file cho bạn. Nếu bạn làm thế, họ có thể nhập nó vào file gọi là file căn bản giản đơn hay file ASCII. ASCII viết tắt của American Standard Code for Information Interchange (Mã Tiêu chuẩn Mỹ cho Hoán đổi Thông tin) và được dùng rộng rãi để chuyển thông tin giữa các máy tính. Tiếp đó bạn sẽ đọc file nầy ở SPSS. Nếu bạn không kiếm được người làm việc đó hay nếu tập dữ liệu nhỏ, sẽ dễ hơn nếu bạn nhập dữ liệu trực tiếp vào một cửa sổ SPSS gọi là Data Editor (Biên tập Dữ liệu). Cả hai qui trình nầy đều được trình bày ở phần sau của chương nầy.

The data for the same variable are always placed in the same column(s) in a row and a row always contains the data of the same object of analysis or case. Cases are often people, but can be any unit of interest such as families, schools, hospitals, regions or nations.

Với một file dạng văn bản giản đơn (simple text file), dữ liệu được nhập vào các khoảng trống (space) gồm nhiều hàng, tối đa 80 cột ở nhiều máy tính. Mỗi cột trong hàng có thể nhập một ký tự như chữ số riêng lẻ. Dữ liệu về một biến luôn luôn đặt trong cùng cột xếp theo hàng và một hàng luôn chứa dữ liệu của cùng một đối tượng phân tích hay trường hợp (case). Trường hợp thường là người, nhưng cũng có thể là bất cứ đơn vị quan tâm nào như gia đình, trường học, bệnh viện, khu vực hay quốc gia.

Do dễ hơn để phân tích dữ liệu bao gồm các con số thay vì hỗn hợp của con số và các ký tự khác như chữ cái, tất cả các biến số hay câu trả lời trong Khảo sát Việc làm đều được mã hoá thành các con số. Chẳng hạn, mỗi một đáp án trong năm đáp án có thể có đối với câu hỏi thứ nhất được đưa ra bằng một con số từ 1 đến 5. Nếu người trả lời đánh dấu vào Trắng/Châu Âu, thì câu trả lời được mã hóa là 1.

(Cho dù việc sử dụng các loại (categories) nầy có thể còn có vấn đề, cũng như nhiều loại khái niệm trong khoa học xã hội, dạng thông tin nầy đôi khi được thu thập trong các khảo sát và sử dụng ở đây như là ví dụ của biến chủng loại (danh nghĩa) (categorical (nominal) variable.) Sẽ tốt hơn khi thiết kế bảng câu hỏi, bất cứ khi nào có thể, các con số được phân bỗi ràng cho một câu trả lời để không cần làm thêm gì nhiều khác đối với dữ liệu trước khi chúng được người khác nhập vào. Trước khi lập ra hàng loạt bảng câu hỏi, luôn luôn phải kiểm tra lại với người nhập thông tin nầy là nó đã được thực hiện đúng đắn.

Cũng cần giữ lại một số dữ liệu bị bỏ sót (missing data), những thất bại như thế cung cấp một sự phản hồi rõ ràng và không mơ hồ, vì chúng ta cần ghi lại thông tin nầy. Các con số đại diện cho dữ liệu thực hay dữ liệu không-bỏ-sót không nên được dùng để mã hó cácgiá trị bỏ sót. Ví dụ, do các câu trả ời đối với câu hỏi thứ nhất về nhóm sắc tộc trong Khảo sát Việc làm đwocj mã hoá từ 1 đến 5, cần dùng một vài con số khác để nhận biết một phản hồi bỏ sót.

Trong khảo sát nầy tất cả dữ liệu bị thiếu trừ những trường hợp vắng mặt đã được mã hoá bằng số không do giá trị nầy không thể nhầm lẫn với cách mà dữ liệu không bị thiếu (non-missing) được trình bày. Bởi vì một số nhân viên không vắng mặt (nghĩa là, zero ngày), dữ liệu của sự vắng mặt không thể mã hoá là '0'. Thay vào đó, nó được chỉ ra bằng số '99' vì không nhân viên nào vắng lâu đến thế. Đôi khi cần phân biệt các loại dữ liệu bị thiếu khác nhau, như một phản hồi "Không biết" khác với một phản hồi "Không áp dụng", trong trường hợp nầy cả hai câu trả lời nầy phải được trình bày bằng những con số khác nhau.

Nên gán cho mỗi người tham gia (participant) một số nhận dạng để có thể tham chiếu đến họ khi cần. Con số nầy nên đặt ở một ít cột đầu tiên của mỗi hàng hay dãy (line). Do có bảy mươi người tham gia, chỉ cần cột 1 và cột 2 để làm điều nầy. Nếu có 100 người tham gia, khi đó cần ba cột đầu tiên để ghi thông tin nầy khi số lớn nhất bao gồm ba chữ số. Chỉ một khoảng trống hay không ghi nằm giữa các cột chứa dữ liệu cho các biến khác nhau để là cho file dễ đọc hơn, cho dù điều nầy không cần thiết lắm.

Do tất cả dữ liệu về một người tham gia có thể đặt vào một hàng bằng hình thức cố định đưon giản nầy, trong trường hợp nầy cho mỗi người tham gia chỉ cần dùng một hàng, và dữ liệu cho người tham gia kế tiếp có thể nhập vào hàng thứ hai. Nếu cần nhiều hơn một hàng để ghi tất cả dữ liệu cho một người tham gia, thì bạn phải dùng nhiều hàng kế tiếp để làm điều đó. Trong trường hợp đó, cũng đáng để cho mỗi một hàng dữ liệu của một người tham gia cụ thể một con số nhận dạng để giúp bạn đọc thông tin dễ dàng hơn, hàng thứ nhất mã hoá là 1, hàng thứ hai là 2, và cứ thế. Mõi một dãy hay hàng dữ liệu cho một người tham gia được gọi là hồ sơ (record) trong SPSS.

Biến số thứ nhất trong khảo sát và file dữ liệu của chúng ta liên quan đến gốc gác chủng tộc hay sắc tộc của người trả lời. Do biến nầy có thể có sáu gía trị (nếu chúng ta bao gồm cả khả năng họ có thể không trả lời câu hởi nầy), các dữ liệu nầy được nhập vào một cột. Nếu chúng ta để một khoảng trống (space) giữa số nhận dạng (identification number) có hai chữ số và con số một chữ số đại diện cho nhóm sắc tộc, tiếp đó dữ liệu của biến sắc tộc được đặt ở cột 4. Do biến thứ hai ,giới tính, cũng có thể được mã hoá với con số một chữ số, thông tin nầy được đặt ở cột 6. Tuy nhiên, biến thứ ba , thu nhập gộp hàng năm hiện tại cần đến năm cột do tất cả các người tham gia thu nhập hơn £10,000 nhưng ít hơn £100,000, và như vậy biến nầy chiếm từ cột 8 đến hết cột 12 (lưu ý không nên nhập dấu phẩy và dấu chỉ đồng bảng khi nhập dữ liệu nầy.)

A full listing of the variables and the columns they occupy is presented in Table 2.2. The data file is named jsr.dat which is an abbreviation of ‘ job survey raw data’. Since SPSS accepts letters written in capitals, or upper case (for example, JSR.DAT ) and small, or lower case (for example, jsr.dat), lower-case letters will be used to make typing easier for you. Restrictions and conventions on the form of names will be described later in this chapter.


Một danh sách đầy đủ các biến và cột chúng chiếm được trình bày ở Bảng 2.2. File dữ liệu có tên jsr.dat viết tắt từ 'job survey raw data' (dữ liệu thô về khảo sát việc làm). Do SPSS chấp nhận chữ được viết in hoa (ví dụ JSR.DAT) và chữ thường (ví dụ jsr.dat), nên chữ thường được dùng để tiện cho việc đánh máy. Các hạn chế và quy ước về hình thức tên sẽ được đề cập ở phần sau chương nầy.

Bảng 2.2 Tên SPSS và vị trí của các biến trong Khảo sát Việc làm

Variable name

SPSS name

Column location

Identification number

id

1–2

Ethnic group

ethnicgp

4

Gender

gender

6

Gross annual income

income

8–12

Age

age

14–15

Years worked

years

17–18

Organisational commitment

commit

20

Job-satisfaction scale



Item 1

satisl

22

Item 2

satis2

24

Item 3

satis3

26

Item 4

satis4

28

Job-autonomy scale



Item 1

autonoml

30

Item 2

autonom2

32

Item 3

autonom3

34

Item 4

autonom4

36

Job-routine scale



Item 1

routinel

38

Item 2

routine2

40

Item 3

routine3

42

Item 4

routine4

44

Attendance at meeting

attend

46

Rated skill

skill

48

Rated productivity

prody

50

Rated quality

qual

52

Absenteeism

absence

54–55


GAINING ACCESS TO SPSS

To use SPSS, it is necessary to have access to it via a personal computer. A personal computer consists of a keyboard on which you type in your instructions, a mouse which provides an alternative way of moving about the screen and selecting instructions, and usually a video display unit (VDU) or television-like screen which displays information. While the amount of information shown at any one moment on the screen is necessarily limited, further information can be brought into view with the appropriate use of the keys or the mouse. A personal computer also usually has a printer which can be used to print out information stored in the computer and can be used to print out a record of what you have done. Keyboards are used to type or put in (hence the term input) the data that you want to analyse and also the names of variables and files you have created.

Để sử dụng SPSS, cần sử dụng nó với một máy tính cá nhân. Một máy tính cá nhân gồm có một bàn phím để bạn đánh những chỉ dẫn (instructions) của bạn, một con chuột cung cấp một cách thức khác để di chuyển trên mà hình và lựa chọn các chỉ dẫn, và một mà hình video hay tivi để biểu thị thông tin.

The Windows system allows commands to be selected from words or icons presented as a menu in a window on the screen. Commands can usually be selected by moving a pointer called a cursor on to them with either the keys or, more normally, the mouse, and then pressing the Return key or the left button on the mouse, or in Windows 95/98 by simply selecting the next option. Choosing options with the mouse is generally easier than doing this with keys since it simply involves moving the mouse appropriately. With keys, however, some options are chosen by pressing the relevant cursor keys while others are selected by pressing up to two keys other than the cursor keys. The cursor keys are usually on the right hand side of the keyboard and have arrows on them pointing in the direction in which the cursor is to be moved. You may prefer to use the mouse for some operations and the keys for others.

To access SPSS in the windows environment, select the button or icon at the bottom of the screen which presents the first column or menu on the left in Box 2.1.

Select Programs on this menu which displays the second menu (columns 2 and 3) in Box 2.1. Note that on many computers fewer programs will be listed than shown here.

Select SPSS for Windows from this menu, which opens the third menu (at the bottom of column 3) in Box 2.1.

Select SPSS 10.0 for Windows which produces the Data Editor window in Box 2.2. You can prevent the SPSS for Windows dialog box superimposed on the

Box 2.1 Windows 95/98 opening window

Box 2.2 SPSS Data Editor

Data Editor being shown on your own computer the next time you access SPSS if you select the Don’t show this dialog in the future check box near the bottom of the dialog box. Select Cancel to remove the dialog to enter data into the cells of the Data Editor. Listed at the top of this window are the names of various procedures such as

Box 2.3 Data option drop-down menu

File, Edit and so on. To see what these procedures are, we simply move the cursor to a particular option and press the left button on the mouse once. A drop-down menu will then appear, as shown in Box 2.3 where the Data option has been chosen. To see the other options, simply move the cursor to that option.

The ellipsis, or three dots, after an option term (…) on a drop-down menu, such as on the Select Cases… option, signifies a dialog box will appear when this option is chosen. If we select this option, for example, the Select Cases dialog box displayed in Box 2.4 will appear when data have already been entered into the Data Editor. To cancel a dialog box, select the Cancel button in the dialog box. A right-facing arrowhead ► after an option term such as on the Merge Files option, on the other hand, indicates that a further submenu will appear to the right of the drop-down as shown in Box 2.8. An option with neither of these signs means that there are no further drop-down menus to select.

Below these options is a toolbar with buttons on it. These buttons enable you to carry out procedures directly without having to go to the options and select the appropriate procedure. The functions that the buttons carry out are displayed in a small yellow box near them and in the bottom line of the window. So, for example, the first button says Open File. You can add further buttons to the toolbar. The Help system described on pp. 33–4 gives instructions on how to do this.

Box 2.4 Select Cases dialog box

ENTERING AND EDITING DATA IN DATA EDITOR

The easiest way to enter data in SPSS yourself is to type it directly into the matrix of columns and numbered rows in the Data Editor window shown in Box 2.2. Note that in this case a column can hold more than one digit. Initially the cursor will be in the cell in the first row of the first column. The frame of this cell will be shown in bold to denote that it is the active cell. To enter a value in any one cell, make that cell active by moving to it with either the cursor keys or the mouse, type in the value and then move to the next cell into which you want to put a value. Columns are consecutively numbered once you enter a value. So if you enter a value in the fifth column the first five columns will be labelled var00001 to var00005. To change any value already entered, move to the cell containing that value, type in the new value and move to another cell. If you want to leave a cell empty delete the entry with the Backspace or Delete key and move to another cell, when a full stop (.) will be left denoting a missing value.
NAMING VARIABLES IN DATA EDITOR

To name a variable in Data Editor, select Variable View near the bottom of the window. Select the appropriate row under the Name column and type in the name (for example, ethnicgp in the first row as shown in Box 2.5).
SPSS NAMES

Variable and file names in SPSS have to meet certain specifications. They must be no longer than eight characters and must begin with an alphabetic character (A–Z). The remaining characters can be any letter, number, period, @ (at), $ (dollar) or _ (underscore). Blank spaces are not allowed and they cannot end with a period and, preferably, not with an underscore. In addition certain words, known as keywords, cannot be used because they can only be interpreted as commands by SPSS. They include words such as add, and, any, or and to, to give but a few examples. If you accidentally use a prohibited keyword as a name, you will be told this is invalid when you try to run this procedure by selecting the OK button. No keyword contains numbers so you can be certain that names which include numbers will always be recognised as such. It is important to remember that the same name cannot be used for different variables or files. Thus, for example, you could not use the name satis to refer to all four of the questions which measure job satisfaction. You would need to distinguish them in some way, such as calling the answer to the first question satisl, the answer to the second one satis2, and so on. The SPSS names given to the variables in the Job Survey are presented in Table 2.2.

Box 2.5 Variable View window of Data Editor
DEFINING OTHER ASPECTS OF VARIABLES IN DATA EDITOR

We can define nine other aspects of variables when naming them. These aspects are listed just above the data matrix and range from Type on the left to Measure on the right. You may not see all these nine aspects at once. You can change the width of each column by selecting the line next to the name of the column whose width you want to change and moving the column line to the desired position, as we have done in Box 2.5.

The pre-selected settings for these aspects are shown and are known as the default options. If we wish to change any of these settings, we select the appropriate row and column to make the desired change. In general and for our purposes the most important of these other aspects is Missing values.
DEFINING MISSING VALUES

In the Job Survey, we have missing values for income (cases 12 and 21), age (case 45), satis1 (cases 1 and 2), satis2 (case 2), prody (case 1) and absence (case 31). So we have to specify the appropriate missing values for these variables, which are 0 for the first five (income, age, satis1, satis2 and prody) and 99 for the sixth variable called absence. We do this by selecting the appropriate row of the Missing column in the Variable View of the Data Editor and then selecting the ellipsis or three dots in that cell. This opens the Missing Values dialog box shown in Box 2.6. In our case we select Discrete missing values, type the appropriate value in the first box and then select OK. If we type in 0, then None in that row of the Missing column of Variable View will be replaced with 0 as shown in Box 2.5.

If someone else is entering the data, we need to let them know how missing data for any of the variables are to be coded. We could enter this code here to remind us what it is. Thus, in this example, missing data for all variables other than absence has been defined as 0.
DEFINING DECIMAL PLACES

The default number of decimal places is two. For most purposes it is easier to code all variables as numbers, which we have done for the Job Survey. Since all our values are whole numbers we could change 2 to 0 in the Decimals column of the Variable View window. To do this, we select each row in turn in this column, and select the downwards button to give 0.
DEFINING VARIABLE AND VALUE LABELS

SPSS variable names are restricted to eight characters, which usually means that they have to be abbreviated, making their meaning less clear. Using this option, variable labels can be created which will be displayed on the output. These variable labels can be very long, although most output will not present very long labels. For example, the SPSS variable name ethnicgp could be labelled ethnic

Box 2.6 Missing values dialog box

group. To do this, we type in this name for the first row of the Labels column in the Variable View window. If we do this, then the extended variable name will be presented first in the section of dialog boxes where the variable names are listed (for example, Box 2.12) followed by the abbreviated name in brackets. We have used abbreviated names as these are used in the other sections of the dialog boxes and are generally less cumbersome.

We could also label the values of a variable by selecting the appropriate row in the Values column (for example, ethnicgp) and then selecting the ellipsis, or three dots, in that cell. This opens the Value Labels dialog box shown in Box 2.7. Type in the value (for example, 1) in the box entitled Value:, the label (for example, white) in the box entitled Value Label: and select Add. The value labels for the five ethnic groups in the Job Survey are presented in Box 2.7. Value labels can be up to sixty characters long, although most output will not show labels this long. To remove a label we first select it and then Remove. To change a label, we first select it, make the desired changes and then select Change. When we have what we want, we select OK to close the Value Labels dialog box.
DEFINING COLUMN FORMAT AND ALIGNMENT

It is unlikely that you would wish to change the width of the column in Data Editor, but if you do, select the appropriate row in the Columns column and then select the upwards or downwards button to enter your desired value. If you wish to alter the alignment of data within a column, select the appropriate row in the Align column, select the downwards arrow and then select one of the other two options.
Defining consecutive variables simultaneously

If you want to define consecutive variables simultaneously with the same format (such as sat1 to routine4), define the first variable (satis1), copy that row,

Box 2.7 Value Labels dialog box
highlight the subsequent rows to be defined ( 9 to 19), select Paste or Paste Variables… and re-name variables as appropriate.
SAVING DATA IN DATA EDITOR

When we want to leave SPSS or to work on another data set in the same session, these data and any changes we have made to them will be lost unless we save them as a file. We could save this file on to the hard disk of the computer. However, if others use the computer, they may delete our files. Even if no one else is likely to use the computer, it is necessary to make a back-up copy of our files on one or more formatted floppy disks in case we should lose them. The floppy disk is inserted into a slot called a drive.

To be able to retrieve a file, we need to give it a name. This name can consist of a prefix or stem of up to eight characters followed by a full stop and a suffix or extension of three characters. The stem name usually refers to the content of the file (such as jsr in the case of our Job Survey raw data file) while the extension

Box 2.8 File drop-down menu

Box 2.9 Save Data As dialog box

name refers to the type of file. The default extension name for files in Data Editor is sav. Thus, we could call our data file jsr.sav. Extensions are now usually displayed as icons and not names (as shown in Box 2.10).

We shall generally use a particular notation throughout this book as shorthand to describe the steps involved in any application. The selection of a step or option will be indicated with a right facing-arrow ➔ pointing to the term(s) on the menu or dialog box to be chosen. Any explanations will be placed in square parentheses after the option shown. Steps in a dialog box or a subdialog box (which is a box which can only be accessed after the initial dialog box has been opened) will begin on a new line. The sequence will be indented. Thus, the notation for saving this file on a floppy disk in Drive A is:

➔File [shown in Box 2.8] ➔Save As… [opens Save Data As dialog box shown in Box 2.9] type a:\jsr.sav in box beside File name: ➔Save
RETRIEVING A SAVED DATA EDITOR FILE

To retrieve this file at a later stage when it is no longer the current file, use the following procedure:

➔File ➔Open [opens Open File dialog box shown in Box 2.10] type a:\jsr.sav in box beside File name: ➔Open

READING AN ASCII DATA FILE IN DATA EDITOR

If the data have been saved on a floppy disk as an ASCII file called jsr.dat, then carry out the following sequence to put it in Data Editor:

➔File ➔Read Text Data… [opens Open File dialog box shown in Box 2.10] type a:\jsr.dat in box beside File name: ➔Open [opens Text Import Wizard – Step 1 of 6 dialog box shown in Box 2.11]

➔Next > [opens Text Import Wizard – Step 2 of 6 dialog box]

➔Fixed width ➔Next > [opens Text Import Wizard – Step 3 of 6 dialog box]

➔Next > [opens Text Import Wizard – Step 4 of 6 dialog box]

➔Next > [opens Text Import Wizard – Step 5 of 6 dialog box]

➔Next > [opens Text Import Wizard – Step 6 of 6 dialog box]

➔Finish [closes Text Import Wizard – Step 6 of 6 dialog box and displays data in Data View]

➔Variable View [to define data]
STATISTICAL PROCEDURES

After entering the data set in Data Editor, we are now ready to analyse it. The rest of the book describes numerous ways in which you can do this. To show you how this is generally done, we shall ask SPSS to calculate the average or mean age of the sample. This can be done with a number of SPSS commands, but we shall use the one called Descriptive Statistics. This works out a number of other descriptive statistics as well. The procedure for doing this is:

➔Analyze ➔Descriptive Statistics ➔Descriptives... [opens Descriptives dialog box shown in Box 2.12]

➔variable [for example, age; note variables are listed in their order in Data Editor] ➔►button [puts the selected variable in box under Variable[s]:] ➔OK

The output for this procedure is displayed in the Viewer window as shown in Table 2.3. The mean age is 39.19. The other descriptive statistics provided by default are the standard deviation (see Chapter 5), the minimum age, the maximum age, and the number of cases ( N) on which this information is based. If we look at the ages in our Job Survey data, we can confirm that the minimum age is indeed 18 (for the first case) while the maximum is 63 (for case number 5). We should also notice that the age of one of our participants (case number 45) is missing, making the number of cases which provide valid data for this variable 69 and not 70.

As shown in Table 2.3 the output in the Viewer window will always be preceded by the name of the statistical procedure. In this case, it is Descriptives. These titles will be omitted from subsequent presentations of output to save space.

If we wanted just the mean age and not the other statistics, we could do this

Box 2.10 Open File dialog box

Box 2.11 Text Import Wizard - Step 1 of 6 dialog box

Box 2.12 Descriptives dialog box

Table 2.3 Default Descriptives output

Descriptive Statistics




N


Minimum


Maximum


Mean


Std. Deviation

AGE


69


18


63


39.19


12.32

Valid N (listwise)


69













as follows. Select Options… in the Descriptives dialog box to open the Descriptives: Options subdialog box shown in Box 2.13. Then de-select Std. deviation, Minimum and Maximum by moving the cursor on to them and pressing the left button. The output for this procedure is presented in Table 2.4. If you want to revert to the Data Editor, either select jsr – S… at the bottom of the screen or select the Window option and then 1 jsr – SPSS Data Editor from the drop-down menu. If an SPSS operation has been started but not completed (in that all dialog boxes concerned with that operation have not been closed), scrolling through the Viewer will not be possible.
SAVING AND PRINTING OUTPUT

To print the contents of any window, enter that window and then execute the following sequence:

➔File ➔Print… ➔OK

If you want to store the contents of any window on a floppy disk, then carry out the following steps:
Box 2.13 Descriptives: Options subdialog box

Table 2.4 Mean Descriptive output

Descriptive Statistics




N


Mean

AGE


69


39.19

Valid N (listwise)


69




➔File ➔Save As ➔window [opens Save As dialog box]

➔type the drive and file name in the box beside File name: [for example, a:\jsr.spo] ➔Save

The default extension name for output files is spo which is short for spss output file. You can edit output files before saving them. For example, you may wish to delete certain analyses or type in some further explanation.
HELP SYSTEM

SPSS has a Help system which you may like to use to avoid having to refer to a book like this one or to find out more about the program. As this system is meant to be self-explanatory you should be able to learn to use it yourself after a little experience. To find help on a topic such as file, carry out the following procedure:
Box 2.14 Help Topics Content dialog box

➔Help ➔Topics [opens Help Topics Contents window shown in Box 2.14]

➔Find [opens Help Topics Find window shown in Box 2.15] ➔in first box type in the appropriate or closest term [for example, file] ➔Select some matching topics to narrow your search [for example, File] ➔Click a topic, then click Display [for example, Open file] ➔Display [opens Help information box shown in Box 2.16] ➔? [to Minimise or Close the Help system]

If you want help while in a dialog box, select the Help option in the dialog box.
LEAVING SPSS

To leave SPSS, select File and then Exit. If you have edited or analysed data in a session, you will be asked if you wish to save the contents in the data editor or output viewer. If you don’t, select No. If you do, select Yes and name the file if you have not already done so. This means, for example, that if you exit without saving any changes that you may need to keep, those changes will be lost.
Box 2.15 Help Topics Find dialog box

Box 2.16 Help information box

EXERCISES

1

You need to collect information on the religious affiliation of your respondents. You have thought of the following options: Agnostic, Atheist, Buddhist, Catholic, Jewish, Hindu, Muslim, Protestant and Taoist. Which further category has to be included?

2

You want to record this information in a data file to be stored in a computer. How would you code this information?

3

Looking through your completed questionnaires, you notice that on one of them no answer has been given to this question. What are you going to put in your data file for this person?

4

Suppose that on another questionnaire the respondent had ticked two categories. How would you deal with this situation?

5

The first two of your sample of fifty participants describe themselves as agnostic and the second two as atheists. The ages of these four participants are 25, 47, 33, and 18. How would you arrange this information in your data file?

6

If data were available for all the options of the religious affiliation question, how many columns in an ASCII file would be needed to store this information?

7

How does SPSS know to what the numbers in the data file refer?

8

How many columns to a line are there in most computers for listing data?

9

What is the maximum number of characters that can be used for the name of a variable in SPSS?



Không có nhận xét nào:

Đăng nhận xét