Thứ Sáu, ngày 19 tháng 3 năm 2010

Chương 6 - Lấy mẫu và Ý nghĩa Thống kê



Sampling and statistical significance

In this chapter, we shall be encountering some issues which are fundamental to an appreciation of how people (or whatever is the unit of analysis) should be selected for inclusion in a study and of how it is possible to generalise to the population from which people are selected. These two related issues are concerned with sampling and the statistical significance of results. In examining sampling we shall be examining the procedures for selecting people so that they are representative of the population from which they are selected. The topic of statistical significance raises the issue of how confident we can be that findings relating to a sample of individuals will also be found in the population from which the sample was selected.

Trong chương nầy, chúng ta sẽ gặp phải một số vấn đề căn bản cho việc đánh giá cách chọn người (hay bất cứ một đơn vị phân tích (unit of analysis) nào) tham gia một cuộc nghiên cứu và cách tổng quát hoá đối với dân số (population) từ những người được lựa chọn. Hai vấn đề liên quan nầy đề cập đến việc lấy mẫu (sampling) và ý nghĩa thống kê (statistical significance) của kết quả. Trong khảo sát việc lấy mẫu, chúng ta sẽ khảo sát trình tự chọn lựa người để họ đại diện cho dân số mà từ đó họ được chọn. Đề tài ý nghĩa thống kê đặt ra vấn đề chúng ta có thể chắc chắn thế nào về kết quả tìm thấy liên quan với một mẫu các cá nhân cũng sẽ được tìm thấy từ dân số mà từ đó mẫu được chọn lọc.


SAMPLING

LẤY MẪU (SAMPLING)

The issue of sampling is important because it is rarely the case that we have sufficient time and resources to conduct research on all of those individuals who could potentially be included in a study. Two points of clarification are relevant at this early stage. We talk about sampling from a population in the introduction to this chapter. It should be recognised that when we sample it is not necessarily people who are being sampled. We can just as legitimately sample other units of analysis such as organisations, schools, local authorities and so on. Second, by a ‘population’ is meant a discrete group of units of analysis and not just populations in the conventional sense, such as the population of England and Wales. Populations can be populations of towns, of particular groups (for example, all accountants in the UK), of individuals in a firm, or of firms themselves. When we sample, we are selecting units of analysis from a clearly defined population.

Vấn đề lấy mẫu quan trọng vì vì hiếm có tình huống chúng ta có đủ thời gian và nguồn lực để tiến hành nghiên cứu trên tất cả cá thể được có khả năng tính đến trong một cuộc nghiên cứu. Có hai điểm sáng tỏ trong giai đoạn đầu tiên nầy. Chúng ta nói đến lấy mẫu từ một dân số ở phần đầu của chương nầy. Phải thừa nhận rằng khi chúng ta lấy mẫu thì không cần thiết lấy mẫu người. Chúng ta có thể lấy mẫu hợp lệ các đơn vị phân tích khác như tổ chức, trường học, chính quyền địa phương, vân vân. Thứ hai, 'dân số' có nghĩa là một nhóm cụ thể đơn vị phân tích và không chỉ có nghĩa dân số theo nghĩa thông thường, như dân số của Anh và Wales. Dân số có thể là dân số của thị trấn, của một nhóm đặc thù nào đó (ví dụ, tất cả nhân viên kế toán ở Anh), của tất cả cá nhân trong một doanh nghiệp, hay của chính các doanh nghiệp. Khi chúng ta lấy mẫu, chúng ta đang chọn ra các đơn vị phân tích từ một dân số được xác định rõ ràng.

Clearly, some populations can be very large, and it is unlikely that all the units in a population can be included because of the considerable time and cost that such an exercise would entail. Sometimes, they can be sufficiently small for all units to be contacted; or if they are not too large, it may be possible to carry out postal questionnaire or telephone interview surveys on a whole population. On the other hand, researchers are very often faced with the need to sample. By and large, researchers will want to form a representative sample, that is, a sample that can be treated as though it were the population. It is rare that perfectly representative samples can be created, but the chances of forming a representative sample can be considerably enhanced by probability sampling. The distinction between probability and non-probability sampling is a basic distinction in discussions of sampling. With probability sampling, each unit of a population has a specifiable probability of inclusion in a sample. In the basic forms of probability sampling, such as simple random samples (see below), each unit will have an equal probability of inclusion.

Hiển nhiên là dân số có thể rất lớn và hầu như không thể bao gồm tất cả các đơn vị của một dân số vì tiến hành điều đó mất nhiều thời gian và chi phí. Đôi khi, có thể tiếp xúc một phần nhỏ các đơn vị cũng đủ; hay nếu chúng không lớn quá, có thể tiến hành khảo sát bằng các bảng câu hỏi gửi qua đường bưu điện hay phỏng vấn qua điện thoại toàn thể dân số. Mặt khác, các nhà nghiên cứu rất thường gặp phải nhu cầu lấy mẫu. Nhìn chung, các nhà nghiên cứu muốn tạo nên các mẫu đại diện (representative sample), có nghĩa là, một mẫu có thể được xử lý như thể nó là dân số. Hiếm khi có thể tạo ra được một mẫu đại diện hoàn hảo, nhưng khả năng tạo nên một mẫu đại diện có thể được nâng lên đáng kể thông qua lấy mẫu xác suất (probability sampling). Sự khác biệt giữa lấy mẫu xác suất và phi-xác suất (non-probability sampling) là sự khác biệt cơ bản khi thảo luận về lấy mẫu. Trong lấy mẫu xác suất, mỗi đơn vị của một dân số có một xác suất cụ thể về khả năng có mặt trong một mẫu. Trong các hình thức lấy mẫu xác suất cơ bản, như mẫu ngẫu nhiên đơn giản (simple random samples) (xem phần dưới), mỗi một dơn vị có một xác suất có mặt bằng nhau.

As an example of a non-probability sampling procedure, consider the following scenario. An interviewer is asked to obtain answers to interview questions from fifty people – twenty-five of each gender. She positions herself in a shopping area in a town at 9.00 a.m. on a Monday and starts interviewing people one by one. Will a representative sample be acquired? While it is not impossible that the sample is representative, there are too many doubts about its representativeness. For example, most people who work will not be shopping; she may have chosen to interview people who were well-dressed; and some people may be more likely than others to use the shops by which she positions herself.

Xét bối cảnh sau như là một ví dụ về trình tự lấy mẫu phi-xác suất. Một người phỏng vấn có yêu cầu nhận được câu trả lời cho các câu hỏi phỏng vấn từ năm mươi người - mỗi giới tính hai mươi lăm người. Cô ta tự mình đứng ở một khu vực mua sắm trong một thị trấn từ 9.00 sáng ngày thứ hai và bắt đầu phỏng vấn từng người một. Có thu được một mẫu đại diện hay không? Trong khi không phải là không thể thu được mẫu đại diện, có quá nhiều nghi vấn về tính đại diện của nó. Chẳng hạn, phần lớn số người làm việc sẽ không đi mua sắm; cô ta có lẽ chọn phỏng vấn những người ăn mặc đẹp; và một số người có thể mua sắm nhiêu hơn người khác ở những cửa tiệm mà cô ấy đứng cạnh.

In other words, there is a strong chance that the sample is not representative of the people of the town. If the sample is unrepresentative, then our ability to generalise our findings to the population from which it was selected is sharply curtailed. If we do generalise, our inferences may be incorrect. If the sample is heavily biased towards people who do not work, who appeal to the interviewer because of their appearance and who only shop in certain retail outlets, it is likely to be a poor representation of the wider population.

Nói cách khác, có khả năng to lớn là mẫu đó không đại diện cho những người của thị trấn đó. Nếu một mẫu không đại diện thì khả năng của chúng ta tổng quát hoá kết quả tìm thấy đối với dân số từ đó nó được chọn lọc bị giảm nghiêm trọng. Nếu chúng ta tổng quát hoá, suy luận của chúng ta có thể không đúng. Nếu mẫu đó thiên lệch nặng nề về phía những người không đi làm, những người được người phỏng vấn chú ý vì sự có mặt của họ và những người chỉ mua sắm ở một số của hàng bán lẻ nhất định, hầu như đó là một sự đại diện kém cỏi của một dân số lớn hơn.

By contrast, probability sampling permits the selection of a sample that should be representative. The following is a discussion of the main types of probability sample that are likely to be encountered.

Ngược lại, lấy mẫu xác suất cho phép chọn lọc một mẫu cso tính đại diện. Phần tiếp theo trình bày các dạng mẫu xác suất chính thường gặp.

Simple random sample

Mẫu ngẫu nhiên giản đơn (Simple random sample)

The simple random sample is the most basic type of probability sample. Each unit in the population has an equal probability of inclusion in the sample. Like all forms of probability sample, it requires a sampling frame which provides a complete listing of all the units in a population. Let us say that we want a representative sample of 200 non-manual employees from a firm which has 600 non-manual employees. The sample is often denoted n and the population N. A sampling frame is constructed which lists the 600 non-manual employees. Each employee is allocated a number between 1 and N (that is, 600). Each employee has a probability of n /N of being included in the sample, that is, 1 in 3. Individuals will be selected for inclusion on a random basis to ensure that human choice is eliminated from decisions about who should be included and who excluded.

Mẫu ngẫu nhiên giản đơn là dạng mẫu xác suất căn bản nhất. Mỗi đơn vị trong dân số có một xác suất có mặt bằng nhau trong mẫu nầy. Giống như tất cả hình thức mẫu giản đơn, nó yêu cầu một tập hợp đơn vị mẫu gốc (sampling frame, xem http://www.statistics.com/resources/glossary/s/smplframe.php) cung cấp một danh sách đầy đủ các đơn vị trong một dân số. Giả sử chúng ta muốn một mẫu đại diện có 200 công nhân không làm việc thủ công ở một doanh nghiệp có 600 công nhân không làm việc thủ công. Mẫu thường được biểu thị là n và dân số là N. Một tập hợp mẫu gốc được xây dựng liệt kê 600 công nhân không thủ công. Mỗi công nhân được gán một số giữa 1 và N (tức là, 600). Mỗi công nhân có một xác suất có mặt trong mẫu là n/N, tức là, 1 trên 3. Các cá nhân được chọn lọốcc mặt dựa trên một nền tảng ngẫu nhiên để bảo đảm rằng sự lựa chọn mang tính người (human choice) bị loại bỏ khỏi các quyết định nên chọn ai nên bỏ ai.

Each individual in the sampling frame is allocated a number 1 to N. The idea is to select n from this list. To ensure that the process is random, a table of random numbers should be consulted. These tables are usually in columns of five-digit numbers. For example, the figures might be:

Mỗi cá nhân trong tập hợp mẫu gốc được gán một số từ 1 đến N. Ý tưởng là chọn n từ danh sách nầy. Để bảo đảm quá trinh nầy là ngẫu nhiên, một bảng các số ngẫu nhiên được sử dụng. Các bảng nầy luôn luôn ở các cột có năm chữ số. Ví dụ, các số có thể là:

26938

37025

00352

Since we need to select a number of individuals which is in three digits (that is, 200), only three digits in each five-digit random number should be considered. Let us say that we take the last three digits in each random number, that is, we exclude the first two from consideration. The first case for inclusion would be that numbered 938. However, since the population is only 600, we cannot have a case numbered 938, so this figure is ignored and we proceed to the next random number. The figure 37025 implies that the case numbered 025 will be the first case for inclusion. The person numbered 025 will be the first sampled case. The next will be the person numbered 352, and so on. The process continues until n (that is, 200) units have been selected.

Vì chúng ta cần lựa chọn một số lượng cá nhân gồm có ba chữ số (tức là, 200), chỉ nên xem xét ba chữ số trong mỗi số ngẫu nhiên có năm chữ số. Giả sử chúng ta lấy ba chữ số cuối trong mỗi số ngẫu nhiên, nghĩa là, chúng ta bỏ hai số đầu không xem xét. Trường hợp (case) đầu tiên có mặt là số 938. Tuy vậy, do dân số chỉ 600, chúng ta không thể có một trường hợp được đánh số 938, vì thế số nầy được bỏ qua và chúng ta đi tiếp đến số ngẫu nhiên kế tiếp. Số 37025 nghĩa là trường hợp 025 sẽ là trường hợp đầu tiên có mặt. Người được đánh số 025 sẽ là trường hợp đầu tiên có mặt trong mẫu. Kế tiếp sẽ là người được đánh số 352, và vân vân. Qua strình đó tiếp tục cho đến khi n (nghĩa là, 200) đơn vị được chọn.

By relying on a random process for the selection of individuals, the possibility of bias in the selection procedure is largely eliminated and the chances of generating a representative sample is enhanced. Sometimes, a systematic sample is selected rather than a simple random sample. With a systematic sample, the selection of individuals is undertaken directly from the sampling frame and without the need to connect random numbers and cases. In the previous example, a random start between 1 and 3 would be made.

Dựa vào quá trình ngẫu nhiên chọn lựa các cá nhân, khả năng sai lệch (bias) trong quá trình chọn hầu như bị loại bỏ và khả năng tạo ra một mẫu đại diện được nâng lên. Đôi khi, một mẫu có tính hệ thống (systematic sample) được chọn thay vì một mẫu ngẫu nhiên giản đơn. Với một mẫu có tính hệ thống, việc chọn các cá nhân đựơc thực hiện trực tiếp từ tập hợp mẫu gốc và không cần gắn với các số và các trường hợp ngẫu nhiên. Trong ví dụ trước, một bắt đầu ngẫu nhiên giữa 1 và 3 sẽ được thực hiện.

Let us say that the number is 1. The first case on the sampling frame would be included. Then, every third case would be selected, since 1 in 3 must be sampled. Thus, the fourth, seventh, tenth, thirteenth and so on would be selected. The chief advantage of the systematic sample over the simple random sample is that it obviates the need to plough through a table of random numbers and to tie in each number with a corresponding case. This procedure can be particularly time-consuming when a large sample must be selected. However, in order to select a systematic sample, the researcher must ensure that there is no inherent ordering to the list of cases in the sampling frame, since this would distort the ensuing sample and would probably mean that it was not representative.

Giả sử số đó là 1. Trường hợp đầu tiên của tập hợp mẫu gốc sẽ có mặt. Tiếp đó, mỗi trường hợp thứ ba sẽ được chọn, vì 1 trong 3 phải có trong mẫu. Như thế, thứ tư, thứ bảy, thứ mười, thứ mười ba và cứ thế được chọn. Ưu điểm chính của mẫu hệ thống nầy so với mẫu ngẫu nhiên giản đơn là nó xoá bỏ yêu cầu cày xới khắp bảng các số ngẫu nhiên và gắn mỗi một số cho một trường hợp tương ứng. Quá trình nầy đặc biệt mất thời gian khi phải chọn một mẫu lớn. Tuy nhiên, để chọn một mẫu hệ thống, nhà nghiên cứu phải bảo đảm không có sự sắp xếp có trước đối với danh sách các trường hợp trong tập hợp mẫu gốc, do điều nầy sẽ làm biến dạng mẫu tiếp đó và sẽ có nghãi là nó không đại diện.

Stratified sampling
Lấy mẫu phân lớp (Stratified sampling)

Stratified sampling is commonly used by social scientists because it can lend an extra ingredient of precision to a simple random or systematic sample. When selecting a stratified sample, the researcher divides the population into strata. The strata must be categories of a criterion. For example, the population may be stratified according to the criterion of gender, in which case two strata – male and female – will be generated. Alternatively, the criterion may be department in the firm, resulting in possibly five strata: production, marketing, personnel, accounting, and research and development.

Lấy mẫu phân lớp thường được các nhà khoa học xã hội sử dụng vì nó có thể thêm vào một thành phần chính xác cộng thêm đối với mẫu ngẫu nhiên giản đơn hay mẫu hệ thống. Khi chọn một mẫu phân lớp, nhà nghiên cứu chia dân số thành các lớp (strata). Lớp đó phải là các loại (categories) của một tiêu chí (criterion). Chẳng hạn, dân số có thể được phân lớp theo tiêu chí giới tính, trong trường hợp đó hai lớp - nam và nữ - được tạo ra. Cách khác, tiêu chí có thể là phòng ban trong một doanh nghiệp, kết quả là có thể có năm lớp: sản xuất, tiếp thị, nhân sự, kế toán, nghiên cứu và phát triển.

Provided that the information is readily available, people are grouped into the strata. A simple random or systematic sample is then taken from the listing in each stratum. It is important for the stratifying criterion to be relevant to the issues in which the researcher is interested; it should not be undertaken for its own sake. The researcher may be interested in how the attitudes of non-manual employees are affected by the department in the firm to which they are attached. The advantage of stratified sampling is that it offers the possibility of greater accuracy, by ensuring that the groups which are created by a stratifying criterion are represented in the same proportions as in the population.

Table 6.1 provides an illustration of the idea of a stratified sample. The table provides the numbers of non-manual personnel in each department in the first column and the number of each department (that is, stratum) that would be selected on a 1 in 3 basis. The important point to note is that the proportions of personnel from each department in the sample are the same as in the population. The largest department – production – has 35 per cent of all non-manual employees in the firm and 35 per cent of non-manual employees in the sample.

Bảng 6.1 trình bày minh hoạ ý tưởng về một mẫu phân lớp. Bảng nầy cung cấp các con số nhân viên không làm thủ công trong mỗi phòng ban ở cột thứ nhất và số lượng mỗi phòng (tức là, lớp) được chọn trên nền tảng 1 trong 3. Điểm quan trọng cần lưu ý là tỉ lệ nhân viên từ mỗi phòng ban là trong mẫu bằng với tỉ lệ trong dân số. Phòng lớn nhất - sản xuất - có 35 phần trăm của toàn bộ nhân viên không làm thủ công trong doanh nghiệp và 35 phần trăm của nhân viên không làm thủ công trong mẫu.

Bảng 6.1 Xây dựng một mẫu phân lớp : nhân viên làm việc không thủ công trong doanh nghiệp

Department

Population

N

Sample

n

Production

210

70

Marketing

120

40

Personnel

63

21

Accounting

162

54

Research and development

45

15

Total

600

200



A simple random or systematic sample without stratification might have achieved the same result, but a stratified sample greatly enhances the likelihood of the proper representation of strata in the sample. Two or more stratifying criteria can be employed in tandem. For example, if the researcher were interested in the effects of gender on job attitudes, as well as belonging to different departments, we would then have ten strata (five departments × two sexes), that is, men and women in production, men and women in marketing, and so on. A 1 in 3 sample would then be taken from each of the ten strata.

Một mẫu ngẫu nhiên giản đơn hay hệ thống không phân lớp có thể đạt được ùng kết quả, nhưng mẫu phân lớp làm tăng rất lớn khả năng đại diện thích đáng của lớp trong mẫu đó. Hai hay nhiều tiêu chí phân lớp có dụng được sử dụng lần lượt. Chẳng hạn, nếu nhà nghiên cứu quan tâm đến hiệu ứng của giới tính lên thái độ làm việc, cũng như thuộc về các phòng ban khác nhau, chúng ta sẽ có mười lớp (năm phòng x hai giới tính), có nghĩa là, nam và nữ trong sản xuất, nam và nữ trong tiếp thị, và vân vân. Một mẫu 1 trong 3 sẽ được lấy từ mỗi lớp trong mười lớp nầy.

If the numbers in some strata are likely to be small, it may be necessary to sample disproportionately. For example, we may sample 2 in 3 of those in Research and Development. This would mean that thirty, rather than fifteen, would be sampled from this department. However, to compensate for the extra fifteen individuals sampled in Research and Development, slightly fewer than 1 in 3 in Production and in Accounting may need to be sampled. When this occurs, it has to be recognised that the sample is differentially weighted relative to the population, so that estimates of the sample mean will have to be corrected to reflect this weighting.

Nếu số lượng trong một vài lớp tương đối nhỏ, có thể cần phải lấy mẫu không cân đối (disproportionately). Chẳng hạn, chúng ta có thể lấy mẫu 2 trong 3 ở phòng Nghiên cứu và Phát triển. Điều nầy có nghĩa là ba mươi, thay vì mười lăm, sẽ được lấy mẫu từ phòng nầy. Tuy vậy, để cân bằng cho mười lăm cá nhân tăng thêm ở phòng Nghiên cứu và Phát triển, ở phòng Sản xuất và phòng Kế toán có thể cần phải lấy mẫu ít hơn. Khi điều nầy xuất hiện, cần phải thừa nhận mẫu đó được đánh trọng số (weight) khác biệt đối với dân số đó, do đó số ước tính giá trị trung bình (mean) của mẫu phải được hiệu chỉnh để phản ánh việc đánh trọng số (weighting) nầy.

Multistage cluster sampling
Lấy mẫu theo cụm nhiều bước (Multistage cluster sampling)

One disadvantage of the probability samples covered so far is that they do not deal very well with geographically dispersed populations. If we took a simple random sample of all chartered accountants in the UK or indeed of the population of the UK itself, the resulting sample would be highly scattered. If the aim were to conduct an interview survey, interviewers would spend a great deal of time and money travelling to their respondents. A multistage cluster sample is a probability sampling procedure that allows such geographically dispersed populations to be adequately covered, while simultaneously saving interviewer time and travel costs.

Một nhược điểm của các mẫu xác suất trình bầy từ đấu đến đây là chúng không xử lý tốt các dân số phân tán về mặt địa lý. Nếu chúng ta lấy một mẫu ngẫu nhiên giản đơn các kế toán viên được công nhân ở Anh hay chính dân số Anh, mẫu thu được sẽ rất rải rác. Nếu mục đích là tiến hành một khảo sát phỏng vấn, người phỏng vấn sẽ tốn rất nhiều thời gian và tiền bạc đi lại để gặp các người được phỏng vấn (respondents). Một mẫu cụm nhiều bước là qui trình lấy mẫu xác suất cho phép dân số phân tán về mặt địa lý được xử lý một cách thoả đáng mà vẫn tiết kiệm được thời gian và chi phí đi lại của người phỏng vấn.


Initially, the researcher samples clusters, that is, areas of the geographical region being covered. The case of seeking to sample households in a very large city can be taken as an example of the procedure. At the first stage, all the electoral wards in the city would be ascribed a number from 1 to N and a simple random sample of wards selected. At the second stage, a simple random sample of streets in each ward might be taken. At the third stage, a simple random sample of households in the sampled streets would be selected from the list of addresses in the electoral rolls for the relevant wards.

Đầu tiên, nhà nghiên cứu lấy mẫu các cụm (clusters), tức là, diên tích các khu vực địa lý được xem xét. Trường hợp tìm kiếm để lấy mẫu hộ gia đình trong một thành phố rất lớn có thể là một ví dụ của qui trình nầy. Ở bước (stage) thứ nhất, tất cả các khu vực bầu cử trong thành phố đó được gán một số từ 1 đến N và một mẫu ngẫu nhiên giản đơn các khu vực nầy được chọn. Ở bước thứ hai, một mẫu ngẫu nhiên các đường phố trong mỗi khu vực đó được lấy. Ở bước thứ ba, một mẫu ngẫu nhiên giản đơn các hộ gia đình trên các đường phố đã được lấy mẫu sẽ được chọn từ danh sách các địa chỉ trong danh sách bầu cử cho các khu vực tương ứng.

By concentrating interviewers in small regions of the city, much time and travel cost can be saved. Very often, stratification accompanies the sampling of clusters. For example, wards might be categorised in terms of an indicator of economic prosperity (for example, high, medium and low) such as the percentage of heads of household in professional and managerial jobs. Stratification will ensure that clusters are properly represented in terms of this criterion.

Bằng cách tập trung các người phỏng vấn trong một phạm vi nhỏ của thành phố, tiết kiệm được rất nhiều thời gian và tiền bạc. Rất thường xuyên lấy mẫu phân lớp đi cùng với lấy mẫu cụm. Chẳng hạn, các khu vực có thể được phân loại theo các chỉ số phúc lợu kinh tế (ví dụ, cao, trung bình và thấp) như tỉ lệ phần trăm nhân khẩu trong hộ có công việc quản lý hay chuyên nghiệp. Phân lớp sẽ bảo đảm các cụm được đại diện thích đáng trên khía cạnh tiêu chí nầy.

SAMPLING PROBLEMS

Các vấn đề liên quan đến lấy mẫu

One of the most frequently asked questions in the context of sampling is: How large should a sample be? In reality, there can only be a few guidelines to answering this question, rather than a single definitive response.

First, the researcher almost always works within time and resource constraints, so that decisions about sample size must always recognise these boundaries. There is no point in working out an ideal sample size for a project if you have nowhere near the amount of resources required to bring it into effect. Second, the larger the sample the greater the accuracy. Contrary to expectations, the size of the sample relative to the size of the population (in other words n/N) is rarely relevant to the issue of a sample’s accuracy. This means that sampling error – differences between the sample and the population which are due to sampling – can be reduced by increasing sampling size. However, after a certain level, increases in accuracy tend to tail off as sample size increases, so that greater accuracy becomes economically unacceptable.

Một câu hỏi thường đặt ra khi lấy mẫu là: Mẫu nên lớn cỡ nào? Trong thực tế, chỉ có một vài hướng dẫn cho vấn đề nầy, thay vì một đáp án chắc chắn duy nhất.
Thứ nhất, nhà nghiên cứu hầu như luôn làm việc với thời gian và nguồn lực có hạn, do đó quyết định về kích thước mẫu (sample size) phải luôn thấy được các giới hạn nầy. Không thể nói chuyện kích thước mẫu lý tưởng nếu bạn không có số nguồn lực cần để làm điều đó. Thứ hai, mẫu càng lớn càng chính xác. Trái ngược với kỳ vọng, tỉ lệ kích thước của mẫu so với kích thước của dân số (nói cách khác n/N) hiếm khi liên quan đến vấn đề về tính chính xác của mẫu. Điều nầy có nghĩa là sai số lấy mẫu (sampling error) - có thể giảm đi bằng cách tăng kích thước mẫu. Tuy nhiên, sau một mức độ nhất định, sự tăng lên của đọ chính xác có khuynh hướng giảm dần khi kích thước mẫu tăng lên, do đó sự chính xác hơn trở nên không thể chấp nhận về mặt kinh tế.

Third, the problem of non-response should be borne in mind. Most sample surveys attract a certain amount of non-response. Thus, it is likely that only some of the 200 non-manual employees we sample will agree to participate in the research. If it is our aim to ensure as far as possible that 200 employees are interviewed and if we think that there may be a 20 per cent rate of non-response, it may be advisable to select 250 individuals, on the grounds that approximately 50 will be non-respondents.

Thứ ba, cần nghĩ đến vấn đề không trả lời (non-response). Phần lớn khảo sát lấy mẫu đều có một số lượng không trả lời nhất định. Như vậy, hầu như chỉ một vài người trong số 200 nhân viên làm việc không thủ công mà chúng ta lấy mẫu sẽ đồng ý tham gia vào cuộc nghiên cứu. Nếu mục tiêu của chúng ta là bảo đảm mức 200 nhân viên phỏng vấn và nếu chúng ta nghĩ rằng có chừng 20 phần trăm người không trả lời, nên chọn 250 người, trên cơ sở khoảng chừng 50 người sẽ không trả lời.

Finally, the researcher should bear in mind the kind of analysis he or she intends to undertake. For example, if the researcher intends to examine the relationship between department in the firm and attitudes to white-collar unions, a table in which department is cross-tabulated against attitude can be envisaged. If ‘attitude to white-collar unions’ comprises four answers and since ‘department’ comprises five categories, a table of twenty ‘cells’ would be engendered (see discussion of contingency tables and cross-tabulation in Chapter 8). In order for there to be an adequate number of cases in each cell a fairly large sample will be required. Consequently, considerations of sample size should be sensitive to the kinds of analysis that will subsequently be required.

Cuối cùng, nhà nghiên cứu nên tính đến loại phân tích anh ta hay cô ta dự định tiến hành. Chẳng hạn, nếu nhà nghiên cứu định khảo sát mối quan hệ giữa các phòng ban trong doanh nghiệp và thái độ đối với nghiệp đoàn lao động tri thức, có thể lập một bảng đối chiếu giữa các phòng ban và thái độ. Nếu 'thái độ đối với nghiệp đoàn tri thức' bao gồm bốn đáp án và do 'phòng ban' gồm năm loại, một bảng gồm hai mươi 'ô' sẽ được lập (xem thảo luận về các bảng tình huống (contingency và bảng đối chiếu ở Chương 8). Để có một số lượng thích ứng các trường hợp trong mỗi ô cần phải có một mẫu tương đối lớn. Do vậy, việc xem xét kích thước mẫu cần thận trọng tính đến các loại phân tích cần làm sau đó.

The issue of non-response draws attention to the fact that a well-crafted sample can be jeopardised by the failure of individuals to participate. The problem is that respondents and non-respondents may differ from each other in certain respects, so respondents may not be representative of the population. Sometimes, researchers try to discern whether respondents are disproportionately drawn from particular groups, such as whether men are clearly more inclined not to participate than women.


Vấn đề không phản hồi gây sự chú ý đến thực tế là một mẫu được thiết lập tốt có thể bị nguy hiểm do thất bại của các cá nhân tham gia. Vấn đề là những người trả lời (respondent) và những người không trả lời (non-respondents) có thể khác biệt nhau trên một số phương diện, vì thế những người trả lời có thể không là đại diện của dân số. Đôi khi, các nhà nghiên cứu cố gắng nhận biết những người trả lời được chọn từ các nhóm cụ thể có không tương xứng, như có hay không việc nam rõ ràng có khuynh hướng không tham gia hơn so với nữ.

However, such tests can only be conducted in relation to fairly superficial characteristics like gender; deeper differences, such as attitudinal ones, cannot readily be tested. In addition, some members of a sample may not be contactable, because they have moved or are on holiday. Moreover, even when a questionnaire is answered, there may still be questions which, by design or error, are not answered. Each of these three elements – non-response, inability to contact and missing information for certain variables – may be a source of bias, since we do not know how representative those who do respond to each variable are of the population.

Tuy nhiên, những kiểm định như vậy chỉ có thể được tiến hành liên quan đến các đặc điểm tương đối bề ngoài như giới tính; các khác biệt sâu sắc hơn, như các đặc điểm về thái độ, không thể dễ dang kiểm định. Ngoài ra, có thể không tiếp xúc được với một số thành viên của mẫu, do họ đã chuyển đi hay đang đi nghỉ. Hơn nữa, ngay cả khi một bảng câu hỏi được trả lời, có thể vẫn còn những câu hỏi, do thiết kế hay do sai sót, không được trả lời. Mỗi một yếu tố trong ba yếu tố nầy - không trả lời, không có thể tiếp xúc và thiếu thông tin cho một số biến nào đó - có thể là nguồn tạo ra sự sai lệch (bias), do chúng ta không biết những người không trả lời đối với mỗi biến đại diện thế nào cho dân số.

Finally, although social scientists are well aware of the advantages of probability sampling procedures, a great deal of research does not derive from probability samples. In a review of 126 articles in the field of organisation studies which were based on correlational research, Mitchell (1985) found that only twenty-one were based on probability samples. The rest used convenience samples, that is, samples which are either ‘chosen’ by the investigator or which choose themselves (for example, volunteers).

Cuối cùng, cho dù các nhà khoa học xã hội biết rõ những ưu điểm của qui trình lấy mẫu xác suất, rất nhiều nghiên cứu không đi từ các mẫu xác suất. Khi xem xét 126 bài báo trong lĩnh vực nghiên cứu tổ chức (organisation studies) dựa trên nghiên cứu tương quan (correlation research), Mitchell (1985) thấy chỉ 21 bài dựa trên các mẫu xác suất. Số còn lại sử dung các mẫu thuận tiện (convenience samples), có nghĩa là, các mẫu được người điều tra 'chọn' hay chúng tự chọn lấy (ví dụ, những người tình nguyện).

However, when it is borne in mind that response rates to sample surveys are often quite low and are declining (Goyder, 1988), the difference between research based on random samples and convenience samples in terms of their relative representativeness is not always as great as is sometimes implied. None the less, many of the statistical tests and procedures to be encountered later in this book assume that the data derive from a random sample. The point being made here is that this requirement is often not fulfilled, and that even when a random sample has been used, factors like non-response may adversely affect its random qualities.

Tuy vậy, với suy nghĩ là tỉ lệ trả lời đối với khảo sát mẫu thường rất thấp và ngày càng giảm (Goyder, 1988), sự khác biệt giữa nghiên cứu dựa trêm mẫu ngẫu nhiên và mẫu thuận tiện về khía cạnh tính đại diện tương đối của chúng không phải lúc nào cũng lớn như đôi khi nó được hiểu. Dẫu sao, nhiều kiểm định và qui trình thống kê gặp phải ở phần sau sách nầy giả định dữ liệu rút ra từ một mẫu ngẫu nhiên. Điểm lưu ý ở đây là yêu cầu nầy thường không được thoả mãn, và thậm chí khi sử dụng một mẫu ngẫu nhiên, các nhân tố như việc không phản hồi có thể ảnh hưởng bất lợi đến tính chất ngẫu nhiên củ nó.

STATISTICAL SIGNIFICANCE

Ý NGHĨA THỐNG KÊ

How do we know if a sample is typical or representative of the population from which it has been drawn? To find this out we need to be able to describe the nature of the sample and the population. This is done in terms of the distributions of their values. Thus, for example, if we wanted to find out whether the proportion of men to women in our sample was similar to that in some specified population, we would compare the two proportions. The main tests for tackling such problems are described in Chapters 7 and 9. It should be noted that the same principle lies behind all statistical tests, including those concerned with describing the relationship between two or more variables. Here, the basic idea underlying them will be outlined.

Làm thế nào để chúng ta biết được một mẫu là điển hình hay đại diện cho dân số mà từ đó nó được lấy ra? Để biết được điều nầy chúng ta cần mô tả bản chất của mẫu đó và dân số đó. Điều đó được thực hiện theo khía cạnh phân bố các giá trị của chúng (distribution of values). Chẳng hạn, nếu chúng ta muốn biết tỉ lệ nam so với nữ trong mẫu của chúng ta có giống như tỉ lệ đó trong dân số, chúng ta sẽ so sánh hai tỉ lệ nầy. Các kiểm định chính để giải quyết những vấn đề như thế được trình bày ở các Chương 7 và 9. Cần lưu ý là nguyên tắc nầy có mặt ở tắt cả các kiểm định thống kê, kể cả những kiểm định nhằm chỉ ra mối quan hệ giữa hai hay nhiều biến. Ở đây, ý tưởng cơ bản làm nêfn tảng cho chúng sẽ được phác hoạ.

To do this we shall take the simple case of wanting to discover whether a coin was unbiased in the sense that it lands heads and tails an equal number of times. The number of times we tossed the coin would constitute the sample while the population would be the outcomes we would theoretically expect if the coin were unbiased. If we flipped the coin just once, then the probability of it turning up heads is once every two throws, or 0.5. In other words, we would have to toss it at least twice to determine if both possibilities occur.


Để làm điều nầy, chúng ta lấy trường hợp đơn giản của việc muốn biết một đồng xu có không bị sai lệch theo nghĩa nó hiện mặt ngửa (head) và mặt sấp với số lần như nhau. Số lần chúng ta tung đồng xu sẽ tạo nên mẫu đó trong khi dân số là các kết quả chúng ta dự kiến về mặt lý thuyết nếu đồng xu không bị sai lệch. Nếu chúng ta tung đồng xu chỉ một lần, xác suất nó ngửa là một lần trong mỗi hai lần ném, hay 0.5. Nói cách khác, chúng ta ném nó ít nhất hai lần để xác định hai khả năng có thể xuất hiện.

If we were to do this, however, there would be four possible theoretical outcomes, as shown in Table 6.2: (1) a tail followed by a head; (2) a head followed by a tail; (3) two tails; and (4) two heads. What happens on each throw is independent of, or not affected by, the outcome of any other throw. If the coin were unbiased, then each of the four outcomes would be equally probable. In other words, the probability of obtaining either two tails or two heads (but not both possibilities) is one in four, or 0.25, while that of obtaining a head and a tail is two in four, or 0.5.

Tuy nhiên, nếu chúng ta làm điều đó, sẽ có bốn kết quả lý thuyết có thể xảy ra, như trình bày ở Bảng 6.2: (1) sấp rồi ngửa; (2) ngửa rồi sấp; (3) hai sấp; và (4) hai ngửa. Điều xảy ra trong mỗi lần ném độc lập với, hay không bị tác động của, kết quả của bất kỳ lần ném nào. Nếu đồng xu không sai lệch, mỗi một kết quả trong bốn kết quả có xác suất bằng nhau. Nói cách khác, xác suất của việc được hai sấp hay hai ngửa (không phải cả bốn khả năng) là một phần bốn, hay 0.25, trong khi được một sấp và một ngửa là hai phần bốn, hay 0.5.


The probability of obtaining a head and a tail (0.5) is greater than that of two tails (0.25) or two heads (0.25) but is the same as that for two tails and two heads combined (0.25 + 0.25). From this it should be clear that it is not possible to draw conclusions about a coin being unbiased from so few throws or such a small sample. This is because the frequency of improbable events is much greater with smaller samples. Consequently, it is much more difficult with such samples to determine whether they come from a certain population.

Xác suất được một ngửa và một sấp (0.5) lớn hơn xác suất của hai sấp (0.25) hay hai ngửa (0.25), nhưng bằng với xác suất của kết hợp hai sấp và hai ngửa (0.25 + 0.25). Từ đây rõ ràng là không thể rút ra kết luận về đồng xu không bị sai lệch từ số lần ném quá ít hay từ một mẫu quá nhỏ như thế. Điều nầy là do tần suất (frequency) của sự kiện có thể không xảy ra (ỉmpobable events) lớn hơn nhiều với các mẫu nhỏ hơn. Rốt cuộc, sẽ khó khăn nhiều hơn với những mẫu như thế để xác định chúng có đi từ một dân số đáng tin cậy hay không.

If we plot or draw the distribution of the probability of obtaining the same proportion of heads to tails as shown in Figure 6.1, then it will take the shape of an inverted ‘V’. This shape contains all the possible outcomes which add up to 1 (0.25 + 0.25 + 0.25 + 0.25 = 1).

Nếu chúng ta vẽ phân bố xác suất của tỉ lệ ngửa so với sấp như ở Hình 6.1, nó sẽ co dạng chữ 'V' ngược. Hình dạng nầy chứa tất cả các kết quả có thể xảy ra cộng lại bằng 1 (0.25 + 0.25 + 0.25 + 0.25 = 1).

Table 6.2 Four possible outcomes of tossing a coin twice

Bảng 6.2 Bốn kết quả có thể xảy ra của việc tung đồng xu hai lần

Possible outcomes

Probability (p)

1

Head

Tail

0.25

= 0.5

2

Tail

Head

0.25

3

Head

Head

0.25

4

Tail

Tail

0.25





Figure 6.1 The distribution of similar theoretical outcomes of tossing a coin twice
Hình 6.1 Phân bố các kết qủa lý thuyết giống nhau của việc tung đồng xu hai lần

Theoretically, the more often we throw the coin, the more similar the distribution of the possible outcomes will be to an inverted ‘U’ or normal distribution. Suppose, for example, we threw the same coin six times (or, what amounts to the same thing, six coins once). If we did this, there would be sixty-four possible outcomes. These are shown in Table 6.3. The total number of outcomes can be calculated by multiplying the number of possible outcomes on each occasion (2) by those of the other occasions (2 × 2 × 2 × 2 × 2 × 2 = 64). The probability of obtaining six heads or six tails in a row (but not both) would be 1 in 64 or about 0.016. Since there are six possible ways in which one head and five tails can be had, the probability of achieving this is 6 out of 64 or about 0.10 (that is, 0.016 × 6). The distribution of the probability of obtaining different sequences of the same number of tails and heads grouped together (for example, the six sequences of finding five tails and a head) is presented in Figure 6.2.

Về mặt lý thuyết, chúng ta ném đồng xu càng nhiều, phân bố kết quả có thể xảy ra sẽ càng giống với chữ 'U' ngược hay phân bố chuẩn (normal distribution). Ví dụ, giả sử chúng ta ném đồng xu sáu lần (hay, sáu đồng xu một lần, cũng giống thế). Nếu chúng ta làm điều đó, sẽ có sáu mươi bốn kết quả có thể xảy ra. Các kết quả nầy trình bày ở Bảng 6.3. Tổng số các kết quả có thể tính được bằng cách nhân số kết quả xảy ra trong mỗi sự kiện (2) với số kết quả của các sự kiện khác (2 x 2 x 2 x 2 x 2 x 2 = 64). Xác suất của xuất hiện sáu ngửa hay sáu sấp trong một hàng (không phải cả hai) là 1 phần 64 hay khoảng 0.016. Vì có sáu cách trong đó có một ngửa và năm sấp có thể xuất hiện, xác suất đạt được điều nầy là 6 phần 64 hay khoảng 0.10 (có nghĩa là, 0.016 x 6). Phân bố xác suất của việc xuất hiện các chuỗi kết quả khác nhau của cùng số sấp và ngửa nhóm lại với nhau (ví dụ, sáu chuỗi xuất hiện năm sấp vầ một ngửa) được trình bày ở Hình 6.2.

Figure 6.2 The distribution of similar theoretical outcomes of tossing a coin six times
Hình 6.2 Phân bố kết quả lý thuyết giống nhau của tung đồng xu sáu lần



Table 6.3 Theoretical outcomes of tossing a coin six times and the probabilities of similar outcomes


Theoretical outcomes


Probability


Theoretical outcomes


Probability

1

TTTTTT


0.016

64

HHHHHH


0.016

2

TTTTTH

0.094

63

HHHHHT

0.094

3

TTTTHT

62

HHHHTH

4

TTTHTT

61

HHHTHH

5

TTHTTT

60

HHTHHH

6

THTTTT

59

HTHHHH

7

HTTTTT

58

THHHHH

8

TTTTHH

0.234

57

HHHHTT

0.234

9

TTTHHT

56

HHHTTH

10

TTHHTT

55

HHTTHH

11

TTTHTH

54

HHHTHT

12

TTHTHT

53

HHTHTH

13

TTHTTH

52

HHTHHT

14

THTHTT

51

HTHTHH

15

THHTTT

50

HTTHHH

16

THTTTH

49

HTHHHT

17

THTTHT

48

HTHHTH

18

HTTHTT

47

THHTHH

19

HTTTHT

46

THHHTH

20

HTHTTT

45

THTHHH

21

HTTTTH

44

THHHHT

22

HHTTTT

43

TTHHHH

23

TTTHHH



42

HHHTTT

0.312

24

TTHHHT

41

HHTTTH

25

TTHHTH

40

HHTTHT

26

TTHTHH

39

HHTHTT

27

THTHTH

38

HTHTHT

28

THTHHT

37

HTHTTH

29

THHTTH

36

HTTHHT

30

THHTHT

35

HTTHTH

31

THTTHH

34

HTHHTT

32

THHHTT

33

HTTTHH





It should be clear from this discussion that we can never be 100 per cent certain that the coin is unbiased, because even if we threw it 1,000 times, there is a very small chance that it will turn up all heads or all tails on every one of those throws. So what we do is to set a criterion or cut-off point at or beyond which we assume the coin will be judged to be biased. This point is arbitrary and is referred to as the significance level. It is usually set at a probability or p level of 0.05, or five times out of a hundred. Since the coin can be biased in one of two ways, that is, in favour of either heads or tails, this 5 per cent is shared equally between these two possibilities.

Điều cần làm sáng tỏ từ thảo luận nầy là chúng ta không bao giờ chắc chắn 100% đồng xu là không sai lệch, vì ngay khi chúng ta tung nó 1000 lần, vẫn có một khả năng rất nhỏ là tất cả sẽ ngửa hay tất cả đều sấp cho các lần tung nầy. Vì thế điều chúng ta làm là đặt ra tiêu chí hay điểm giới hạn ở đó hay ngoài điểm đó chúng ta giả định rằng đồng xu bị đánh giá là sai lệch. Điểm nầy là tuỳ ý và đwocj xem là mức ý nghĩa (significance level). Nó thưòng được đặt ở xác suất hay mức p bằng 0.05. Vì đồng xu có thể bị sai lệch theo một trong hai cách, nghĩa là, ngả về phía ngửa hay phía sấp, 5 phần trăm nầy được chia như nhau giữa hai khả năng nầy.

This means, in effect, that the probability of the coin being biased towards heads will be 0.025 and that the probability of its bias towards tails will also be 0.025. In other words, if it turns up heads or tails six times in a row, then the probability of both these outcomes occurring would be about 0.032 (that is, 0.016 + 0.016), which is below the probability of 0.05. If either of these two events were to happen we would accept that the coin was biased. If, however, it landed tails once and heads five times, or heads once and tails five times, there are six ways in which either of these two outcomes could happen. Consequently, the probability of either one happening is 6 out of 64, or about 0.10. The probability of both outcomes occurring is about 0.2 (that is, 0.10 + 0.10). In this case, we would have to accept that the coin was unbiased, since this probability level is above the criterion of 0.05.

Về bản chất, điều nầy có nghĩa là xác suất đồng xu bị sai lệch về phía ngửa sẽ là 0.025 và xác suất sai lệch của nó về phía sấp cũng sẽ là 0.025. Nói cách khác, nếu nó xuất hiện ngửa hay sấp sáu lần trong một dãy, thì xác suất xuất hiện cả hai kết quả nầy là 0.032 (tức là, 0.016 + 0.016), thấp hơn xác suất 0.05. Nếu một trong hai sự kiện xuất hiện, chúng ta chấp nhận là đồng xu bị lệch. Tuy nhiên, nếu nó xuất hiện sấp một lần và ngửa năm lần, hay ngửa một lần và sấp năm lần, có sáu cách một trong hai kết quả nầy có thể xuất hiện. Do đó, xác suất của một kết quả đó xuất hiện là 6 phần 64, hay khoảng 0.10. Xác suất của cả hai kết quả xuất hiện là khoảng 0.2 (tức là, 0.10 + 0.10). Trong trường hợp nầy, chúng ta chấp nhận đồng xu là không bị lệch, vì mức xác suất nầy cao hơn tiêu chí 0.05.

Because we can never be 100 per cent certain that the coin is either biased or unbiased, we can make one of two kinds of error. The first kind is to decide that the coin is biased when it is not. This is known as a Type I error and is sometimes referred to as α (alpha). For example, as we have seen, an unbiased coin may land heads six times in a row. The second kind of error is to judge the coin to be unbiased when it is biased. This is called a Type II error and is represented by β (beta). It is possible, for instance, for a biased coin to come up tails once and heads five times. We can reduce the possibility of making a Type I error by accepting a lower level of significance, say 0.01 instead of 0.05. But doing this increases the probability of making a Type II error. In other words, the probability of a Type I error is inversely related to that of a Type II one. The more likely we are to make a Type I error, the less likely we are to commit a Type II error.

Do chúng ta không bao giờ chắc chắn là đồng xu lệch hay không lệch, chúng ta có thể phậm một trong hai loại sai lầm. Loại thứ nhất là xác định đồng xu là bị lệch khi nó không lệch. Điều nầy được gọi là sai lầm Loại I (Type I error) và đôi khi được gọi là α (alpha). Chẳng hạn, như chúng ta thấy, một đồng xu không bị lệch có thể xuất hiện ngửa sáu lần trong một dãy. Loại sai lầm thứ hai là cho rằng đồng xu không bị lệch khi nó bị lệch. Đây gọi là sai lầm loại II (Type II error) và được gọi là β (beta). Có thể có, chẳng hạn, một đồng xu bị lệch xuất hiện sấp môt lần và ngửa năm lần. Chúng ta giảm khả năng phạm sai lầm Loại I bằng cách chấp nhận một mức ý nghĩa thấp hơn, 0.01 thay vì 0.05. Nhưng làm điều nầy sẽ làm tăng xác suất phạm sai lầm Loại II. Nói cách khác, xác suất sai lầm Loại I quan hệ nghịch đảo với xác suất sai lầm Loại II. Càng dễ phạm sai lầm Loại I bao nhiêu, càng khó phạm sai lầm Loại II bấy nhiêu.

At this stage, it is useful to discuss briefly three kinds of probability distribution. The first is known as a binomial distribution and is based on the idea that if only either of two outcomes can occur on any one occasion (for example, heads or tails if a coin is thrown), then we can work out the theoretical distribution of the different combinations of outcomes which could occur if we knew the number of occasions that had taken place. One characteristic of this distribution is that it consists of a limited or finite number of events. If, however, we threw an infinite number of coins an infinite number of times, then we would have a distribution which would consist of an infinite possibility of events.

Ở giai đoạn nầy, thảo luận vắn tắt ba loại phân bố xác suất rất có ích. Thứ nhất là phân bố nhị thức (binominal distribution) và dựa trên ý tưởng là nếu chỉ một trong hai kết quả có thể xuất hiện vào bất kỳ một sự kiện nào (ví dụ, ngửa hay sấp nếu một đông xu được tung), thì chúng ta có thể xây dựng được phân bố xác suất lý thuyết của các tổ hợp kết quả khác nhau có thể xuất hiện nếu chúng ta biết được số lượng sự kiện xảy ra. Một đặc điểm của phân bố nầy là nó bao gồm một số lượng sự kiện giới hạn (limited) hay có hạn (finite). Tuy nhiên, nếu chúng ta ném một số lượng vô hạn (infinite) đồng xu với số lần vô hạn, thì chúng ta có một phân bố bao gồm một vô hạn sự kiện có thể xảy ra.


This distribution is known variously as a DeMoivre’s, Gaussian, standard normal or z curve distribution. If random samples of these probabilities are taken and plotted, then the shape of those distributions will depend on the size of the samples. Smaller samples will produce flatter distributions with thicker tails than the normal distribution, while larger ones will be very similar to it. These distributions are known as t distributions. What this means is that when we want to know the likelihood that a particular series of events could have occurred by chance, we need to take into account the size of the sample on which those events are based.

Phân bố nầy được gọi nhiều tên khác nhau như phân bố DeMoivre, phân bố Gaussian, phân bố chuẩn (standard normal) hay phân bố đường cong z. Nếu mẫu ngẫu nhiên của các xác suất nầy được lấy và vẽ ra, hình dạng của các phân bố nầy sẽ phụ thuộc vào kích thước của các mẫu đó. Các mẫu nhỏ hơn sẽ tạo ra phân bố phẳng (flat) hơn. với đuôi (tails) dày hơn phân bố chuẩn, trong khi các mẫu lớn hơn sẽ rất giống với nó. Các phân bố nầy được gọi là phân bố t (t distribution). Điều nầy có nghĩa là khi chúng ta muốn biết khả năng một chuỗi sự kiện có thể xuất hiện ngẫu nhiên, chúng ta cần xét đến kích thước của mẫu mà các sụ kiện nầy dựa vào đó.

So far, in order to convey the idea that certain events may occur just by chance, we have used the example of tossing a coin. Although this may seem a bit remote from the kinds of data we collect in the social sciences, we use this underlying principle to determine issues such as whether a sample is representative of its population and whether two or more samples or treatments differ from each other. Suppose we draw a small sample of six people and want to determine if the proportion of males to females in it is similar to that of the population in which the number of men and women are equal.

Từ trước đến giờ, để truyền đạt ý tưởng các sự kiện nhất định có thể xuất hiện ngẫu nhiên, chúng ta đã sử dụng ví dụ tung đồng xu. Cho dù điều nầy dường như hơi khác xa loại dữ liệu chúng ta thu thập trong khoa học xã hội, chúng ta sử dụng nguyên tắc cơ bản nầy để quyết định các vấn đề như mẫu có đại diện cho dân số của nó hay không và co hai hay nhiều mẫu hơn hoặc các xử lý khác nhau. Giả sử chúng ta rút ra một mẫu nhỏ gồm sáu người và muốn quyết định tỉ lệ nam so với nữ trong nó giống như tỉ lệ đó trong dân số trong đó số nam và nữ bằng nhau.

Each person can only be male or female. Since there are six people, there are sixty-four possible outcomes (that is, 2×2×2×2×2×2). These, of course, are the same as those displayed in Table 6.3 except that we now substitute males for tails and females for heads. The joint probability of all six people being either male or female would be about 0.03 (that is, 0.016 + 0.016), so that if this were the result we would reject the notion that the sample was representative of the population. However, if one was male and the other five female, or there was one female and five males, then the probability of this occurring by chance would be about 0.2 (that is, 0.096 + 0.096).

Mỗi người có thể là nam hay nữ. Vì có sáu người, có sáu mươi bốn kết quả có thể xảy ra (tức là, 2x2x2x2x2x2). Dĩ nhiên, những khả năng giống với khả năng đã trình bày ở Bnảg 6.3 chỉ khác là chúng ta thay thế nam cho sấp và nữ cho ngửa. Xác suất hợp (joint probability) của tất cả sáu người hoặc là nam hay hoặc là nữ là 0.03 (tức là, 0.016 + 0.016), như thế nếu đây là kết quả thì chúng ta bác bỏ ý kiến mẫu đó là đại diện của dân số. Tuy nhiên, nếu có một nam và năm nữ, hay có một nữ và năm nam, xác suất kết quả nầy xuất hiện ngẫu nhiên là 0.2 (tức là, 0.096 + 0.096).

This would mean that at the 0.05 significance level we would accept either of these two outcomes or samples as being typical of the population because the probability of obtaining these outcomes is greater than the 0.05 level. This shows that sample values can diverge quite widely from those of their populations and still be drawn from them, although it should be emphasised that this outcome would be less frequent the larger the sample. Statistical tests which compare a sample with a population are known as one-sample tests and can be found in the next chapter.

Điều nầy có nghĩa là ở mức ý nghĩa 0.05 chúng ta chấp nhận hoặc hai kết quả nầy hoặc mẫu là đại diện cho dân số vì xác suất có được các kết quả nầy lớn hơn mức 0.05. Điều nầy chứng tỏ các giá trị mẫu có thể rất khác với giá trị của dân số của chúng và vẫn được lấy ra từ chúng, cho dù nên nhấn mạnh kết quả nầy ít thường xuyên hơn khi mẫu lớn hơn. Kiểm định thống kê so sánh một mẫu với một dân số được gọi là kiểm định một mẫu (one-sample tests) và có thể tìm thấy ở chương kế tiếp.

The same principle underlies tests which have been developed to find out if two or more samples or treatments come from the same population or different ones, although this is a little more difficult to grasp. For example, we may be interested in finding out whether women are more perceptive than men, or whether alcohol impairs performance. In the first case, the two samples are women and men while in the second they are alcohol and no alcohol.

Nguyên tắc đó là nền tảng cho các kiểm định được thiết lập để phát hiện hai hay nhiều mẫu hay cách xử lý từ cùng một dân số hay dân số khác, cho dù điều nầy hơi khó hiểu hơn một chút. Chẳng hạn, chúng ta có thể quan tâm biết được nữ có sâu sắc hơnấnm không, hay rượu có làm hỏng hiệu quả công việc. Trong trường hợp thứ nhất, hai mẫu là nữ và nam trong khi ở trường hợp thứ hai họ là có uống rượu và không uống rượu.

Once again, in order to explain the idea that underlies these tests, it may be useful to think about it initially in terms of throwing a coin, except that this time we throw two coins. The two coins represent the two samples. We want to know whether the two coins differ in their tendency to be unbiased. If the two coins were unbiased and if we were to throw them six times each, then we should expect the two sets of theoretical outcomes obtained to be the same as that in Table 6.3. In other words, the two distributions should overlap each other exactly.

Một lần nữa, để giải thích ý tưởng làm nền tảng cho các kiểm định nầy, sẽ có tích nếu chúng ta nghĩ về nó bắt đầu với việc tung đồng xu, chỉ khác là lần nầy chúng ta tung hai đồng xu. Hai đồng xu tượng trưng cho hai mẫu. Chúng ta muốn biết hai đồng xu nầy có khác nhau về khuynh hướng không bị lệch hay không. Nếu hai đồng xu không bị lệch và nếu chúng ta ném chúng sáu lần, chúng ta dự kiến hai tập hợp kết quả lý thuyết thu được giống như ở Bảng 6.3. Nói cách khác, hai phân bố trùng lắp hoàn toàn.

Now if we threw the two coins six times each, it is unlikely that the empirical outcomes would be precisely the same, even if the coins were unbiased. In fact, we can work out the theoretical probability of the two distributions being different in the same way as we did earlier for the coin turning up heads or tails. It may be easier in the first instance if we begin by comparing the outcomes of tossing two coins just once. If we do this, there are four possible outcomes: (1) two tails; (2) two heads; (3) one tail and one head; and (4) one head and one tail. If we look at these outcomes in terms of whether they are the same or different, then two of them are the same (two tails and two heads) while two of them are different (one tail and one head, and vice versa). In other words, the probability of finding a difference is two out of four, or 0.5, which is the same as that for discovering no difference. We stand an equal chance of finding no difference as we do of a difference if we throw two unbiased coins once.

Nếu chúng ta ném hai đồng xu sáu lần, các kết quả thực nghiệm chính xác như nhau, nagy cả khi các đồng xu không lệch. Thực tế là, chúng ta có thể giải quyết xác suất lý thuyết của hai phân bố nầy khác nhau theo như cách chúng ta làm ở phần trước đối với đồng xu ngửa hay sấp. Trong ví dụ thứ nhất, dễ dàng hơn khi so sánh kết quả của việc tung hai đồng xu chỉ một lần. Nếu chúng ta làm điều đó, có bốn kết quả có thể xảy ra: (1) hai sấp; (2) hai ngửa; (3) một sấp và một ngửa; và (4) một ngửa và một sấp. Nếu chúng ta nhín vào các kết quả nầy trên phương diện chúng giống nhau hay khác nhau thì có hai kết quả chúng giống nhau (hai sấp và hai ngửa) trong khi hai kết quả chúng khác nhau (một sấp và một ngửa, và ngược lại). Nói cách khác, xác suất thấy sự khác biệt là hai trên bốn, hay 0.5, giống như xác suất thấy sự không khác biệt. Chúng ta có một cơ hội bằng nhau thấy được sự không khác biệt như khi chúng ta thấy sự khác biệt nếu chúng ta ném hai đồng xu không lệch một lần.

Thinking solely in terms of the outcomes of the two coins being the same or different, if we threw the two coins twice, then there would be four possible outcomes: (1) two the same; (2) two different; (3) the first the same and the second different; and (4) the first different and the second the same. In other words, the probability of obtaining the same outcome when two unbiased coins are thrown twice is 0.25. The probability of the outcomes being mixed is greater with the value being 0.5. The probability of the outcomes being the same on all six throws would be about 0.016 (0.5 × 0.5 × 0.5 × 0.5 × 0.5 × 0.5 = 0.016). Hence, if the two coins were unbiased, we would not expect them to give the same outcome on each occasion they were tossed. The distribution of the outcomes of the two coins represents, in effect, what we would expect to happen if the differences between two samples or two treatments were due to chance.

Chỉ xét trên phương diện các kết quả của hai đồng xu giống hay khác nhau, nếu chúng ta ném hai đồng xu hai lần, có bốn kết quả có thể xảy ra: (1) hai đồng giống nhau; (2) hai đồng khác nhau; (3) đồng thứ nhất giống nhau đồng thứ hai khác nhau, và (4) đồng thứ nhất khác và đồng thứ hai giống. Nói cách khác, xác suất có được kết quả giống nhau khi hai đồng xu không lệch được ném hai lần là 0.25. Xác suất các kết quả hỗn hợp lớn hơn giá trị đó là 0.5. Xác suất các kết quả giống như thế trong tất cả sáu lần ném là 0.016 (0.5x0.5x0.5x0.5x0.5x0.5 = 0.016). Do đó, nếu hai đồng xu không lệch, chúng ta không kỳ vọng chúng cho cùng kết quả cho mỗi lần ném. Phân bố các kết quả của hai đồng xu, thực tế, tuợng trưng cho điều chúng ta dự kiến xảy ra nếu sự khác biệt giữ hai mẫu hay hai lần xử lý do ngẫu nhiên.

Applying this idea to the kind of question that may be asked in the social sciences, we may wish to find out if women and men differ in their perceptiveness. There are three possible answers to this question: (1) women may be more perceptive than men; (2) they may be no different from them; or (3) they may be less perceptive than them. In other words, we can have three different expectations or hypotheses about what the answer might be. Not expecting any difference is known as the null hypothesis. Anticipating a difference but not being able to predict what it is likely to be is called a non-directional hypothesis.

Ứng dụng ý tưởng nầy đối với loại câu hỏi có thể được nêu lên trong khoa học xã hội, chúng ta có thể mong muốn biết được nư và nam có khác nhau về sự sâu sắc của họ không. Có ba đáp án có thể có đối với câu hỏi nầy: (1) nữ có thể sâu sắc hơn nam; (2) họ có thể không khác nhau; hay (3) họ có thể kém sâu sắc nam. Nói cách khác, chúng ta có ba kỳ vọng hay giả thuyết khác nhau về đáp án là gì. Không kỳ vọng bất cứ sự khác biệt nào gọi là giả thuyết không (null hypothesis). Dự kiến môth sự khác biệt nhưng không thể đoán trước nó là gì được gọi là giả thuyết không phương hướng (non-directional hypothesis).

However, it is unlikely that we would ask this sort of question if we did not expect a difference of a particular nature, since there are an infinite number of such questions which can be posed. In carrying out research we are often concerned with showing that a particular relationship either holds or does not hold between two or more variables. In other words, we are examining the direction as well as the existence of a relationship. In this case, we may be testing the idea that women are more perceptive than men. This would be an example of a directional hypothesis. As we shall see, specifying the direction of the hypothesis means that we can adopt a slightly higher and more lenient level of significance.

Since there are three possible outcomes (that is, a probability of 0.33 for any one outcome) for each paired comparison, if we tested this hypothesis on a small sample of five men and five women, then the probability of all five women being more perceptive than men just by chance would be about 0.004 (that is, 0.33×0.33×0.33×0.33×0.33). If we obtained this result, and if we adopted the usual 0.05 or 5 per cent as the significance level at or below which this finding is unlikely to be due to chance, then we would accept the hypothesis since 0.004 is Page 108

Figure 6.3 One-tailed and two-tailed 0.05 levels of significance

less than 0.05. In other words, we would state that women were significantly more perceptive than men below the 5 per cent level – see Figure 6.3(a). As we shall see, SPSS usually provides the exact level of significance for each test. It has been customary in the social sciences to provide the significance level only for results which fall at or below the 0.05 level and to do so for certain cut-off points below that such as 0.01, 0.001, and 0.0001. However, with the advent of computer programs such as SPSS which give exact significance levels, it could be argued that this tradition does not maximise the information that could be supplied without any obvious disadvantages.

If, however, we found that only four of the women were more perceptive than the men, then the probability of this happening by chance would be about 0.04, since there are ten ways or sequences in which this result could occur (0.004 × 10 = 0.04). This finding is still significant. However, if we had adopted a non-directional hypothesis and had simply expected a difference between men and women without specifying its direction, then this result would not be significant at the 0.05 level since this 0.05 would have to be shared between both tails of the distribution of possible outcomes as in Figure 6.3 (b). In other words, it would become 0.025 at either end of the distribution. This result would require a probability level of 0.025 or less to be significant when stated as a non-directional Table 6.4 Type I and Type II errors







Reality







No difference


A difference

Interpretation of reality


Accept no difference


Correct


Type II error

β

Accept a difference


Type I error

α


Correct

hypothesis. As it is, the probability of either four women being more perceptive than men or four men being more perceptive than women is the sum of these two probabilities, namely 0.08, which is above the 0.05 level. The important point to note is that non-directional hypotheses require two-tailed significance levels while directional hypotheses only need one-tailed ones. If we find a difference between two samples or treatments we did not expect, then to test the significance of this result we need to use a two-tailed test.

It may be worth reiterating at this stage that a finding of four out of the five women being more perceptive than the five men may still be obtained by chance even at the 0.04 one-tailed level. In other words, this means that there remains a 4 in 100 possibility that this result could be due to chance. In accepting this level of significance for rejecting the null hypothesis that there is no difference between men and women, we may be committing a Type I error, namely thinking that there is a difference between them when in fact there is no such difference. In other words, a Type I error is rejecting the null hypothesis when it is true, as shown in Table 6.4. We may reduce the probability of making this kind of error by lowering the significance level from 0.05 to 0.01, but this increases the probability of committing a Type II error, which is accepting that there is no difference when there is one. A Type II error is accepting the null hypothesis when it is false. Setting the significance level at 0.01 means that the finding that four out of the five women are more perceptive than the men is assuming that this result is due to chance when it may be indicating a real difference.

The probability of correctly assuming that there is a difference when there actually is one is known as the power of a test. A powerful test is one that is more likely to indicate a significant difference when such a difference exists. Statistical power is inversely related to the probability of making a Type II error and is calculated by subtracting beta from one (that is, 1 −β).

Finally, it is important to realise that the level of significance has nothing to do with the size or importance of a difference. It is simply concerned with the probability of that difference arising by chance. In other words, a difference between two samples or two treatments which is significant at the 0.05 level is not necessarily bigger than one which is significant at the 0.0001 level. The latter difference is only less probable than the former one.
Inferring from samples to populations

The section so far has raised the prospect of being able to generalise from a sample to a population. We can never know for sure whether a characteristic we find in a sample applies to the population from which the sample was randomly selected. As the discussion so far suggests, what we can do is to estimate the degree of confidence we can have in the characteristic we find. If we find, as we did in Chapter 5, that the mean income in the Job Survey is £15,638.24, how confident can we be that this is the mean income for the population of workers in the firm as a whole?

A crucial consideration in determining the degree of confidence that we can have in a mean based on a sample of the population is the standard error of the mean, which is the standard deviation of the sample means. This notion is based on the following considerations. The sample that we select is one of only an incredibly large number of random samples that could have been selected. Some of these samples would find a mean that is the same as the population mean, some will be very close to it (either above or below) and some will be further away from it (again, either above or below the population mean). If we have a population that is normally distributed, the distribution of all possible sample means will also be normally distributed. This suggests that most sample means will be the same as or close to the population mean, but that some will deviate from it by quite a large amount. The standard error of the mean expresses the degree of dispersion of these means. We know from the discussion in Chapter 5 concerning the attributes of a normal distribution that 95.44 per cent of all cases lie within two standard deviations of the population mean. More precisely, we know that 95 per cent of cases lie within a range that is plus or minus 1.96 standard deviations of the mean. Since the distribution of sample means is normally distributed around the population mean, we can deduce that 95 per cent of all samples lie within a range that is plus or minus 1.96 standard errors from the population mean. Needless to say, the corollary of this is that 5 per cent of samples lie outside that range. This is likely to occur when there is a high level of sampling error.

This reasoning becomes important in research because we can infer the upper and lower levels of range within which the population mean falls. This range is known as the confidence interval. We can infer that there is a 95 per cent chance that the population mean will lie between the sample mean plus or minus 1.96 standard errors of the mean. In fact, we can see from Table 5.6 that not only does SPSS provide the standard error of the mean (242.04), it also gives us the 95 per cent confidence intervals. We can be 95 per cent confident that the population mean will lie between £15,155.13 and £16,121.34. It is always possible that the mean that you find in your research is based on a highly unrepresentative sample and is therefore one of the 5 per cent of sample means falling outside the range of plus or minus 1.96 standard errors of the population mean. Essentially, we are taking a gamble that our sample mean is one of the 95 per cent that lies within the range.

Figure 6.4 Confidence intervals

The standard error of the mean is calculated by dividing the standard deviation (which in this case is 1995.89) by the square root of the sample size (68). As this calculation implies, the more dispersed the sample is around the mean (that is, the larger the standard deviation), the larger the sample error of the mean will be. This in turn means that the confidence interval range will be larger.

A further consideration is that there may be research issues where you need to be more than 95 per cent confident that the population mean lies within the confidence interval. For the bulk of social issues, the 95 per cent level of confidence is adequate, but there may be occasions when you need to be more confident. If, for example, you wanted to be 99 per cent confident that the population mean fell within the confidence interval, a wider range of upper and lower values would need to be specified. This is calculated as the sample mean plus or minus 2.58 standard errors of the mean. When you use Explore to provide confidence interval information, it uses the 95 per cent confidence level as a default selection. To change the default confidence level, while in the Explore dialog box (Box 5.8):

➔Statistics… [opens Explore: Statistics subdialog box] change Confidence Interval for Mean: from 95 to 99 % ➔Continue [closes Explore: Statistics subdialog box]

➔OK

The confidence interval is then £14996.54 to £16279.93. It means that you can be 99 per cent confident that the population mean lies within that range. Figure 6.4 attempts to capture these ideas.

EXERCISES
BÀI TẬP

1. What is the difference between a random sample and a representative sample?
Khác biệt giữa một mẫu ngẫu nhiên và một mẫu đại diện là gì?

2. Why might a stratified sample be superior to a simple random sample?
Tại sao một mẫu phân lớp ưu việt hơn một mẫu ngẫu nhiên giản đơn?

3. In what context might multistage cluster sampling be particularly useful?
Trong hoàn cảnh nào lấy mẫu cụm nhiều bước đặc biệt có ích?


4. If a sample of grocery shops were selected randomly from the Yellow Pages directory for your town, would you necessarily have a representative sample?
Nếu một mẫu các cửa hàng thực phẩm được chọn một cách ngẫu nhiên từ Trang Vàng Niên giám Điện thoại trong thị trấn của bạn, bạn có cần có một mẫu đại diện?

5. Flip a coin four times. What is the probability of finding the particular sequence of outcomes you found?
Tung một đồng xu bốn lượt. Xác suất có được một chuỗi đặc biệt các kết quả ban thấy là gì?

6. If the coin were unbiased, would you obtain two heads and two tails if you threw it four times?
Nếu đồng xu đó không lệch, bạn có đạt được hai ngửa hai sấp nếu bạn ném bốn lần?

7. What is the probability of obtaining any sequence of two heads and two tails?
Xác suất có được bất kỳ trình tự hai ngửa và hai sấp là gì?

8. You have developed a test of general knowledge which consists of a hundred statements, half of which are false and half of which are true. Each person is given one point for a correct answer. How many points is someone who has no general knowledge most likely to achieve on this test?
Bạn thiết lập một kiểm định khiến thức chung bao gồm một trăm câu phất biểu, một nửa là sai và một nửa là đúng. Mỗi người được cho một điểm cho một câu trả lời đúng. Một người không có kiến thức chung hầu như sẽ đạt được bao nhiêu điểm trong thử nghiệm nầy?

9. Fifty people are tested to see if they can tell margarine from butter. Half of them are given butter and the other half are given margarine. They have to say which of these two products they were given (that is, there were no ‘don’t knows’). If people cannot discriminate between them, how many people on average are likely to guess correctly?

Năm mươi người được thử nghiệm xem họ có phân biệt được giữa bơ thực vật (margarine) và bơ động vật (butter). Một nửa được nhận bơ động vật, và bửa kia bơ thực vật. Họ phải phát biểu họ được nhận loại nào trong hai loại sản phẩm trên (tức là, không có chuyện 'không biết'). Nếu người ta không thể phân biệt được chúng với nhau, tính trung bình có bao nhiêu người hầu như đoán chính xác?

10. If we wanted to see if women were more talkative than men, what would the null hypothesis be?
Nếu chúng ta muốn biết phụ nữ có nhiều chuyện hơn nam giới hay không, giả định không (null hypothesis) sẽ là gì?

11. What would the non-directional hypothesis be?


12. What is the 95 per cent confidence interval for age in the Job Survey?
Khoảng tin cậy 95% về tuổi trong Khảo Sát Việc Làm là gì?

Không có nhận xét nào:

Đăng nhận xét