Cách tính mode trong thống kê

Các bước

Phương pháp 1

Phương pháp 1 của 2:

Tìm Mode của một tập dữ liệu

  1. 1

    Liệt kê các số trong tập hợp dữ liệu của bạn. Mode thường được lấy từ các tập hợp điểm dữ liệu thống kê hoặc danh sách các giá trị bằng số. Vì vậy, để tìm mode, bạn cần phải có một tập hợp dữ liệu để tìm. Thật khó để tính giá trị mode chỉ bằng hình dung trong đầu ngoại trừ những tập hợp dữ liệu quá nhỏ, vì vậy, trong hầu hết các trường hợp, cách khôn ngoan nhất là viết [hoặc gõ] tập hợp dữ liệu của bạn ra. Nếu bạn làm việc với giấy và bút chì, chỉ cần viết các giá trị trong tập hợp dữ liệu theo thứ tự, trong khi nếu sử dụng máy tính, bạn có thể phải sử dụng đến chương trình Excel.

    • Quá trình tìm mode của một tập dữ liệu sẽ dễ hiểu hơn khi được minh họa bằng ví dụ. Trong phần này, chúng ta hãy sử dụng tập hợp giá trị sau để làm ví dụ: {18, 21, 11, 21, 15, 19, 17, 21, 17}. Trong các bước tiếp theo, chúng ta sẽ tìm mode của tập hợp này.

  2. 2

    Sắp xếp các số theo thứ tự từ nhỏ đến lớn. Cách khôn ngoan là sắp xếp các giá trị của tập dữ liệu theo thứ tự tăng dần. Mặc dù điều này không bắt buộc, nhưng nó giúp cho quá trình tìm mode dễ dàng hơn vì nó nhóm các giá trị giống nhau vào cạnh nhau. Đối với các tập dữ liệu lớn, việc làm này thực sự cần thiết, vì việc phân loại những danh sách dài và ghi nhớ xem mỗi số xuất hiện bao nhiêu lần trong danh sách là rất khó và có thể dẫn đến sai sót.

    • Nếu bạn làm việc với giấy và bút chì, về lâu dài việc ghi lại có thể tiết kiệm thời gian. Lướt qua tập hợp số xem số nào nhỏ nhất, và khi bạn đã tìm ra nó, hãy bắt đầu tập dữ liệu mới bằng số nhỏ nhất đó, tiếp đến là số nhỏ nhất thứ hai, thứ ba, v.v. Hãy chắc chắn rằng bạn viết mỗi số bằng với số lần nó xuất hiện trong tập dữ liệu ban đầu.
    • Với máy tính, bạn có thể sắp xếp các danh sách giá trị theo thứ tự từ nhỏ đến lớn chỉ bằng vài cú nhấp chuột
    • Ở ví dụ trên, sau khi sắp xếp, danh sách mới của chúng ta sẽ là: {11, 15, 17, 17, 18, 19, 21, 21, 21}.

  3. 3

    Đếm số lần mỗi số được lặp lại. Bước tiếp theo là đếm số lần mà mỗi số xuất hiện trong tập hợp. Hãy tìm giá trị xuất hiện thường xuyên nhất trong tập dữ liệu. Đối với các tập dữ liệu tương đối nhỏ có các điểm được sắp xếp theo thứ tự tăng dần, việc tìm "cụm" giá trị giống nhau và đếm số lần xuất hiện của chúng tương đối đơn giản.

    • Nếu bạn làm việc với giấy và bút chì, hãy ghi nhớ số lần đếm của bạn, viết ra số lần mỗi giá trị xuất hiện trên từng cụm số giống nhau. Nếu bạn sử dụng chương trình excel trên máy tính, bạn có thể làm tương tự bằng cách viết chúng ở ô bên cạnh, hoặc sử dụng một trong những hàm của chương trình để đếm các điểm dữ liệu.
    • Trong ví dụ của chúng ta, [{11, 15, 17, 17, 18, 19, 21, 21, 21}], 11 xuất hiện một lần, 15 xuất hiện một lần, 17 xuất hiện hai lần, 18 xuất hiện một lần, 19 xuất hiện một lần, và 21 xuất hiện ba lần. 21 là giá trị thường xuyên nhất trong tập dữ liệu này.

  4. 4

    Xác định giá trị xuất hiện thường xuyên nhất. Khi bạn biết mỗi giá trị xuất hiện bao nhiêu lần, hãy tìm giá trị có số lần xuất hiện nhiều nhất. Đây chính là mode của tập dữ liệu của bạn. Lưu ý rằng có thể có nhiều hơn một mode trong một tập dữ liệu. Nếu hai giá trị có số lần xuất hiện nhiều nhất bằng nhau trong tập hợp thì tập hợp đó là bimodal [hai mode], nếu có ba giá trị như vậy thì tập đó là trimodal [ba mode], và cứ như vậy.

    • Trong ví dụ trên, [{11, 15, 17, 17, 18, 19, 21, 21, 21}], vì 21 xuất hiện nhiều nhất nên 21 là mode.
    • Nếu một giá trị nữa ngoài 21 cũng xuất hiện ba lần, [chẳng hạn như có thêm một số 17 trong tập hợp], thì 21 và số này cả hai sẽ là mode.

  5. 5

    Đừng nhầm lẫn giữa mode với mean [giá trị trung bình] hay median [số trung vị]. Ba khái niệm thống kê thường được đề cập cùng nhau là mean, median, và mode. Bởi vì các khái niệm này có tên nghe giống nhau, và bởi vì trong một tập dữ liệu một giá trị đôi khi có thể đóng nhiều hơn một vai trò trong những số này, nên bạn rất dễ nhầm lẫn giữa chúng. Tuy nhiên, bất kể tập dữ liệu của bạn có mode hay không thì nó luôn có median hoặc mean. Điều quan trọng là phải hiểu rằng ba khái niệm này hoàn toàn độc lập với nhau. Xem dưới đây:

    • Mean của một tập dữ liệu chính là giá trị trung bình của tập đó. Để tìm mean, cộng tất cả các giá trị trong tập hợp lại với nhau, sau đó chia tổng cho số các số hạng có trong tập hợp. Lấy ví dụ là tập hợp số ban đầu [{11, 15, 17, 17, 18, 19, 21, 21, 21}], mean sẽ là 11 + 15 + 17 + 17 + 18 + 19 + 21 + 21 + 21 = 160/9 = 17.78. 9 tức là có 9 chữ số trong tập hợp.

    • Median của một tập dữ liệu là "số đứng giữa" chia các giá trị nhỏ và lớn của tập hợp đó thành hai nửa bằng nhau. Lấy ví dụ trên, [{11, 15, 17, 17, 18, 19, 21, 21, 21}] 18 là median ví nó là số đứng giữa – có chính xác là bốn số lớn hơn nó và bốn số nhỏ hơn nó. Lưu ý rằng nếu số lượng các giá trị trong tập hợp là chẵn thì median chính là trung bình cộng của hai số đứng giữa.

Phương pháp 2

Phương pháp 2 của 2:

Tìm Mode trong những trường hợp đặc biệt

  1. 1

    Trong những tập dữ liệu mà mỗi giá trị đều có số lần xuất hiện bằng nhau thì sẽ không có mode. Nếu các giá trị trong một tập hợp đã cho đều xuất hiện cùng một số lần, tập dữ liệu này không có mode vì không số nào xuất hiện nhiều hơn số nào. Ví dụ, những tập dữ liệu mà trong đó mỗi giá trị chỉ xuất hiện một lần đều không có mode. Điều này tương tự đối với những tập dữ liệu với các giá trị xuất hiện hai lần, ba lần, và v.v.

    • Nếu chúng ta thay đổi tập dữ liệu ví dụ thành {11, 15, 17, 18, 19, 21} để mỗi giá trị chỉ xuất hiện một lần, giờ tập dữ liệu này không có mode. Điều này tương tự nếu chúng ta thay đổi tập dữ liệu để mỗi giá trị xuất hiện hai lần: {11, 11, 15, 15, 17, 17, 18, 18, 19, 19, 21, 21}.

  2. 2

    Mode của tập dữ liệu không phải dạng số có thể được tìm theo cách tương tự như tập dữ liệu số. Nhìn chung, hầu hết các tập dữ liệu đều là định lượng – chúng chứa các dữ liệu ở dạng số. Tuy nhiên, một số tập dữ liệu lại chứa những thông tin không được biểu diễn dưới dạng con số. Trong những trường hợp này, "mode" vẫn là giá trị xuất hiện nhiều nhất trong tập dữ liệu đó giống như trong tập dữ liệu số.[1] Trong những trường hợp này, việc tìm mode là khả thi trong khi tìm median hoặc mean là không thể.

    • Lấy một ví dụ trong điều tra sinh học xác định loài cây của vùng. Tập dữ liệu cho các loại cây trong vùng là {Bàng, Phượng, Bàng, Thông, Bàng, Bàng, Phượng, Phượng, Thông, Bàng}. Loại tập dữ liệu này được gọi là dữ liệu tên bởi vì các điểm dữ liệu được phân biệt chỉ dựa trên tên gọi của chúng. Mode của tập dữ liệu là Bàng bởi vì nó xuất hiện nhiều nhất [năm lần trong khi Phượng xuất hiện ba lần và Thông hai lần].
    • Trong ví dụ trên đây, bạn không thể nào tính giá trị mean hoặc median bởi vì các điểm dữ liệu không ở dạng số.

  3. 3

    Đối với các phân bổ đối xứng có một mode thì mode, mean, và median trùng nhau. Như đã nói ở trên, mode, median, và/hoặc mean có thể trùng nhau trong những trường hợp nhất định. Trong những trường hợp nếu hàm mật độ của tập dữ liệu tạo thành một đường cong hoàn toàn đối xứng có một mode [ví dụ như Đường cong Gauss hay Đường cong "Hình quả chuông"] thì cả mode, mean, và median sẽ là cùng một giá trị. Bởi vì hàm phân phối sẽ vẽ đồ thị là sự xuất hiện tương đối của các điểm dữ liệu, mode tự nhiên sẽ ở giữa của đường cong phân bố đối xứng, vì đây là điểm cao nhất của đồ thị và tương ứng với giá trị phổ biến nhất. Bởi vì tập dữ liệu là đối xứng, điểm này trên đồ thị sẽ tương ứng với giá trị median [giá trị giữa của tập dữ liệu] và mean [giá trị trung bình của tập dữ liệu].

    • Hãy xét ví dụ sau {1, 2, 2, 3, 3, 3, 4, 4, 5}. Nếu chúng ta vẽ đồ thị sự phân phối của tập dữ liệu này, chúng ta sẽ được một đường cong đối xứng có chiều cao là 3 tại x = 3 và giảm xuống 1 tại x = 1 và x = 5. Vì 3 là giá trị thường xuyên nhất, nó là mode. Vì giá trị giữa 3 của tập hợp có 4 giá trị ở hai bên nên 3 còn là median. Cuối cùng, giá trị trung bình của tập hợp là 1 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 27/9 = 3, có nghĩa rằng 3 còn là mean.
    • Ngoại lệ cho quy tắc này là các tập dữ liệu đối xứng có nhiều hơn một mode - trong trường hợp này, vì chỉ có duy nhất một median và mean cho tập dữ liệu đó nên cả hai mode này sẽ không trùng với các điểm kia.

Các bước

Phần 1

Phần 1 của 3:

Tính Mean

  1. 1

    Tính tổng tất cả các số hạng có trong tập hợp. Giả sử bạn có tập hợp số là 2, 3, và 4. Cộng chúng lại với nhau: 2 + 3 + 4 = 9.

  2. 2

    Đếm số lượng các số hạng có trong tập hợp. Trong trường hợp này, bạn có 3 số.

  3. 3

    Chia tổng dãy số cho số các số hạng. Giờ hãy lấy 9 chia cho 3. 9/3 = 3. Mean, hay giá trị trung bình của tất cả dãy số trong tập hợp trên là 3. Nhớ rằng không phải lúc nào kết quả thu được cũng là số nguyên.

Phần 2

Phần 2 của 3:

Tính Median

  1. 1

    Sắp xếp tất cả các số trong dãy số theo thứ tự từ nhỏ đến lớn. Giả sử chúng ta có các số sau đây: 4, 2, 8, 1, 15. Hãy sắp xếp lại chúng theo thứ tự tăng dần như sau: 1, 2, 4, 8, 15.

  2. 2

    Tìm ra số ở giữa của tập hợp. Cách bạn làm điều này phụ thuộc vào số lượng số bạn có là chẵn hay lẻ. Dưới đây là cách bạn có thể làm trong cả hai trường hợp:

    • Nếu lẻ, gạch đi số ở ngoài cùng bên trái, tiếp đến là số ngoài cùng bên phải, và lặp lại thao tác. Khi bạn còn lại một số, đây chính là số ở giữa. Giả sử bạn có dãy số 4, 7, 8, 11, và 21, thì 8 là giá trị median bởi vì nó là số ở giữa tập hợp.
    • Nếu chẵn, gạch đi các số ở hai bên trừ hai số đứng ở giữa. Công chúng lại với nhau và chia cho hai để lấy giá trị giữa. [Nếu hai số ở giữa giống nhau, số đó chính là median]. Giả sử dãy số bạn có là 1, 2, 5, 3, 7, và 10, thì hai số ở giữa là 5 và 3. Cộng tổng 5 và 3 để được 8 sau đó chia tổng này cho 2 để lấy giá trị giữa là 4.

Phần 3

Phần 3 của 3:

Tính Mode

  1. 1

    Viết ra tất cả các số có trong tập hợp. Giả sử bạn có dãy số là 2, 4, 5, 5, 4, và 5. Dãy số này đã được sắp xếp theo thứ tự tăng dần.

  2. 2

    Tìm số xuất hiện thường xuyên nhất. Để dễ nhớ: "Mode chính là most." Trong ví dụ này, số 5 xuất hiện nhiều nhất, do đó nó là giá trị mode. Nếu có hai số cùng xuất hiện thường xuyên nhất, thì tập hợp đó là "bimodal," và nếu có nhiều hơn hai số xuất hiện thường xuyên nhất, thì tập hợp đó là "multi-modal."

Yếu vị [Mode] là gì? Ưu điểm và nhược điểm của yếu vị

Yếu vị [tiếng Anh: Mode] là số hay giá trị xuất hiện thường xuyên nhất trong một bộ dữ liệu hay một tập dữ liệu.

Yếu vị

Khái niệm

Yếu vịtrong tiếng Anh làMode.

Một tập hợp các số có thể có một hoặc nhiều hơn mộtyếu vịhoặc không có yếu vị nào cả. Các khái niệm thống kê phổ biến khác theo xu hướng đo lường trung tâm gồm có giá trị trung bình hay bình quân của một tập dữ liệu và trung vị, giá trị nằm ở giữa trong một tập dữ liệu.

Yếu vị có thể có cùng giá trị với giá trị trung bình và trung vị, nhưng không phải lúc nào cũng đúng như vậy.

Hiểu hơn về yếu vị

Trong thống kê, dữ liệu được phân phối theo nhiều cách khác nhau. Phân phối thường được nhắc đến nhất làphân phối chuẩn cổ điển[đường cong hình chuông]. Trong phân phối này và một số phân phối khác, giá trị trung bình [bình quân] rơi vào điểm ở giữa, đây cũng là nơi có tần số của các giá trị quan sát được cao nhất. Đối với các phân phối này, giá trị trung bình cũng là yếu vị hay giá trị xuất hiện thường xuyên nhất trong bộ dữ liệu.

Trong các phân phối khác, giá trị xuất hiện thường xuyên nhất có thể khác với giá trị trung bình. Ví dụ, tần suất trung bình cho những người sinh ra với sáu ngón tay là khoảng 0,2%, nhưngyếu vịở trường hợp này bằng không vì kết quả xuất hiện phổ biến nhất vẫn là năm ngón tay.

Ví dụ về Yếu vị

Trong danh sách các số dưới đây, 16 làyếu vịvì nó xuất hiện nhiều lần trong tập dữ liệu này hơn bất kì số nào khác:

3, 3, 6, 9,16, 16, 16, 27, 27, 37, 48

Một tập hợp các số có thể có nhiều hơn một yếu vị [nếu có hai yếu vị thì được gọi là bimodal] nếu có nhiều số xuất hiện với tần số bằng nhau và nhiều lần hơn các yếu vị khác trong tập hợp.

3, 3, 3, 9,16, 16, 16, 27, 37, 48

Trong ví dụ trên, cả số 3 và số 16 đều là yếu vị vì mỗi số xuất hiện ba lần và không có số nào khác trong chuỗi xuất hiện thường xuyên hơn.

Nếu không có số nào trong một tập hợp số xuất hiện nhiều lần, thì tập hợp đó không có yếu vị:

3, 6, 9, 16, 27, 37, 48

Một tập hợp các số có hai yếu vị làbimodal, một tập hợp các số có ba yếu vị làtrimodalvà một tập hợp các số có bốn nút trở lên làmultimodal.

✅ GIA SƯ XÁC SUẤT THỐNG KÊ

Ưu điểm và nhược điểm của yếu vị

Ưu điểm của yếu vị:

– Dễ hiểu và dễ tính toán.

– Không bị ảnh hưởng bởi các giá trị ngoại lai.

–Dễ dàng xác định trong các dữ liệu chưa được gộp và phân phối có tần số rời rạc.

–Hữu ích cho dữ liệu định tính.

–Có thể tính toán với bảng tần số không giới hạn.

–Có thể được xác định bằng hình ảnh.

Nhược điểm của yếu vị:

–Không được định nghĩa rõ ràng.

–Không tạo thành dựa trên tất cả các giá trị trong tập dữ liệu.

–Chỉ ổn định cho số lượng giá trị nhiều và sẽ không được xác định rõ ràng nếu dữ liệu chỉ có một số lượng nhỏ các giá trị.

–Không có khả năng sử dụng tính toán thêm.

–Đôi khi dữ liệu có một hoặc nhiều yếu vị hoặc không có yếu vị nào cả.

Các ý chính

–Trong thống kê, yếu vị là giá trị được quan sát thấy tần suất xuất hiện nhiều nhất trong một tập hợp dữ liệu.

–Đối với phân phối chuẩn, yếu vị có cùng giá trị với giá trị trung bình và trung vị.

–Trong nhiều trường hợp, giá trị của yếu vị sẽ khác với giá trị trung bình.

Yếu vị

Khái niệm

Yếu vịtrong tiếng Anh là Mode.

Một tập hợp các số có thể có một hoặc nhiều hơn một yếu vị hoặc không có yếu vị nào cả. Các khái niệm thống kê phổ biến khác theo xu hướng đo lường trung tâm gồm có giá trị trung bình hay bình quân của một tập dữ liệu và trung vị, giá trị nằm ở giữa trong một tập dữ liệu.

Yếu vị có thể có cùng giá trị với giá trị trung bình và trung vị, nhưng không phải lúc nào cũng đúng như vậy.

Hiểu hơn về yếu vị

Trong thống kê, dữ liệu được phân phối theo nhiều cách khác nhau. Phân phối thường được nhắc đến nhất là phân phối chuẩn cổ điển [đường cong hình chuông]. Trong phân phối này và một số phân phối khác, giá trị trung bình [bình quân] rơi vào điểm ở giữa, đây cũng là nơi có tần số của các giá trị quan sát được cao nhất. Đối với các phân phối này, giá trị trung bình cũng là yếu vị hay giá trị xuất hiện thường xuyên nhất trong bộ dữ liệu.

Trong các phân phối khác, giá trị xuất hiện thường xuyên nhất có thể khác với giá trị trung bình. Ví dụ, tần suất trung bình cho những người sinh ra với sáu ngón tay là khoảng 0,2%, nhưng yếu vị ở trường hợp này bằng không vì kết quả xuất hiện phổ biến nhất vẫn là năm ngón tay.

Ví dụ về Yếu vị

Trong danh sách các số dưới đây, 16 là yếu vị vì nó xuất hiện nhiều lần trong tập dữ liệu này hơn bất kì số nào khác:

3, 3, 6, 9, 16, 16, 16, 27, 27, 37, 48

Một tập hợp các số có thể có nhiều hơn một yếu vị [nếu có hai yếu vị thì được gọi là bimodal] nếu có nhiều số xuất hiện với tần số bằng nhau và nhiều lần hơn các yếu vị khác trong tập hợp.

3, 3, 3, 9, 16, 16, 16, 27, 37, 48

Trong ví dụ trên, cả số 3 và số 16 đều là yếu vị vì mỗi số xuất hiện ba lần và không có số nào khác trong chuỗi xuất hiện thường xuyên hơn.

Nếu không có số nào trong một tập hợp số xuất hiện nhiều lần, thì tập hợp đó không có yếu vị:

3, 6, 9, 16, 27, 37, 48

Một tập hợp các số có hai yếu vị là bimodal, một tập hợp các số có ba yếu vị là trimodal và một tập hợp các số có bốn nút trở lên là multimodal.

Ưu điểm và nhược điểm của yếu vị

Ưu điểm của yếu vị:

- Dễ hiểu và dễ tính toán.

- Không bị ảnh hưởng bởi các giá trị ngoại lai.

-Dễ dàng xác định trong các dữ liệu chưa được gộp và phân phối có tần số rời rạc.

-Hữu ích cho dữ liệu định tính.

-Có thể tính toán với bảng tần số không giới hạn.

-Có thể được xác định bằng hình ảnh.

Nhược điểm của yếu vị:

-Không được định nghĩa rõ ràng.

-Không tạo thành dựa trên tất cả các giá trị trong tập dữ liệu.

-Chỉ ổn định cho số lượng giá trị nhiều và sẽ không được xác định rõ ràng nếu dữ liệu chỉ có một số lượng nhỏ các giá trị.

-Không có khả năng sử dụng tính toán thêm.

-Đôi khi dữ liệu có một hoặc nhiều yếu vị hoặc không có yếu vị nào cả.

Các ý chính

-Trong thống kê, yếu vị là giá trị được quan sát thấy tần suất xuất hiện nhiều nhất trong một tập hợp dữ liệu.

-Đối với phân phối chuẩn, yếu vị có cùng giá trị với giá trị trung bình và trung vị.

-Trong nhiều trường hợp, giá trị của yếu vị sẽ khác với giá trị trung bình.

[Theo Investopedia]

Phân tích trung bình - phương sai [Mean-Variance Analysis] là gì? Ví dụ

01-11-2019 Phân tích phương sai [Analysis of Variance] là gì? Ví dụ về cách sử dụng ANOVA

08-11-2019 Trung vị [Median] là gì? Ví dụ về trung vị

Video liên quan

Bài Viết Liên Quan

Chủ Đề