Biến phân loại là gì

Trong thống kê , một biến phân loại [còn được gọi là biến định tính ] là một biến có thể đảm nhận một trong số các giá trị có thể có giới hạn và thường cố định, gán từng cá nhân hoặc đơn vị quan sát khác cho một nhóm cụ thể hoặc danh mục danh nghĩa trên cơ sở của một số thuộc tính định tính . [1] Trong khoa học máy tính và một số ngành của toán học, các biến phân loại được gọi là kiểu liệt kê hoặc kiểu liệt kê . Thông thường [mặc dù không có trong bài viết này], mỗi giá trị có thể có của một biến phân loại được gọi là một mức . Cácphân phối xác suất kết hợp với một biến phân loại ngẫu nhiên được gọi là phân phối phân loại .

Dữ liệu phân loại là kiểu dữ liệu thống kê bao gồm các biến phân loại hoặc dữ liệu đã được chuyển đổi thành dạng đó, ví dụ như dữ liệu được nhóm . Cụ thể hơn, dữ liệu phân loại có thể thu được từ các quan sát được tạo ra từ dữ liệu định tính được tóm tắt dưới dạng số đếm hoặc bảng chéo , hoặc từ các quan sát về dữ liệu định lượng được nhóm trong các khoảng thời gian nhất định. Thông thường, dữ liệu phân loại thuần túy được tóm tắt dưới dạng một bảng dự phòng. Tuy nhiên, đặc biệt khi xem xét phân tích dữ liệu, người ta thường sử dụng thuật ngữ "dữ liệu phân loại" để áp dụng cho các tập dữ liệu, trong khi chứa một số biến phân loại, cũng có thể chứa các biến không phân loại.

Một biến phân loại có thể nhận đúng hai giá trị được gọi là biến nhị phân hoặc biến phân đôi ; một trường hợp đặc biệt quan trọng là biến Bernoulli . Các biến phân loại có nhiều hơn hai giá trị có thể được gọi là biến đa tử ; các biến phân loại thường được giả định là đa tử trừ khi có quy định khác. Sự riêng tư đang xử lý dữ liệu liên tục như thể nó được phân loại. Dichotomization đang xử lý dữ liệu liên tục hoặc các biến đa thể như thể chúng là các biến nhị phân. Phân tích hồi quy thường xử lý tư cách thành viên danh mục bằng một hoặc nhiều biến giả định lượng.

Để dễ dàng xử lý thống kê, các biến phân loại có thể được gán các chỉ số số, ví dụ từ 1 đến K cho một biến phân loại K -way [tức là một biến có thể biểu thị chính xác K giá trị có thể]. Tuy nhiên, nói chung, các con số là tùy ý và không có ý nghĩa gì ngoài việc cung cấp một nhãn thuận tiện cho một giá trị cụ thể. Nói cách khác, các giá trị trong một biến phân loại tồn tại trên thang danh nghĩa : mỗi giá trị đại diện cho một khái niệm riêng biệt về mặt logic, không nhất thiết phải được sắp xếp theo thứ tự có ý nghĩa và không thể bị thao túng như các con số. Thay vào đó, các hoạt động hợp lệ là tương đương , hãy đặt thành viênvà các hoạt động liên quan đến tập hợp khác.

Kết quả là, xu hướng trung tâm của một tập hợp các biến phân loại được đưa ra bởi phương thức của nó ; không phải trung bình cũng không phải trung vịCó thể định nghĩa được. Ví dụ, với một tập hợp người, chúng ta có thể coi tập hợp các biến phân loại tương ứng với họ của họ. Chúng ta có thể xem xét các phép toán như tương đương [liệu hai người có cùng họ hay không], đặt thành viên [liệu một người có tên trong danh sách nhất định hay không], đếm [bao nhiêu người có họ nhất định] hoặc tìm chế độ [ tên nào xuất hiện thường xuyên nhất]. Tuy nhiên, chúng tôi không thể tính "tổng" của Smith + Johnson một cách có ý nghĩa, hoặc hỏi liệu Smith là "nhỏ hơn" hay "lớn hơn" Johnson. Do đó, chúng tôi không thể hỏi "tên trung bình" [giá trị trung bình] hoặc "tên trung bình nhất" [trung vị] một cách có ý nghĩa là gì trong một tập hợp các tên.

Sự khác biệt giữa dữ liệu phân loại và dữ liệu định lượng - Khoa HọC

Dữ liệu phân loại so với định lượng
 

Mặc dù cả dữ liệu phân loại và dữ liệu định lượng đều được sử dụng cho nhiều nghiên cứu khác nhau, nhưng có sự khác biệt rõ ràng giữa hai loại dữ liệu này. Hãy để chúng tôi hiểu điều này theo cách mô tả nhiều hơn. Trong thống kê, các quan sát được ghi lại và phân tích bằng cách sử dụng các biến. Các biến được phân loại thành các lớp theo các thuộc tính mà chúng được sử dụng để đo lường. Phân loại và Định lượng là hai loại thuộc tính được đo lường bởi các biến thống kê. Thông qua bài viết này, chúng ta hãy xem xét sự khác biệt giữa dữ liệu phân loại và dữ liệu định lượng.

Dữ liệu phân loại là gì?

Các biến định tính đo lường các thuộc tính chỉ có thể được cung cấp như một thuộc tính của các biến. Mối quan hệ chính trị của một người, quốc tịch của một người, màu sắc yêu thích của một người và nhóm máu của bệnh nhân chỉ có thể được đo lường bằng cách sử dụng các thuộc tính định tính của mỗi biến. Thường thì các biến này có số khả năng hạn chế và chỉ giả định một trong các kết quả có thể xảy ra; tức là giá trị là một trong các danh mục đã cho. Do đó, chúng thường được gọi là các biến phân loại. Các giá trị có thể có này có thể là số, chữ cái, tên hoặc bất kỳ ký hiệu nào.


Dữ liệu định lượng là gì?

Biến định lượng ghi lại các thuộc tính có thể đo được bằng độ lớn hoặc kích thước; tức là có thể định lượng được. Các biến đo nhiệt độ, cân nặng, khối lượng hoặc chiều cao của một người hoặc thu nhập hàng năm của một hộ gia đình là các biến định lượng. Không chỉ tất cả các giá trị của các biến này đều là số, mà mỗi số cũng mang lại một giá trị.

Dữ liệu ở loại định lượng thuộc một trong ba loại sau; Thứ tự, Khoảng thời gian và Tỷ lệ. Dữ liệu phân loại luôn thuộc về kiểu danh nghĩa. Các loại được đề cập ở trên chính thức được gọi là các cấp độ đo lường, và có liên quan chặt chẽ đến cách thực hiện các phép đo và tỷ lệ của mỗi phép đo.

Vì hình thức của dữ liệu trong hai loại là khác nhau, các kỹ thuật và phương pháp khác nhau được sử dụng khi thu thập, phân tích và mô tả.


Sự khác biệt giữa dữ liệu phân loại và định lượng là gì?

Định nghĩa của dữ liệu phân loại và định lượng:

  • Dữ liệu định lượng là thông tin có ý nghĩa hợp lý khi đề cập đến độ lớn của nó.
  • Dữ liệu phân loại thường là thông tin nhận giá trị từ một nhóm danh mục hoặc nhóm nhất định.

Đặc điểm của dữ liệu phân loại và định lượng:

Loại đo lường:

  • Dữ liệu định lượng thuộc về các lớp thứ tự, khoảng thời gian hoặc tỷ lệ của phép đo.
  • Dữ liệu phân loại thuộc loại phép đo danh nghĩa.

Phương pháp:

  • Các phương pháp được sử dụng để phân tích dữ liệu định lượng khác với các phương pháp được sử dụng cho dữ liệu phân loại, ngay cả khi các nguyên tắc giống nhau thì ít nhất ứng dụng cũng có sự khác biệt đáng kể.

Phân tích:


  • Dữ liệu định lượng được phân tích bằng các phương pháp thống kê trong thống kê mô tả, hồi quy, chuỗi thời gian, v.v.
  • Đối với dữ liệu phân loại, thường sử dụng phương pháp mô tả và phương pháp đồ thị. Một số phép thử phi tham số cũng được sử dụng.

Hình ảnh lịch sự:

1. "ECE hàng tuần 235" của UNECE - ECE Weekly. [GFDL] qua Wikimedia Commons

2. "Lịch sử tỷ giá ngân hàng" của Anu2033 - Tác phẩm riêng. [CC BY-SA 3.0] qua Wikimedia Commons

Phân loại các loại biến trong thống kê và bài tập vận dụng.

Trong thống kê có 2 loại biến đó là biến định tính và biến định lượng. Chúng ta cùng tìm hiểu khái niệm và phân loại chúng nhé.

Biến định tính : những biến thể được xếp vào các thư mục khác nhau dựa trên các đặc tính hay thuộc tính nào đó. Những biến này được gán các giá trị để phân biệt hay phân loại quan sát. Chẳng hạn: giới tính [nam -1, nữ -0]; tình trạng hôn nhân [độc thân, gia đình, ly dị, góa chồng hay vợ], kết quả học tập [yếu, trung bình, khá, giỏi], màu sắc ... Biến định lượng: những biến các giá trị của được xác định bằng đo lường. Biến định lượng được chia thành hai loại:

Biến định lượng rời rạc[discrete]: Các giá trị của chúng số đếm được như số con trong một gia đình, số học sinh trong một lớp học,…

Biến định lượng liên tục[continuous]: Các giá trị của chúng thể một số bất giữa hai giá trị cụ thể gồm cả phân số số thập phân như chiều cao; cân nặng; thời gian phản ứng; nhiệt độ,… Dưới đây là các bài tập vận dụng cho kiến thức này. Bài tập vận dụng: 1] Số lần vắng mặt mỗi năm của một công nhân một dụ về loại dữ liệu? a. Định tính b. Định lượng Rời rạc c. Định lượng Liên tục Phân loại từng biến rời rạc [RR] hay liên tục[LT]. a........ Tuổi của những người làm việc trong một nhà máy b........ Số tách phê được phục vụ tại nhà hàng. c........ Lượng thuốc được tiêm vào con lợn. d........ Thời gian học sinh lái xe đến trường học. e........ Số gallon sữa được bán mỗi ngày tại một cửa hàng tạp hóa. Phân loại các biến sau theo biến định tính hay định lượng. a] Số lượng xe đạp được bán trong 1 năm bởi một cửa hàng bán đồ thể thao lớn. b] Màu sắc của bóng chày trong một cửa hàng. c] Thời gian cần thiết để cắt một bãi cỏ. d] Dung tích của sáu chiếc xe tải. e] Phân loại trẻ em ở trung tâm chăm sóc ban ngày [trẻ sinh, trẻ mới biết đi, mẫu giáo]. f] Trọng lượng bắt đượcHồ George. g] Tình trạng hôn nhân của các giảng viên trong một trường đại học lớn.

Video liên quan

Chủ Đề