Máy tính Trung bình/Trung vị/Mốt
Tính toán các thống kê cơ bản của dữ liệu.
Ví dụ nhập liệu
- • Phân tách bằng dấu phẩy: 1, 2, 3, 4, 5
- • Phân tách bằng dấu cách: 1 2 3 4 5
- • Phân tách bằng dòng: Nhập mỗi số trên một dòng mới
- • Cho phép định dạng hỗn hợp
Trung bình
Tổng của tất cả các giá trị chia cho số lượng điểm dữ liệu. Còn được gọi là trung bình cộng.
Trung bình = Tổng ÷ Số lượng
Trung vị
Giá trị giữa khi dữ liệu được sắp xếp theo thứ tự từ nhỏ nhất đến lớn nhất.
Số lượng lẻ: Giá trị giữa
Số lượng chẵn: Trung bình của hai giá trị giữa
Mốt
Giá trị xuất hiện thường xuyên nhất trong tập dữ liệu. Có thể có nhiều mốt.
Phạm vi
Sự khác biệt giữa giá trị lớn nhất và nhỏ nhất, cho biết sự phân tán của dữ liệu.
Phạm vi = Tối đa - Tối thiểu
Từ thời cổ đại đến thời hiện đại
Nguồn gốc của thống kê bắt nguồn từ các cuộc điều tra dân số Ai Cập và Babylon cổ đại. Thống kê mô tả hiện đại bắt đầu với nghiên cứu bảng tử vong của John Graunt vào thế kỷ 17 và phát triển hơn nữa khi Adolphe Quetelet giới thiệu khái niệm 'người trung bình' vào thế kỷ 19.
Thống kê mô tả trong kỷ nguyên khoa học dữ liệu
- • EDA: Phân tích dữ liệu khám phá (EDA): Hiểu các đặc điểm dữ liệu cơ bản
- • Data Preprocessing: Tiền xử lý dữ liệu: Phát hiện ngoại lệ và đánh giá chất lượng dữ liệu
- • Feature Engineering: Kỹ thuật đặc trưng: Nền tảng để tạo các biến mới
- • Model Evaluation: Đánh giá hiệu suất mô hình: Phân tích đặc điểm phân phối của các dự đoán
Ứng dụng trong Business Intelligence
Các doanh nghiệp hiện đại sử dụng thống kê mô tả rộng rãi trên tất cả các lĩnh vực bao gồm bảng điều khiển KPI, phân khúc khách hàng, phân tích doanh số và kiểm soát chất lượng. Chúng đóng vai trò quan trọng đặc biệt trong phân tích thời gian thực và báo cáo tự động.
Ứng dụng trung bình
- • Tính toán số tiền mua hàng trung bình của khách hàng
- • Phân tích thời lượng phiên truy cập trang web trung bình
- • Dự đoán tuổi thọ sản phẩm trung bình
- • Đo lường năng suất trung bình của nhân viên
Ứng dụng trung vị
- • Phân tích phân phối thu nhập (giảm thiểu ảnh hưởng của ngoại lệ)
- • Phân tích giá bất động sản
- • Các chỉ số hiệu suất thời gian phản hồi
- • Giá trị trung vị sự hài lòng của khách hàng
Ứng dụng mốt
- • Xác định các sản phẩm phổ biến nhất
- • Phân tích các danh mục ưu tiên của khách hàng
- • Phân tích tần suất mã lỗi
- • Các mẫu phản hồi khảo sát
Ứng dụng phạm vi
- • Đặt phạm vi dung sai kiểm soát chất lượng
- • Xác định phạm vi chính sách giá
- • Khoảng điểm đánh giá hiệu suất
- • Phạm vi biến động sử dụng tài nguyên
Phát triển sang thống kê suy luận
Thống kê mô tả tạo thành nền tảng của thống kê suy luận. Thống kê mô tả mẫu được sử dụng để ước tính các đặc điểm tổng thể và đóng vai trò là dữ liệu cơ bản cho kiểm định giả thuyết.
Kết nối với học máy
Thống kê mô tả rất cần thiết cho việc lựa chọn đặc trưng, tiền xử lý dữ liệu và giải thích mô hình trong học máy. Chúng đóng vai trò quan trọng đặc biệt trong AI giải thích được.
Tích hợp với trực quan hóa
Kết hợp với các kỹ thuật trực quan hóa khác nhau như biểu đồ tần suất, biểu đồ hộp và biểu đồ violin, chúng cho phép hiểu trực quan về phân phối và đặc điểm dữ liệu.
Tương lai của phân tích thời gian thực
Công nghệ tính toán và cập nhật thống kê theo thời gian thực từ môi trường dữ liệu luồng ngày càng trở nên quan trọng.