Bài học cùng chủ đề
Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Lý thuyết về Khoa học dữ liệu SVIP
1. Dữ liệu và thông tin trong thời đại số
a) Dữ liệu lớn (Big Data)
Với những tiến bộ đáng kể trong công nghệ, việc sử dụng máy tính mạng, đa phương tiện, Internet vạn vật (IoT), truyền thông xã hội và điện toán đám mây sản sinh một lượng lớn dữ liệu, được gọi là "dữ liệu lớn" (big data).
Đặc điểm của dữ liệu lớn thường tóm tắt bằng 5V:
- Volume (Khối lượng) chỉ ra số lượng dữ liệu khổng lồ được tạo ra và thu thập, được đo bằng Terabyte, Petabyte, Exabyte và thậm chí Zettabyte.
- Velocity (Tốc độ) chỉ ra tốc độ mà dữ liệu được tạo ra, thu thập, xử lí theo thời gian thực không ngừng tăng nhanh.
- Variety (Đa dạng) chỉ ra dữ liệu có từ nhiều nguồn, nhiều thể loại, định dạng khác nhau.
- Veracity (Tính xác thực) chỉ ra chất lượng, độ chính xác và độ tin cậy của dữ liệu là rất quan trọng để đưa ra quyết định đúng đắn.
- Value (Giá trị) chỉ ra tiềm năng biến đổi dữ liệu thành thông tin có ý nghĩa và lợi ích trong giải quyết vấn đề.
Dữ liệu chuỗi thời gian (time series) là chuỗi các điểm dữ liệu được ghi lại theo chu kì thời gian.
b) Phân tích dữ liệu
Phân tích dữ liệu là quá trình xử lý, lắp mô hình để tìm thông tin hữu ích từ dữ liệu nhằm đưa ra kết luận hoặc dự đoán.
- Phân tích mô tả là tóm tắt dữ liệu, trình bày trực quan để dễ nắm bắt được những thông tin quan trọng cần biết.
- Phân tích dự đoán nhằm đưa ra dự đoán (dự báo) hoặc phân loại dữ liệu mới.
Câu hỏi:
@206333338857@@206333340403@
2. Tổng quan về Khoa học dữ liệu
a) Khái niệm về Khoa học dữ liệu
Khoa học dữ liệu (KHDL) là một lĩnh vực liên ngành sử dụng phương pháp khoa học, quy trình, công cụ của khoa học máy tính, toán học và thống kê kết hợp với kiến thức chuyên ngành để hiểu biết sâu sắc về dữ liệu nhằm đưa ra quyết định đúng đắn.
Mục tiêu chính của KHDL hướng tới một số mục tiêu cụ thể sau:
- Tìm ra mối quan hệ, quy luật ẩn chứa trong dữ liệu từ đó trích rút tri thức từ dữ liệu.
- Phân tích dữ liệu đem lại hiểu biết về xu thế, nhóm, mẫu dữ liệu quan trọng cho việc ra quyết định.
- Biểu diễn dữ liệu một cách trực quan thông qua đồ họa, biểu đồ, hình ảnh.
- Cải thiện mô hình dự đoán hiệu quả hơn từ dữ liệu, sao cho đưa ra quyết định tốt nhất.
- Tổ chức, quản lí nguồn dữ liệu một cách khoa học cho hoạt động của dự án KHDL.
b) Các giai đoạn của một dự án KHDL
Quy trình cho một dự án KHDL gồm các giai đoạn sau:
(1) Xác định vấn đề cần giải quyết, từ đó đặt ra câu hỏi hoặc mục tiêu cụ thể.
(2) Thu thập dữ liệu liên quan đến vấn đề từ nhiều nguồn, kết quả là các bộ dữ liệu rất lớn, có đa dạng cấu trúc.
(3) Tích hợp từ nhiều nguồn, làm sạch dữ liệu, biểu diễn dưới dạng phù hợp.
(4) Chọn và áp dụng mô hình học máy phù hợp để chọn lọc các yếu tố quan trọng, khai phá để tìm ra các quy luật, quan hệ ẩn.
(5) Kiểm tra, đánh giá chất lượng của mô hình trên tập dữ liệu kiểm thử.
(6) Triển khai mô hình trong thực tế nếu mô hình đã đạt tiêu chuẩn.
Câu hỏi:
@206333371325@@206333381882@@202773897375@
3. Một số thành tựu của Khoa học dữ liệu
Các thành tựu của KHDL thường gắn liền với Trí tuệ nhân tạo, Học máy nên có nhiều thành tựu là của chung cả ba lĩnh vực.
Những thành tựu này phục vụ giải quyết các bài toán có khối lượng dữ liệu lớn.
- Dự án Bộ gen người HGP khai phá lượng dữ liệu khổng lồ với nguồn lực tính toán mạnh có thời gian kéo dài 13 năm, tiêu tốn hàng tỉ USD đã làm thay đổi hiểu biết về gene người.
- Mô hình của American Express phát hiện gian lận trong thực hiện giao dịch thẻ tín dụng, đem lại hiệu quả cao trong việc duy trì tỉ lệ gian lận ở mức thấp nhất.
- Các ứng dụng như Netflix, Youtube,... đề xuất nội dung phù hợp cho người dùng nhờ việc khai phá nguồn dữ liệu về lịch sử, sở thích,... của họ khi sử dụng ứng dụng.
Câu hỏi:
@206333385863@@202774116107@
Bạn có thể đăng câu hỏi về bài học này ở đây