Bộ công cụ: Chia Sẻ Dữ Liệu và Khai Thác Dữ Liệu

Bộ công cụ: Chia Sẻ Dữ Liệu và Khai Thác Dữ Liệu

Mục lục

Khai Thác Dữ Liệu Là Gì?

Trong tin tức mới đây, quý vị có lẽ đã nghe nói về điều gì đó về Dữ Liệu Lớn và khai mỏ dữ liệu. Khai thác dữ liệu có nghĩa là tìm kiếm các mẫu và mối quan hệ trong các bộ sưu tập dữ liệu lớn - thường được gọi là Dữ Liệu Lớn.Dữ liệu luôn luôn được phân tích để tìm các hình thái, nhưng các máy vi tính đã thực hiện được thu thập, cất trữ, và phân tích dữ liệu hữu hiệu hơn rất nhiều và là chuyện rất thường. Qua tiến trình suy luận tự động, các hình thái này được dùng để tìm các xu hướng, rút ra kết luận, và đôi khi dự đoán ngay cả các hình thái trong tương lai.

Khai thác dữ liệu thường được dùng theo những cách đem lại ích lợi cho mọi người. Trong y tế, nó giúp nhận biết các vụ bùng phát về bệnh tật. Thí dụ, ở Rwanda, một nhà nghiên cứu của Harvard đã dùng việc khai thác dữ liệu để theo dõi các hình thái di động nơi con người và so sánh chúng với các con số thống kê về sức khoẻ. Ông đã phát hiện ra các hình thái di động thay đổi hai tuần trước khi có sự bùng phát về dịch tả, và do đó, ông đã có thể  đoán được  khi nào sự bùng phát sẽ xảy ra. Việc khai thác dữ liệu cũng được sử dụng bởi chính phủ để tối ưu hoá lưu lượng xe cộ, bởi các cơ sở kinh doanh để phân tích các hình thái mua sắm của khách hàng, và bởi các cơ quan công lực để giải quyết các vụ án.

Mặc dù việc liên kết các dữ liệu với các dữ liệu khác gia tăng giá trị của nó, điều này đã nêu ra các quan tâm về sự riêng tư. Các viện chăm sóc sức khoẻ, các cơ quan dân sự, và các tổ chức khác chỉ muốn nghiên cứu các hình thái thường đảm nhận các bước để giữ nặc danh cho dữ liệu. Ít ra là, họ sẽ thường loại bỏ thông tin dễ nhận dạng cá nhân (PII) như tên và các số an sinh xã hội có thể được dùng để lựa ra chính xác một cá nhân nào đó. Tuy nhiên, mặc dù các đặc điểm không tự chúng nổi bật, như tuổi hoặc tình trạng hôn phối, có thể được kết hợp lại với các PII khác để lựa ra người có sự kết hợp các đặc điểm độc đáo đó. Trong một số trường hợp, các cơ quan có thể dùng các phương pháp tính toán tỉ mỉ hơn để che giấu danh tính. Các sách lược này thường dựa vào việc phân bổ một người nào đó vào một hạng mục tổng quát bao gồm nhiều người hơn, như nói rằng một người ở độ tuổi từ 20-29 thay vì nói rằng họ 27 tuổi. Tuy nhiên, mặc dù các kỹ thuật này không phải là dễ sử dụng, và nhiều cơ quan không dùng chúng chút nào.

Chia sẻ dữ liệu và mô hình kinh doanh Internet

Việc chia sẻ thông tin của quý vị phải được đưa ra khi quý vị giao dịch trong kinh doanh hoặc dùng một dịch vụ. Các cơ sở kinh doanh khai mỏ dữ liệu này để nhận biết các khách hàng của họ là ai và họ hiện đang mua những gì -- và họ cũng thường chia sẻ các dữ liệu khách hàng với các cơ quan quảng cáo thuộc nhóm thứ ba hoặc bán nó cho các nhà môi giới về dữ liệu. Đối với các công ty cung cấp dịch vụ trên mạng miễn phí, việc bán chỗ quảng cáo và các dữ liệu của người sử dụng là cách mà họ kiếm được nhiều tiền nhất.

Đa số thì, luật pháp không giới hạn các cơ sở kinh doanh về việc bán hoặc chia sẻ thông tin của quý vị. California và các tiểu bang khác mới đây đã đặt ra một số giới hạn, nhưng thường không rõ ràng là luật nào áp dụng cho một trường hợp nhất định. Đa số các cơ sở kinh doanh và các cơ quan sẽ chia sẻ thông tin của quý vị theo mặc định trừ khi quý vị từ chối ("opt out") -- và đôi khi họ sẽ vẫn chia sẻ thông tin này dù thế nào đi nữa -- vì thế tốt hơn là quý vị cứ cho rằng điều này hiện đang diễn ra. Thường thì, một chính sách về sự riêng tư của cơ quan sẽ cho quý vị biết cách mà thông tin của quý vị có thể được sử dụng như thế nào -- nhưng không có bảo đảm nào là họ tuân theo chính sách này, và các chính sách về sự riêng tư có thể thay đổi mà không cần phải thông báo. Quý vị cũng không thể cho là một công ty sẽ không chia sẻ thông tin của mình chỉ vì họ có một danh tiếng tốt nói chung hoặc dịch vụ khách hàng tốt.

Các Dữ Liệu Của Quý vị Là Một Món Hàng Quý Báu

Những người tập hợp dữ liệu, cũng còn gọi là các nhà môi giới dữ liệu, chuyên tìm hiểu tất cả mọi điều mà họ có thể về khách hàng. Có một vài giới hạn về những điều mà các nhà môi giới dữ liệu có thể làm được với thông tin này, mặc dù họ thường không phổ biến tất cả các thông tin này một cách công khai miễn phí. Các nhà môi giới dữ liệu kết hợp thông tin từ các công ty mà quý vị giao dịch kinh doanh, các dữ liệu theo dõi trên mạng, và các hồ sơ công cộng từ các trang mạng của chính phủ để lập ra một tiểu sử về khách hàng với một số ID độc đáo, sau đó có thể đem bán lại cho một công ty quảng cáo. Các tiểu sử này có hoặc không thể được liên kết với tên của quý vị -- nhưng ngay cả một tiểu sử "nặc danh" được soạn ra bởi một nhà môi giới dữ liệu có lẽ cũng đủ thông tin để nhận ra quý vị một cách chính xác.

Các nhà quảng cáo càng biết nhiều về quý vị, họ càng có thể dự đoán được hành vi trong tương lai của quý vị tốt hơn. Trong một thí dụ tai tiếng thì, Mục tiêu được rút ra qua việc khai thác dữ liệu cho rằng phụ nữ mua dầu thoa không mùi rất có thể mang thai, và đã bắt đầu gửi cho họ các quảng cáo về các sản phẩm của em bé. Đặc biệt là, các nhà môi giới dữ liệu và các dịch vụ quảng cáo trên mạng đã kiếm được nhiều triệu đô la trong việc theo dõi mỗi lần quý vị mua một thứ gì đó hoặc lên mạng. Họ dùng việc theo dõi trên mạng để thu thập các dữ liệu từ các trang mạng truyền thông xã hội, các trang mạng về mua sắm, và các trang mạng tin tức và giải trí, và sau đó khai thác dữ liệu để tìm các hình thái cho biết về các sở thích của quý vị. Các nhà quảng cáo sau đó có thể cho hiển thị các quảng cáo dựa theo sở thích của quý vị, như đã được xác định bởi hành vi trên mạng (và ngoài mạng) của quý vị.

Trở lại đầu trang