AI tổng quát có thể đặt ra những vấn đề gì đối với quyền riêng tư của người dùng internet bình thường? Theo các chuyên gia, câu trả lời phần lớn nằm ở việc các bot này được đào tạo như thế nào và mức độ chúng ta dự định tương tác với chúng.
Để tái tạo các tương tác giống như con người, các chatbot AI được đào tạo dựa trên lượng dữ liệu khổng lồ, một phần đáng kể trong số đó được lấy từ các kho lưu trữ như Common Crawl. Như tên gợi ý, Common Crawl đã tích lũy chỉ từ việc thu thập dữ liệu và tìm kiếm trang web mở.
Megha Srivastava, nghiên cứu sinh tại khoa khoa học máy tính của Stanford và là cựu nhân viên AI của Microsoft Research, cho biết: “Những mô hình này đang đào tạo trên các tập dữ liệu lớn có sẵn công khai trên internet. Mặc dù ChatGPT và Bard sử dụng cái mà họ gọi là phần "được lọc" trong dữ liệu của Common Crawl, nhưng kích thước tuyệt đối của mô hình khiến "bất kỳ ai cũng không thể xem qua dữ liệu và làm sạch nó”.
Do sự bất cẩn của chính người dùng hoặc các hoạt động bảo mật kém của bên thứ ba, thông tin của họ có thể đang ở một nơi xa xôi nào đó trên internet. Việc một bot tiết lộ thông tin liên hệ thực tế của ai đó không phải là vấn đề chỉ có trên lý thuyết.
Dave Lee của Bloomberg đã đăng trên Twitter rằng số điện thoại cá nhân của ông đã bị tiết lộ khi ai đó hỏi ChatGPT trên nền tảng nhắn tin được mã hóa Signal. Loại tương tác này có thể là một trường hợp hiếm gặp, nhưng thông tin mà các mô hình này có quyền truy cập vẫn đáng được xem xét.
Open AI, công ty đứng sau ChatGPT, đã không trả lời khi Engadget hỏi họ về những biện pháp nào để bảo vệ quyền riêng tư của dữ liệu hoặc cách họ xử lý thông tin nhận dạng cá nhân có thể được đưa vào bộ đào tạo.
Khi được hỏi, ChatGPT nói rằng nó "được lập trình để tuân theo các tiêu chuẩn đạo đức và pháp lý nhằm bảo vệ quyền riêng tư và thông tin cá nhân của người dùng" và nó không "có quyền truy cập vào thông tin cá nhân trừ khi nó được cung cấp cho tôi”.
Về phần mình, Google nói với Engadget rằng họ đã lập trình các biện pháp bảo vệ tương tự vào Bard để ngăn chặn việc chia sẻ thông tin nhận dạng cá nhân trong các cuộc trò chuyện.
ChatGPT cũng đã chỉ ra rủi ro chính thứ hai mà AI tổng quát có thể gây ra, liên quan đến quyền riêng tư. Việc bị lộ thông tin cá nhân khi sử dụng phần mềm có thể rất nguy hiểm, khi thông tin được chia sẻ trực tiếp trong nhật ký trò chuyện hoặc thiết bị trong quá trình sử dụng.
Chính sách quyền riêng tư của OpenAI cũng trích dẫn một số danh mục thông tin tiêu chuẩn mà nó thu thập về người dùng, đồng thời ChatGPT cũng cảnh báo rằng các cuộc trò chuyện có thể được các mô hình đào tạo của nó xem xét để cải thiện hệ thống.
Trong khi đó, AI Bard của Google không có chính sách quyền riêng tư độc lập. Thay vào đó, nó sử dụng tài liệu bảo mật toàn bộ được chia sẻ bởi các sản phẩm khác của Google. Các cuộc trò chuyện với Bard không cần phải được lưu vào tài khoản Google của người dùng, và người dùng có thể xóa các cuộc trò chuyện qua Google.
“Để xây dựng và duy trì lòng tin của người dùng, họ sẽ phải rất minh bạch về các chính sách quyền riêng tư và quy trình bảo vệ dữ liệu ở mặt trước,” Rishi Jaitly, giáo sư và thành viên khoa học nhân văn xuất sắc tại Virginia Tech cho biết.
Theo trang Câu hỏi thường gặp của dịch vụ, OpenAI cũng không thể xóa các lời nhắc cụ thể. Mặc dù công ty không khuyến khích người dùng chia sẻ bất cứ điều gì nhạy cảm, nhưng dường như cách duy nhất để xóa thông tin nhận dạng cá nhân được cung cấp cho ChatGPT là xóa tài khoản, điều này sẽ khiến công ty xóa vĩnh viễn tất cả dữ liệu liên quan.