Các mô hình AI đang âm thầm thu thập dữ liệu người dùng

Hải Nguyễn | 25/10/2023 10:26

Các mô hình AI sáng tạo đang tích cực thu thập dữ liệu từ Internet thông qua trình thu thập dữ liệu web, trình thu thập thông tin. Thông qua các dữ liệu thu thập được, AI tạo ra nhiều loại nội dung khác nhau như âm thanh, hình ảnh và video.

Theo tìm hiểu của Lao Động, các mô hình AI sáng tạo sử dụng nhiều thuật toán khác nhau để trình bày và xử lý nội dung. Ví dụ, để tạo ra văn bản, một số kỹ thuật xử lý ngôn ngữ tự nhiên sẽ chuyển đổi các ký tự thô thành các phần lời nói, câu, hành động và thực thể. Chúng được thể hiện thông qua các kỹ thuật mã hóa khác nhau. Theo cách tương tự, hình ảnh cũng được chuyển đổi thành các phần tử hình ảnh khác nhau dưới dạng vecto.

Tuy nhiên, để những mô hình AI này thực sự hoạt động, chúng cần được cung cấp lượng dữ liệu lớn. Bộ xử lý thuật toán AI càng có nhiều dữ liệu thì kết quả thể hiện sẽ chính xác hơn.

Môi trường Internet cung cấp lượng dữ liệu khổng lồ khá dễ dàng thông qua tận dụng các giao diện chương trình ứng dụng API và các công cụ quét web. Tuy nhiên, quá trình thu thập dữ liệu này không có khả năng phân định dữ liệu cá nhân hoặc tác phẩm có bản quyền. Điều này cũng làm tăng mối lo ngại của những người có ấn phẩm bản quyền phát hành trên môi trường mạng.

Dữ liệu mở trên toàn bộ web bao gồm nhiều thứ khác nhau như ảnh, cơ sở dữ liệu, các trang kinh doanh, trang web của chính phủ và các hãng tin tức. Dữ liệu này có thể được AI thu thập, sử dụng để rèn luyện thuật toán trở nên tốt hơn.

Theo Lauren Leffer, một thành viên công nghệ của Scientific American, các công ty AI thu thập dữ liệu chủ yếu thông qua các chương trình tự động được gọi là trình quét web hoặc trình thu thập dữ liệu web. Công nghệ này đã được sử dụng để tạo ra các công cụ tìm kiếm.

Trình thu thập dữ liệu web có thể được ví như những con nhện kỹ thuật số di chuyển như những sợi tơ từ URL (địa chỉ web-PV) này sang URL khác. Thông qua quá trình thu thập lượng dữ liệu khổng lồ, các thuật toán AI ngày càng chính xác và “gần đúng” với yêu cầu đầu vào của người sử dụng công cụ AI.

Hải Nguyễn