Các mô hình AI đang âm thầm thu thập dữ liệu người dùng

Hải Nguyễn |

Các mô hình AI sáng tạo đang tích cực thu thập dữ liệu từ Internet thông qua trình thu thập dữ liệu web, trình thu thập thông tin. Thông qua các dữ liệu thu thập được, AI tạo ra nhiều loại nội dung khác nhau như âm thanh, hình ảnh và video.

Theo tìm hiểu của Lao Động, các mô hình AI sáng tạo sử dụng nhiều thuật toán khác nhau để trình bày và xử lý nội dung. Ví dụ, để tạo ra văn bản, một số kỹ thuật xử lý ngôn ngữ tự nhiên sẽ chuyển đổi các ký tự thô thành các phần lời nói, câu, hành động và thực thể. Chúng được thể hiện thông qua các kỹ thuật mã hóa khác nhau. Theo cách tương tự, hình ảnh cũng được chuyển đổi thành các phần tử hình ảnh khác nhau dưới dạng vecto.

Tuy nhiên, để những mô hình AI này thực sự hoạt động, chúng cần được cung cấp lượng dữ liệu lớn. Bộ xử lý thuật toán AI càng có nhiều dữ liệu thì kết quả thể hiện sẽ chính xác hơn.

Môi trường Internet cung cấp lượng dữ liệu khổng lồ khá dễ dàng thông qua tận dụng các giao diện chương trình ứng dụng API và các công cụ quét web. Tuy nhiên, quá trình thu thập dữ liệu này không có khả năng phân định dữ liệu cá nhân hoặc tác phẩm có bản quyền. Điều này cũng làm tăng mối lo ngại của những người có ấn phẩm bản quyền phát hành trên môi trường mạng.

Dữ liệu mở trên toàn bộ web bao gồm nhiều thứ khác nhau như ảnh, cơ sở dữ liệu, các trang kinh doanh, trang web của chính phủ và các hãng tin tức. Dữ liệu này có thể được AI thu thập, sử dụng để rèn luyện thuật toán trở nên tốt hơn.

Theo Lauren Leffer, một thành viên công nghệ của Scientific American, các công ty AI thu thập dữ liệu chủ yếu thông qua các chương trình tự động được gọi là trình quét web hoặc trình thu thập dữ liệu web. Công nghệ này đã được sử dụng để tạo ra các công cụ tìm kiếm.

Trình thu thập dữ liệu web có thể được ví như những con nhện kỹ thuật số di chuyển như những sợi tơ từ URL (địa chỉ web-PV) này sang URL khác. Thông qua quá trình thu thập lượng dữ liệu khổng lồ, các thuật toán AI ngày càng chính xác và “gần đúng” với yêu cầu đầu vào của người sử dụng công cụ AI.

Hải Nguyễn
TIN LIÊN QUAN

Lợi ích và rủi ro khi trẻ em sử dụng Chatbot AI

NGUYỄN ĐĂNG |

Chatbot AI có rất nhiều lợi ích đáng kể, nhưng nếu không nhận thức được nguy cơ tiềm ẩn trong những công cụ này đối với trẻ em, người dùng sẽ đối mặt với rủi ro lớn hơn trong việc đánh mất dữ liệu cá nhân, bị đe dọa hay nhận những nội dung không phù hợp.

Chuyên gia an ninh mạng đề cao 6 nguyên tắc khi sử dụng AI

NGUYỄN ĐĂNG |

Việc ứng dụng trí tuệ nhân tạo (AI) và học máy (ML) phải đi cùng với cam kết sử dụng có trách nhiệm, dựa trên những nguyên tắc đạo đức để đảm bảo an ninh mạng.

Trung Quốc đưa ra danh sách đen trong việc đào tạo AI

Anh Vũ |

Trung Quốc đã công bố các yêu cầu bảo mật được đề xuất đối với các công ty cung cấp dịch vụ trí tuệ nhân tạo (AI) tổng hợp, bao gồm danh sách đen các nguồn không được sử dụng để đào tạo các mô hình AI.

Kiểm tra trụ sở chính và các chi nhánh của Công ty Thành Bưởi ở TPHCM

HỮU CHÁNH - ANH TÚ |

TPHCM - Chiều 26.10, tại trụ sở Công ty TNHH Thành Bưởi ở địa chỉ 266 - 272 Lê Hồng Phong (Phường 4, Quận 5) và chi nhánh số 630 Điện Biên Phủ (Phường 22, quận Bình Thạnh) xuất hiện lực lượng công an, lực lượng cảnh sát giao thông - trật tự ở bên ngoài.

Bất ngờ nguyên nhân khiến nhân viên bếp bỏ thuốc sâu vào bữa ăn bán trú của học sinh

Minh Chuyên |

Sơn La - Theo cơ quan công an, do bất mãn về việc nhà trường lựa chọn đơn vị cung cấp thực phẩm không đảm bảo chất lượng và nghi ngờ có việc câu kết ăn bớt khẩu phần nên Hà Thị Thi đã cho thuốc sâu, thuốc diệt gián, kiến vào khẩu phần ăn của học sinh.

Giải bài toán thiếu trường cho con công nhân, kỳ vọng những quyết sách mới

NHÓM PV |

Theo báo cáo của Tổng liên đoàn Lao động Việt Nam năm 2022, cả nước có khoảng 4,1 triệu công nhân đang làm việc tại 291 khu, cụm công nghiệp. Gia tăng lao động tại các thành phố lớn tạo áp lực lên mạng lưới trường lớp mầm non. Công nhân phần lớn phải mang con đi gửi nhóm trẻ, gửi về nhà cho ông bà hoặc trường tư vì không có hộ khẩu. Những yếu tố này cũng có những tác động không nhỏ đến năng suất lao động của người lao động. Để bàn về vấn đề này, Báo Lao Động tổ chức toạ đàm: “Giải bài toán thiếu trường cho con công nhân - Kỳ vọng những quyết sách mới". Tọa đàm được truyền hình trực tiếp trên Lao Động điện tử www.laodong.vn và Fanpage của Báo Lao Động.

Chợ Thái ngổn ngang, hàng loạt kiot bỏ không nhiều năm

Lam Thanh |

Từng là niềm tự hào của thị trường bán lẻ, trao đổi hàng hóa tại Thái Nguyên, thế nhưng đến nay nhiều khu vực tại chợ Thái đã xuống cấp, đồ đạc ngổn ngang, hàng loạt kiot bỏ không.

Hà Nội tuyển 26 viên chức, phê duyệt các dự án quy mô 15.000 tỉ đồng

Lam Duy |

Số viên chức trên được Hà Nội tuyển dụng cho các vị trí như thẩm định thiết kế, quản lý thực hiện dự án, quản lý chất lượng công trình và lựa chọn nhà thầu.

Lợi ích và rủi ro khi trẻ em sử dụng Chatbot AI

NGUYỄN ĐĂNG |

Chatbot AI có rất nhiều lợi ích đáng kể, nhưng nếu không nhận thức được nguy cơ tiềm ẩn trong những công cụ này đối với trẻ em, người dùng sẽ đối mặt với rủi ro lớn hơn trong việc đánh mất dữ liệu cá nhân, bị đe dọa hay nhận những nội dung không phù hợp.

Chuyên gia an ninh mạng đề cao 6 nguyên tắc khi sử dụng AI

NGUYỄN ĐĂNG |

Việc ứng dụng trí tuệ nhân tạo (AI) và học máy (ML) phải đi cùng với cam kết sử dụng có trách nhiệm, dựa trên những nguyên tắc đạo đức để đảm bảo an ninh mạng.

Trung Quốc đưa ra danh sách đen trong việc đào tạo AI

Anh Vũ |

Trung Quốc đã công bố các yêu cầu bảo mật được đề xuất đối với các công ty cung cấp dịch vụ trí tuệ nhân tạo (AI) tổng hợp, bao gồm danh sách đen các nguồn không được sử dụng để đào tạo các mô hình AI.