Trí tuệ nhân tạo được đào tạo để tránh những sai lầm độc hại như thế nào?

Anh Vũ | 16/04/2024 06:30

Một nhóm nghiên cứu tại Viện Công nghệ Massachusetts (MIT - Mỹ), đã đề xuất một phương pháp mới sử dụng học máy để cải thiện quá trình kiểm tra độ an toàn của trí tuệ nhân tạo.

Theo thông tin từ MIT, việc phát triển các hệ thống trí tuệ nhân tạo đã đặt ra nhiều thách thức mới, đặc biệt là về mặt an toàn.

Trong một số trường hợp, các hệ thống AI có thể tạo ra các phản ứng không mong muốn hoặc độc hại, có thể gây ra hậu quả nghiêm trọng cho cộng đồng và xã hội.

Do đó, MIT đã tiến hành nghiên cứu về phương pháp học máy mới để kiểm tra độ an toàn của trí tuệ nhân tạo (AI), Scitechdaily đưa tin. Phương pháp này được nhóm thử nghiệm “mô hình đội đỏ” của MIT áp dụng, sử dụng trí tò mò để kích hoạt các phản ứng độc hại từ các hệ thống chatbot, nhằm tăng cường quá trình kiểm tra và đảm bảo tính an toàn của các hệ thống AI.

Mô hình đội đỏ là một cách thử nghiệm tương tác các mô hình AI để ngăn chúng khỏi hành vi có hại, bao gồm rò rỉ dữ liệu nhạy cảm và tạo ra nội dung độc hại, sai lệch hoặc không chính xác về mặt thực tế

Mục tiêu của mô hình đội đỏ là tối đa hóa "phần thưởng" mà các mô hình nhận được bằng cách kích thích sự tò mò và tạo ra các phản ứng cực kỳ độc hại từ phía AI thông qua một gợi ý mới. Nhà nghiên cứu đã điều chỉnh tín hiệu trong quá trình học để khuyến khích tính ngẫu nhiên và đa dạng của mô hình AI.

Với các điều chỉnh khác nhau, nhóm nghiên cứu đã so sánh mức độ độc hại và tính đa dạng của các phản ứng tạo ra bởi mô hình đội đỏ của họ với các kỹ thuật tự động khác. Mô hình của họ vượt trội hơn so với cả hai số liệu so sánh.

Họ cũng sử dụng mô hình đội đỏ của mình để thử nghiệm một chatbot đã được điều chỉnh dựa trên phản hồi của con người để tránh việc đưa ra các câu trả lời độc hại. Phương pháp tiếp cận dựa trên sự tò mò của họ nhanh chóng tạo ra 196 lời nhắc kích hoạt các phản ứng độc hại từ chatbot "an toàn" này.

Phương pháp này đã được áp dụng và thử nghiệm bởi các nhóm nghiên cứu tại MIT và MIT-IBM, với kết quả đáng khích lệ. Các nhà nghiên cứu cho biết, phương pháp mới mang lại những tiến bộ đáng kể trong việc đảm bảo tính an toàn và đáng tin cậy của các hệ thống AI.

Trong tương lai, các nhà khoa học hy vọng rằng, phương pháp này sẽ được áp dụng rộng rãi và giúp cải thiện tính an toàn của các hệ thống trí tuệ nhân tạo, đồng thời giảm thiểu nguy cơ từ các hành vi độc hại của chúng. Điều này sẽ góp phần vào việc xây dựng một tương lai AI an toàn và đáng tin cậy hơn cho cộng đồng và xã hội.

Anh Vũ