Trí tuệ nhân tạo được đào tạo để tránh những sai lầm độc hại như thế nào?

Anh Vũ |

Một nhóm nghiên cứu tại Viện Công nghệ Massachusetts (MIT - Mỹ), đã đề xuất một phương pháp mới sử dụng học máy để cải thiện quá trình kiểm tra độ an toàn của trí tuệ nhân tạo.

Theo thông tin từ MIT, việc phát triển các hệ thống trí tuệ nhân tạo đã đặt ra nhiều thách thức mới, đặc biệt là về mặt an toàn.

Trong một số trường hợp, các hệ thống AI có thể tạo ra các phản ứng không mong muốn hoặc độc hại, có thể gây ra hậu quả nghiêm trọng cho cộng đồng và xã hội.

Do đó, MIT đã tiến hành nghiên cứu về phương pháp học máy mới để kiểm tra độ an toàn của trí tuệ nhân tạo (AI), Scitechdaily đưa tin. Phương pháp này được nhóm thử nghiệm “mô hình đội đỏ” của MIT áp dụng, sử dụng trí tò mò để kích hoạt các phản ứng độc hại từ các hệ thống chatbot, nhằm tăng cường quá trình kiểm tra và đảm bảo tính an toàn của các hệ thống AI.

Mô hình đội đỏ là một cách thử nghiệm tương tác các mô hình AI để ngăn chúng khỏi hành vi có hại, bao gồm rò rỉ dữ liệu nhạy cảm và tạo ra nội dung độc hại, sai lệch hoặc không chính xác về mặt thực tế

Mục tiêu của mô hình đội đỏ là tối đa hóa "phần thưởng" mà các mô hình nhận được bằng cách kích thích sự tò mò và tạo ra các phản ứng cực kỳ độc hại từ phía AI thông qua một gợi ý mới. Nhà nghiên cứu đã điều chỉnh tín hiệu trong quá trình học để khuyến khích tính ngẫu nhiên và đa dạng của mô hình AI.

Với các điều chỉnh khác nhau, nhóm nghiên cứu đã so sánh mức độ độc hại và tính đa dạng của các phản ứng tạo ra bởi mô hình đội đỏ của họ với các kỹ thuật tự động khác. Mô hình của họ vượt trội hơn so với cả hai số liệu so sánh.

Họ cũng sử dụng mô hình đội đỏ của mình để thử nghiệm một chatbot đã được điều chỉnh dựa trên phản hồi của con người để tránh việc đưa ra các câu trả lời độc hại. Phương pháp tiếp cận dựa trên sự tò mò của họ nhanh chóng tạo ra 196 lời nhắc kích hoạt các phản ứng độc hại từ chatbot "an toàn" này.

Phương pháp này đã được áp dụng và thử nghiệm bởi các nhóm nghiên cứu tại MIT và MIT-IBM, với kết quả đáng khích lệ. Các nhà nghiên cứu cho biết, phương pháp mới mang lại những tiến bộ đáng kể trong việc đảm bảo tính an toàn và đáng tin cậy của các hệ thống AI.

Trong tương lai, các nhà khoa học hy vọng rằng, phương pháp này sẽ được áp dụng rộng rãi và giúp cải thiện tính an toàn của các hệ thống trí tuệ nhân tạo, đồng thời giảm thiểu nguy cơ từ các hành vi độc hại của chúng. Điều này sẽ góp phần vào việc xây dựng một tương lai AI an toàn và đáng tin cậy hơn cho cộng đồng và xã hội.

Anh Vũ
TIN LIÊN QUAN

Samsung Galaxy Z Flip 5 đã được trang bị trí tuệ nhân tạo

Anh Vũ |

Samsung đã cập nhật các tính năng của trí tuệ nhân tạo Galaxy AI để có thể hoạt động ổn định với các thiết bị màn hình gập của hãng.

Trí tuệ nhân tạo xuất hiện ở hầu hết các sản phẩm đạt giải Sao Khuê 2024

Anh Vũ |

Hơn 90% các sản phẩm và dịch vụ được vinh danh tại giải thưởng Sao Khuê 2024 đã tích hợp ứng dụng trí tuệ Nhân tạo (AI), mang lại nhiều câu chuyện truyền cảm hứng cho cộng đồng doanh nghiệp công nghệ số.

Trí tuệ nhân tạo của Google đã có thể nghe và ghi chép

Anh Vũ |

Google vừa công bố một bản cập nhật mới cho phép Gemini Pro, một trong những chatbot trí tuệ nhân tạo của họ, khả năng nghe và ghi chép.

Doanh nghiệp điện mặt trời ở Gia Lai kêu cứu vì chưa được trả tiền điện

THANH TUẤN |

Gia Lai - 2 doanh nghiệp điện mặt trời mái nhà tại huyện Krông Pa, tỉnh Gia Lai vừa gửi giấy đề nghị thanh toán tiền điện trong thời gian 3 năm lên Công ty Điện lực Gia Lai (thuộc Tổng Công ty Điện lực miền Trung). Việc chậm trả tiền điện khiến doanh nghiệp như ngồi trên đống lửa vì ôm nợ và trả lãi đều đặn cho ngân hàng…

Cơ cấu lại đội ngũ cán bộ, công chức, viên chức theo vị trí việc làm

HẠNH AN |

Theo Bộ trưởng Bộ Nội vụ Phạm Thị Thanh Trà, cơ cấu lại đội ngũ cán bộ, công chức, viên chức theo vị trí việc làm là một trong những nhiệm vụ trọng tâm mà các bộ, cơ quan, địa phương cần tập trung thực hiện trong năm 2023.

Công nhân buồn nôn, chóng mặt khi hít phải mùi hôi thối trong khu công nghiệp ở Đà Nẵng

Nguyễn Linh |

Ngày 17.3, Ban quản lý Khu công nghệ cao và các khu công nghiệp TP Đà Nẵng cho biết, đã đề nghị Công ty TNHH Bamboo Việt - Đà Nẵng liên hệ làm việc với người dân sinh sống tại khu dân cư Hoà Hiệp 4, phường Hoà Hiệp Nam, quận Liên Chiểu, thành phố Đà Nẵng về việc xả khí thải gây ô nhiễm môi trường.

Giá vàng tăng không ngừng, chuyên gia tư vấn cách đầu tư thời điểm này

Đền Phú |

Gần đây, giá vàng trong nước liên tục biến động với biên độ rộng. Giới chuyên gia nhận định, nhà đầu tư cần đưa ra quyết định thận trọng để tránh thua lỗ.

Để công nhân về nhà trọ có cảm giác an toàn như về nhà

Nhóm phóng viên |

Chiều 17.4, Báo Lao Động tổ chức Hội thảo “Xây dựng môi trường an toàn, nâng cao chất lượng sống cho đoàn viên, người lao động”. Hội thảo sẽ đóng góp nhiều ý kiến, trong đó có việc đổi mới trong xây dựng văn hóa, tinh thần cho người lao động, từ đó tránh xa tín dụng đen và tệ nạn xã hội.

Samsung Galaxy Z Flip 5 đã được trang bị trí tuệ nhân tạo

Anh Vũ |

Samsung đã cập nhật các tính năng của trí tuệ nhân tạo Galaxy AI để có thể hoạt động ổn định với các thiết bị màn hình gập của hãng.

Trí tuệ nhân tạo xuất hiện ở hầu hết các sản phẩm đạt giải Sao Khuê 2024

Anh Vũ |

Hơn 90% các sản phẩm và dịch vụ được vinh danh tại giải thưởng Sao Khuê 2024 đã tích hợp ứng dụng trí tuệ Nhân tạo (AI), mang lại nhiều câu chuyện truyền cảm hứng cho cộng đồng doanh nghiệp công nghệ số.

Trí tuệ nhân tạo của Google đã có thể nghe và ghi chép

Anh Vũ |

Google vừa công bố một bản cập nhật mới cho phép Gemini Pro, một trong những chatbot trí tuệ nhân tạo của họ, khả năng nghe và ghi chép.