Microsoft đã phát hành một framework tự động hóa truy cập được gọi là PyRIT (viết tắt của Python Risk Identification Tool) để xác định rủi ro một cách chủ động trong các hệ thống Generative AI.
Ram Shankar Siva Kumar, trưởng nhóm red team AI tại Microsoft cho biết: “Công cụ red teaming này được thiết kế để cho phép mọi tổ chức trên toàn cầu có trách nhiệm hơn khi đổi mới trí tuệ nhân tạo.”
Công ty cho biết PyRIT có thể được sử dụng để đánh giá tính mạnh mẽ của các điểm cuối trong mô hình ngôn ngữ lớn (LLM) nhằm chống lại các nội dung độc hại, nội dung cấm.
Nó cũng có thể được sử dụng để xác định các tác hại về bảo mật từ việc tạo phần mềm độc hại đến bẻ khóa, cũng như các tác động đến quyền riêng tư như đánh cắp danh tính.
PyRIT gồm 5 phần: mục tiêu, bộ dữ liệu, bộ đánh giá, khả năng hỗ trợ nhiều chiến lược tấn công và tích hợp một thành phần bộ nhớ có thể ở dạng JSON hoặc cơ sở dữ liệu để lưu trữ các tương tác giữa đầu vào, đầu ra trung gian.
Bộ đánh giá cũng cung cấp hai tùy chọn khác nhau để đánh giá các đầu ra từ hệ thống AI mục tiêu, cho phép Red team sử dụng một bộ phân loại học máy cổ điển hoặc tận dụng một điểm cuối LLM để tự đánh giá.
Microsoft cho biết: “Mục tiêu là cho phép các nhà nghiên cứu có cơ sở về mức độ hoạt động của mô hình, toàn bộ quy trình của họ đối với các tác hại khác nhau và có thể so sánh dựa trên phiên bản hiện tại với với các phiên bản tương lai của mô hình”.
Điều này cho phép họ có nguồn dữ liệu qua các đánh giá về hiệu suất của mô hình và phát hiện bất kỳ sự suy giảm hiệu suất dựa trên các cải tiến trong tương lai.
Tập đoàn công nghệ cần nhấn mạnh rằng PyRIT không phải là một sự thay thế cho việc kiểm tra bằng cách thủ công của các hệ thống Generative AI và bổ sung cho kiến thức chuyên môn hiện có của red team.
Nói cách khác, công cụ này được thiết kế để nhấn mạnh các “hot spots” rủi ro bằng cách tạo ra các gợi ý có thể được sử dụng để đánh giá hệ thống AI và đánh dấu các khu vực cần được điều tra kỹ hơn.
Siva Kumar cho biết: “Việc thăm dò thủ công, mặc dù tốn thời gian, thường cần thiết để xác định các điểm mù tiềm ẩn”. “Tự động hóa là cần thiết để mở rộng quy mô nhưng không thể thay thế cho việc thăm dò thủ công.”
Sự phát triển này xảy ra khi Protect AI tiết lộ nhiều lỗ hổng nghiêm trọng trong các nền tảng chuỗi cung ứng AI phổ biến như ClearML, Hugging Face, MLflow và Triton Inference Server có thể dẫn đến việc thực thi mã tùy ý và tiết lộ thông tin nhạy cảm.