An toàn AI là lợi ích công toàn cầu
28/05/26
![]() |
| Những người tiên phong về AI tại Casa dei Tre Oci ở Venice, Ý (từ trái sang): Stuart Russell, Andrew Yao, Yoshua Bengio và Ya-Qin Zhang. Ảnh: Massimo Pistore |
Năm 1955, khi căng thẳng Chiến tranh Lạnh leo thang, Albert Einstein và triết gia Bertrand Russell công bố bản tuyên ngôn kêu gọi các nhà khoa học cùng lên tiếng, “không phải như thành viên của quốc gia, lục địa hay tín ngưỡng, mà như thành viên của loài Người”, nhằm cảnh báo hiểm họa hiện sinh từ vũ khí hạt nhân và tìm cách giảm thiểu mối đe dọa ấy.
Hai năm sau, năm 1957, khoảng 30 nhà khoa học nhóm họp tại Pugwash, Nova Scotia. Từ cuộc gặp đó, Hội nghị Pugwash ra đời như kênh “đối thoại xuyên chia rẽ” dựa trên nền tảng khoa học. Qua nhiều thập niên, hội nghị góp phần vào các cột mốc kiểm soát vũ khí hạt nhân, gồm Hiệp ước Cấm thử hạt nhân một phần, Hiệp ước Không phổ biến vũ khí hạt nhân, Hiệp ước Chống tên lửa đạn đạo, cùng các công ước về vũ khí hóa học và sinh học. Năm 1995, Pugwash được trao Nobel Hòa bình.
Ngày nay, sự xuất hiện của các hệ thống AI ngày càng mạnh, trong bối cảnh cạnh tranh địa chính trị giữa phương Tây do Mỹ dẫn đầu và Trung Quốc, tạo ra nhu cầu đối thoại tương tự. Hội nghị Đối thoại Quốc tế về An toàn AI, do Safe AI Forum tổ chức, được hình thành từ tinh thần đó.
Sáng kiến này quy tụ các nhà khoa học AI nền tảng hàng đầu từ Trung Quốc và phương Tây, gồm Yoshua Bengio, Andrew Yao và Geoffrey Hinton, chủ nhân giải Turing; cùng những nhân vật như Ya-Qin Zhang, cựu chủ tịch Baidu. Năm 2023, cuộc gặp đầu tiên diễn ra tại Bletchley Park, nơi các nhà giải mã Thế chiến II từng làm việc. Năm 2024, nhóm họp tại Aman Summer Palace ở Bắc Kinh. Cuộc họp kín thứ ba vừa kết thúc tại Casa dei Tre Oci của Berggruen Institute ở Venice với đồng thuận thực chất nhất.
Tuyên bố chung của nhóm nhấn mạnh năng lực AI đang tiến rất nhanh, đưa nhân loại đến gần thế giới nơi AI có thể đạt và vượt trí tuệ con người. Các chuyên gia đồng ý những hệ thống như vậy có khả năng xuất hiện trong vài thập niên tới hoặc có thể sớm hơn. Nếu con người mất kiểm soát, hay các hệ thống này bị lạm dụng, hậu quả có thể là thảm họa cho toàn nhân loại. Trong khi đó, khoa học cần kiểm soát và bảo vệ việc sử dụng trí tuệ tiên tiến vẫn chưa được phát triển đầy đủ. Vì rủi ro AI mang tính toàn cầu, an toàn AI phải được nhìn nhận như lợi ích công toàn cầu, đòi hỏi quản trị toàn cầu. Từ đồng thuận ấy, nhóm đưa ra ba khuyến nghị chính.
Thiết chế chuẩn bị khẩn cấp
Khuyến nghị đầu tiên, các quốc gia cần đạt thỏa thuận về những biện pháp kỹ thuật và thể chế để chuẩn bị cho các hệ thống AI tiên tiến, bất kể chúng xuất hiện nhanh hay chậm. Muốn vậy, cần cơ quan quốc tế tập hợp các cơ quan an toàn AI, thúc đẩy đối thoại và hợp tác trong xây dựng,kiểm toán, các quy định an toàn AI ở nhiều khu vực pháp lý.
Cơ quan này bảo đảm các nước áp dụng và thực thi bộ biện pháp chuẩn bị an toàn tối thiểu nhưng hiệu quả, gồm đăng ký mô hình, công bố thông tin và các ngưỡng cảnh báo kỹ thuật (tripwire) cho thấy hệ thống có thể bước vào vùng rủi ro. Theo thời gian, cơ quan này cũng có thể đặt tiêu chuẩn và dùng phương pháp xác minh nhằm bảo đảm việc thực thi trong nước của Khung Bảo đảm An toàn.
Các tiêu chuẩn có thể được thực hiện thông qua cơ chế khuyến khích và trừng phạt, chẳng hạn gắn quyền tiếp cận thị trường với việc tuân thủ chuẩn toàn cầu. Chuyên gia và cơ quan an toàn cần thiết lập cơ chế báo cáo sự cố, kế hoạch ứng phó khẩn cấp, đồng thời cập nhật thường xuyên danh sách thực hành qua kiểm chứng theo hiểu biết khoa học mới nhất. Đây là cơ chế phối hợp ban đầu. Về dài hạn, các quốc gia cần tiến xa hơn, xây dựng quản trị toàn cầu thực sự đối với rủi ro từ AI tiên tiến.
Khung bảo đảm an toàn
Khuyến nghị thứ hai, các nhà phát triển AI phải chứng minh với cơ quan trong nước hệ thống họ phát triển không vượt các “lằn ranh đỏ”, theo đồng thuận IDAIS-Beijing, gồm cấm phát triển AI có thể tự nhân bản, tự cải thiện, tìm kiếm quyền lực, lừa dối người tạo ra, hoặc cho phép chế tạo vũ khí hủy diệt hàng loạt và tiến hành tấn công mạng.
Để thực hiện, cần thêm đồng thuận khoa học về rủi ro và lằn ranh đỏ. Đồng thời, phải đặt các ngưỡng cảnh báo sớm: mức năng lực cho thấy một mô hình có thể vượt hoặc tiến gần tới lằn ranh đỏ. Cách tiếp cận này kế thừa các cam kết tự nguyện hiện có, như chính sách mở rộng có trách nhiệm. Mô hình dưới ngưỡng cảnh báo sớm chỉ cần kiểm thử và đánh giá hạn chế; các hệ thống vượt ngưỡng phải chịu cơ chế bảo đảm nghiêm ngặt hơn.
Kiểm thử có thể cảnh báo rủi ro, nhưng chỉ cung cấp hiểu biết thô về mô hình, không đủ bảo đảm an toàn cho AI tiên tiến. Vì vậy, nhà phát triển cần nộp “hồ sơ an toàn” có độ tin cậy cao, chứng minh thiết kế hệ thống có xác suất gây hại thấp theo cách minh bạch và có thể giải thích, tương tự thực hành trong các ngành kỹ thuật có yêu cầu an toàn cao. Với hệ thống đủ tiên tiến, hồ sơ cũng phải nêu quy trình tổ chức, gồm cơ chế khuyến khích và trách nhiệm giải trình nhằm ưu tiên an toàn.
Kiểm thử trước triển khai vẫn chưa đủ. AI tiên tiến có thể tham gia những tương tác đa tác nhân phức tạp với hệ thống AI khác và người dùng, tạo ra rủi ro mới khó dự báo. Vì vậy, giám sát sau triển khai là phần thiết yếu: đánh giá tự động liên tục hành vi mô hình, xây dựng cơ sở dữ liệu tập trung về sự cố AI, báo cáo việc tích hợp AI trong các hệ thống trọng yếu, và kiểm tra trong lúc vận hành nhằm xác minh các giả định an toàn vẫn đúng. Nếu mô hình hoạt động ngoài phạm vi dự kiến, cần được tắt an toàn.
Nhà nước có vai trò then chốt. Các quốc gia nên buộc nhà phát triển kiểm thử định kỳ năng lực, đồng thời bảo đảm minh bạch qua kiểm toán độc lập trước triển khai bởi bên thứ ba có đủ quyền tiếp cận nhân sự, hệ thống và hồ sơ. Với mô hình vượt ngưỡng cảnh báo sớm, nhà nước có thể yêu cầu chuyên gia độc lập phê duyệt hồ sơ an toàn trước khi huấn luyện tiếp. Nhà nước cũng có thể thiết lập chuẩn đạo đức cho kỹ sư AI, tương tự nghĩa vụ bảo vệ lợi ích công của bác sĩ hay luật sư. Dù mỗi quốc gia có thể có khung an toàn riêng, nhưng cần hợp tác để các khung được công nhận và có thể so sánh.
Nghiên cứu độc lập và xác minh toàn cầu
Khuyến nghị thứ ba, phát triển nghiên cứu độc lập về an toàn và xác minh AI. Đây là điều kiện tạo ra kỹ thuật bảo đảm an toàn cho các hệ thống AI tiên tiến. Các quốc gia, nhà từ thiện, doanh nghiệp và chuyên gia cần hỗ trợ nghiên cứu toàn cầu độc lập thông qua Quỹ An toàn và Xác minh AI Toàn cầu. Về lâu dài, các quỹ này nên đạt quy mô tương đương 1/3 tổng chi cho nghiên cứu và phát triển AI.
Ngoài nghiên cứu nền tảng về an toàn AI, các quỹ này tập trung phát triển phương pháp xác minh an toàn và bảo vệ quyền riêng tư, giúp quản trị trong nước và hợp tác quốc tế khả thi hơn, cho phép quốc gia kiểm tra đáng tin cậy kết quả đánh giá của nhà phát triển AI, cũng như xác minh các biện pháp giảm thiểu rủi ro trong hồ sơ an toàn có thật sự được áp dụng hay không. Trong tương lai, những phương pháp này có thể giúp quốc gia xác minh tuyên bố an toàn của quốc gia khác, gồm tuân thủ Khung Bảo đảm An toàn và khai báo các đợt huấn luyện lớn.
Xác minh toàn diện dựa trên nhiều lớp: quản trị bên thứ ba, như kiểm toán độc lập; phần mềm, như dấu vết kiểm toán; và phần cứng, như cơ chế xác minh tích hợp trong chip AI. Để tạo niềm tin toàn cầu, cần hợp tác quốc tế trong phát triển và kiểm tra sức chịu đựng của các phương pháp xác minh. Điều quan trọng, bất chấp căng thẳng địa chính trị, các phương pháp xác minh được tin cậy toàn cầu từng giúp các quốc gia cam kết với thỏa thuận quốc tế có thể tiếp tục được sử dụng hiệu quả.
Tương tự thách thức vũ khí hạt nhân trong Chiến tranh Lạnh, khoảng cách lớn đang hình thành giữa các nhà khoa học nền tảng, những người đầu tiên phát triển công nghệ và hiểu rõ nhất nguy cơ lạm dụng, với các lực lượng mở rộng và triển khai công nghệ vì mục đích riêng hoặc lợi nhuận.
Trong khi lo ngại an ninh quốc gia leo thang ở khắp nơi trên thế giới, hàng chục tỷ USD vẫn được Big Tech rót vào AI. Vì vậy, động lực phát triển AI dần nghiêng về phía những chủ thể tham vọng và ít thận trọng nhất. Trong thế mất cân bằng ấy, chỉ trọng lượng đạo đức của nhóm các nhà khoa học độc lập và hiểu cốt lõi công nghệ, mới có cơ hội điều chỉnh hướng đi.
shared via noema,



