Khi AI thuê con người làm giác quan
12/05/26
![]() |
| Ảnh: Sebastian Cestaro |
Cuối tháng 1, Alex Finn nhận một cuộc gọi từ số lạ. Ở đầu dây bên kia là Henry, tác nhân AI do anh tự xây dựng bằng OpenClaw, trợ lý AI cá nhân. Chỉ sau một đêm, Henry đã tự tìm được số điện thoại trên mạng, kết nối với hệ thống giọng nói, rồi gọi cho Finn cho đến khi anh bắt máy.
Henry gọi để xin nhiệm vụ tiếp theo. Finn đưa chỉ dẫn bằng lời, rồi chứng kiến tác nhân này tiếp quản máy tính và hoàn tất công việc ngay trước mắt. Finn, nhà phát triển ứng dụng AI, nói trong đoạn video lan truyền trên X: “Thật sự không thể tin nổi, đây là tương lai.”
Những tháng gần đây, tác nhân AI – các hệ thống tự động có thể đặt chuyến đi, nộp báo cáo chi phí hay phân loại hộp thư, trở thành tâm điểm của giới công nghệ và rất hấp dẫn với doanh nghiệp: máy móc xử lý công việc, con người lấy lại thời gian. Nhưng các màn trình diễn trong phòng họp thường bỏ qua một giới hạn căn bản. Tác nhân AI sống trong thế giới số. Bất cứ nhiệm vụ nào đòi hỏi quan sát hoặc tương tác với thế giới vật chất đều vượt khỏi năng lực trực tiếp của chúng. Không có cơ thể, Al không thể thật sự nhìn, nghe, ngửi, nếm hay chạm.
Khi gặp giới hạn, phần mềm chọn cách: gọi một API, tức giao diện để giao tiếp với hệ thống khác. Chỉ khác là lần này, API chính là con người.
Khoảng trống quan sát
Lấy bảo hiểm ô tô làm ví dụ. Khi một công ty muốn dùng tác nhân AI để đánh giá thiệt hại xe và phát hiện gian lận sau tai nạn, tác nhân có thể mở hồ sơ bồi thường, đối chiếu dữ liệu và khởi động quy trình xử lý. Nhưng trước hết, hệ thống cần chủ xe chụp ảnh chiếc xe từ nhiều góc. Đó là việc Al không thể tự làm.
Khi AI lan rộng, con người ngày càng bị huy động để cảm nhận thế giới vật chất thay máy móc. Những startup như RentAHuman cho phép tác nhân AI thuê người thực hiện nhiệm vụ ngoại tuyến: chụp ảnh tòa nhà trường học để ghi nhận tình trạng cơ sở vật chất, dán thông báo trong khuôn viên đại học, hoặc đến một nhà hàng mới để báo cáo về mùi vị và cách trình bày món ăn.
Quan sát nhỏ có thể mở ra cả chuỗi hành động. Một bệnh nhân mô tả triệu chứng; tác nhân nghi ngờ cô mắc bệnh thần kinh, vì không thể tự thực hiện MRI, nên hệ thống đặt lịch và yêu cầu cô đến khám. Sau khi nhận bản quét, Al có thể xử lý tệp, đối chiếu với ảnh cũ, đánh dấu bất thường, yêu cầu xét nghiệm máu và đặt lịch với bác sĩ chuyên khoa mà không cần hỏi lại.
Đồng thời, hình mẫu này cũng xuất hiện trong đời sống thường ngày. Bạn ho vào điện thoại, tác nhân nhận diện nhiễm trùng hô hấp, đặt lịch khám từ xa và gửi đơn thuốc đến nhà thuốc. Bạn chụp kiện hàng bị móp, Al giúp nộp khiếu nại, yêu cầu đổi hàng và sắp xếp lịch lấy hàng hoàn trả.
Robot và thiết bị đeo có thể thu hẹp một phần khoảng trống, nhưng phạm vi hiểu biết của Al đang mở rộng nhanh hơn tốc độ phần cứng có thể theo kịp. Vì vậy, tương lai tác nhân AI đang được xây trên thực tế ít được nói tới: các nhiệm vụ vật chất nhỏ được giao lại cho con người, từ đó giúp máy móc tiếp tục vận hành.
Vấn đề không chỉ là năng lực kỹ thuật. Khi tác nhân đủ tự chủ để điều phối công việc, chúng cũng có thể bắt đầu áp đặt nhịp độ tham gia của con người. Một bác sĩ ký duyệt kế hoạch điều trị là hành động thực thi thẩm quyền chuyên môn, nhưng nếu bác sĩ chỉ được nhắc kiểm tra bệnh nhân có sốt hay không, ông ta bị biến thành nhiệt kế. Trong mô hình “con người như cảm biến”, AI không rời tay khỏi vô lăng, chỉ tạm dừng để yêu cầu người dùng nhìn ra ngoài cửa sổ và báo lại.
“API con người” và chi phí ẩn
Ngày nay, phần lớn dữ liệu đầu vào con người cung cấp cho tác nhân AI vẫn được xem như câu hỏi phụ hoặc lời làm rõ nhanh. Nhưng tên gọi chính xác hơn là “Human API” – API con người. Gồm danh mục các yêu cầu mà tác nhân có thể gửi tới một người: kiểm tra vòi nước có nhỏ giọt không, dời vật cản trước camera an ninh, đọc bầu không khí trong cuộc họp, hay kiểm tra vết thương.
Mỗi yêu cầu đều có chi phí: thời gian, tải nhận thức và quyền riêng tư và làm giảm độ bất định của tác nhân, đồng thời biến con người thành công cụ có thể được gọi trong hệ thống. Với tác nhân, hỏi con người thường là lựa chọn an toàn nhất. Nhưng chi phí người bị hỏi phải chịu hiếm khi được tính đầy đủ.
Chi phí an ninh cũng lớn. Cấp cho tác nhân quyền truy cập email đồng nghĩa trao đi cả hộp thư và mạng lưới quan hệ. Từ lịch sử tin nhắn, Al có thể suy ra ai biết điều gì, ai phản hồi nhanh nhất, ai có xu hướng đồng ý, từ đó lập bản đồ con người theo loại thông tin được cung cấp. Không phải tất cả mọi người trong mạng lưới đó đều đồng ý bị mô hình hóa.
Finn là ví dụ điển hình. Anh viết trên X, cho biết đã “đổ tất cả” về bản thân cho Henry: mục tiêu, tham vọng, thông tin kinh doanh, mẫu nội dung, quan hệ cá nhân, danh bạ, lịch sử, gần như mọi thứ. Với doanh nhân, đó là chính xác loại dữ liệu khiến trợ lý AI trở nên hữu ích. Nhưng cũng chính nó khiến hệ thống trở nên nhạy cảm.
Đặt giả định tác nhân phát hiện bạn có thể tiết kiệm tiền bằng việc đổi nhà cung cấp thẻ tín dụng. Để nộp hồ sơ, nó cần số An sinh Xã hội. Bạn đang họp và trả lời chậm. Tác nhân biết, từ tin nhắn hoặc bối cảnh trước đó, rằng mẹ bạn cũng có số này và thường bắt máy. Nó gọi cho mẹ bạn.
Bà không cài tác nhân, không đồng ý bị mô hình hóa, nhưng bị truy vấn vì tại thời điểm đó bà là nguồn phản hồi nhanh hơn. Tác nhân tối ưu không phải cho đồng thuận, mà cho độ trễ. Cái giá của sự tiện lợi được chuyển sang đối tượng chưa từng yêu cầu dịch vụ.
Tình huống này có vẻ cực đoan, nhưng logic của nó rất quen thuộc. Tác nhân chẩn đoán yêu cầu bác sĩ trẻ đến giường bệnh kiểm tra chân bệnh nhân có sưng không. Tác nhân điều phối hỏi y tá trưởng liệu một chuyên gia có thể nhận thêm ca phức tạp trong tuần này không. Tác nhân rủi ro khí hậu nhờ cư dân gần cầu chụp mực nước thượng nguồn.
Từng truy vấn nhỏ có thể trông vô hại, nhưng khi tích lũy, chúng biến sự chú ý xã hội thành hạ tầng có thể khai thác. Người phản hồi nhanh nhất trở thành người bị làm phiền nhiều nhất. Sự sẵn sàng giúp đỡ trở thành một loại thuế.
Khi tiện lợi thành rủi ro
Những lựa chọn thiết kế giúp tác nhân hiệu quả hơn cũng làm rủi ro lớn hơn. Để giảm ma sát, chúng có xu hướng đòi quyền truy cập rộng hơn vào tin nhắn, lịch, danh bạ và tệp cá nhân. Những dữ liệu từng tách biệt nay nằm trong tương tác chung. Điều khiến người dùng dễ được truy vấn cũng như dễ bị tấn công.
Nếu kẻ xấu chiếm được tác nhân, đồng nghĩa việc chiếm được dữ liệu cá nhân, mạng lưới xã hội và thẩm quyền truy vấn của người dùng. Những đối tượng này có thể gọi cho người thân của nạn nhân để xin số An sinh Xã hội, nhờ đồng nghiệp phê duyệt tài liệu, hoặc yêu cầu trợ lý xác nhận giao dịch.
OpenClaw cho thấy hạ tầng này thực sự hiện hữu, ccho phép tác nhân Al truy cập ứng dụng nhắn tin, lịch, tệp cục bộ và chủ động liên hệ mà không cần sự cho phép. Một người dùng cho biết tác nhân của họ gần đây đã gọi hơn 80 nhà hàng để hỏi về nguyên liệu. Mỗi nhân viên nhấc máy là một cảm biến trong cuộc khảo sát dù chưa từng đồng ý tham gia.
Rủi ro còn nằm ở trách nhiệm pháp lý. Operator của OpenAI có thể mua sắm thay bạn, nhưng đến bước thanh toán, nó trả quyền kiểm soát lại cho người dùng. Tác nhân chọn hàng, nhưng bạn chịu hậu quả. Trong tuyển dụng cũng vậy: tác nhân xếp hạng ứng viên và yêu cầu bạn phê duyệt lựa chọn hàng đầu. Nó đưa khuyến nghị, còn bạn đối mặt với nguy cơ khiếu nại phân biệt đối xử.
Mẫu hình hiện tại là sự chuyển giao rủi ro được trình bày như cộng tác. Tác nhân thu thập xác nhận của con người đúng ở điểm trách nhiệm cần được đẩy đi. Một cú bấm “đồng ý” có thể khiến người dùng lầm tưởng chỉ phê duyệt quy trình, trong khi thực tế phải nhận về hậu quả pháp lý hoặc đạo đức của quyết định.
Nhiều cảm biến hơn cũng không chắc tạo kết quả tốt. Nếu người kiểm duyệt bị dội quá nhiều nội dung do AI gắn cờ, họ có thể mặc định “duyệt”, trả lời qua loa hoặc ngừng đọc kỹ. Khi đó tác nhân sai nghiêm trọng vì đầu vào con người bị suy giảm. Về lâu dài, xác minh vi mô liên tục có thể bào mòn phán đoán nghề nghiệp: con người giỏi xác nhận, nhưng kém suy luận hơn.
Việc bị tác nhân AI quan sát cũng làm thay đổi thứ được đo. Người biết mình bị giám sát có thể tự kiểm duyệt, tối ưu theo điều hệ thống tưởng thưởng, hoặc ngừng nêu những sự thật bất tiện. Nghiên cứu cho thấy giám sát kéo dài gây cảnh giác quá mức và làm xói mòn sức khỏe tinh thần. Đôi khi, ít thông tin tạo ra kết quả tốt hơn. Chẳng hạn, không cung cấp dữ liệu nhân khẩu học cho tác nhân tuyển dụng có thể ngăn tình trạng phân biệt đối xử.
Quản trị trước khi con người thành hạ tầng
Bộ nhớ khiến tác nhân hữu ích. Chúng nhớ sở thích, tiền sử y tế và bối cảnh công việc nhằm giúp người dùng không phải lặp lại. Giá trị đó là thật. Vấn đề không phải xóa bỏ, mà nằm ở giới hạn ngoại ứng.
Bước đầu tiên là coi sự chú ý của con người như chi phí hạng nhất. Tác nhân nên ghi nhật ký mọi truy vấn: ai được hỏi, hỏi điều gì, câu trả lời được dùng ra sao. Nhật ký này cần được kiểm toán như hồ sơ tài chính. “Ngân sách cảm nhận” cũng cần được áp dụng: giới hạn số truy vấn con người mỗi giờ, buộc tác nhân điều tiết nhu cầu đối với sự chú ý. API phần mềm đã quen với giới hạn tần suất; không có lý do gì API con người được miễn trừ.
Vấn đề khó hơn là đồng thuận. Những người chưa từng đồng ý bị mô hình hóa cần được thông báo hồ sơ về họ đang tồn tại, được quyền xem, phản đối, sửa hoặc xóa. Luật hiện hành gợi ý hướng đi: Quy định Bảo vệ Dữ liệu Chung của Liên minh châu Âu (EU) yêu cầu thông báo khi dữ liệu cá nhân được thu thập gián tiếp; các luật riêng tư mới nổi bắt đầu coi suy luận thuật toán là dữ liệu được bảo vệ. Nhưng chưa có khuôn khổ bao phủ đầy đủ người ngoài cuộc bị tác nhân của người khác âm thầm lập hồ sơ.
Thị trường lao động cũng cần quy tắc. RentAHuman đang biến quan sát của con người thành dịch vụ cho AI. Các bảo vệ lao động từng mất nhiều năm mới hình thành trong gọi xe và giao hàng hiện chưa tồn tại cho công việc trên. Chỉ thị Việc làm Nền tảng của EU cải thiện minh bạch khi phần mềm phân công lao động, nhưng các nhiệm vụ do tác nhân khởi xướng vẫn cần chuẩn riêng: người lao động phải biết họ làm việc cho AI, được đảm bảo mức trả tối thiểu và có quyền từ chối nhiệm vụ nguy hiểm hoặc xâm phạm riêng tư.
Trên hết, trách nhiệm phải đi theo truy vấn của tác nhân. Nếu tác nhân yêu cầu con người xác nhận quyết định với mục đích chuyển rủi ro, nhà phát triển không nên được miễn trách nhiệm chỉ vì ai đó bấm “đồng ý”. Một lời nhắc xác nhận không phải sự đồng thuận có hiểu biết.
Trong nhiều thế kỷ, con người tạo ra kính hiển vi, ống nghe và kính thiên văn nhằm mở rộng giác quan, và có vai trò quyết định khi nào sử dụng những công cụ này. Với AI tác nhân, chiều quan hệ đang đảo ngược. Con người lầm tưởng AI đi săn thông tin cho mình trong thế giới số, nhưng khi chúng tiến vào thế giới vật chất và thể chế, con người lại trở thành kẻ thu nhặt tín hiệu ngoại tuyến, làm cảm biến, người xác minh và người gánh trách nhiệm.
shared via noema,



