Ứng viên Figure 02 gánh vác Bản mô tả công việc (JD) bốc vác với bộ não OpenAI. Tuy nhiên, dữ liệu thực chiến cho thấy cỗ máy này hoàn toàn “mù và điếc” trước tiếng ồn 90 decibel và tự che khuất tầm nhìn khi bưng bê vật tư.
Đánh giá Năng lực: Xử lý Tại Biên và Ảo mộng Giao tiếp Giọng nói
Khi tuyển dụng một “nhân sự robot” hình người, thứ chúng ta kỳ vọng không phải là một cỗ máy học vẹt theo tọa độ tĩnh, mà là khả năng tự suy luận. Bộ não của Figure 02 được vận hành bởi Mô hình Thị giác – Ngôn ngữ – Hành động (VLA – Vision-Language-Action), cho phép nó chuyển đổi trực tiếp dữ liệu điểm ảnh (pixel) thành lực mô-men xoắn ở các khớp.


Để tránh thảm họa về độ trễ mạng đám mây, ứng viên này không tải dữ liệu lên server để suy luận. Nó được nhồi khối điện toán xử lý tại biên (Edge Compute) với cụm GPU NVIDIA RTX kép ngay trong lồng ngực. Kiến trúc này giúp duy trì vòng lặp kiểm soát động học ở tần số 200 Hz, cho phép robot phản ứng tức thời nếu vật thể bị trượt.
Điểm được truyền thông tung hô nhiều nhất của ứng viên này là cú bắt tay với OpenAI để tích hợp hệ thống nhận dạng giọng nói. Hãng quảng cáo rằng Figure 02 có khả năng “nghe – hiểu – phản hồi” qua giọng nói (Speech-to-speech) thông qua hệ thống micro tích hợp. Thế nhưng, liệu bộ não AI này có thực sự xuất chúng, hay chỉ là một tính năng trình diễn vô dụng khi bước ra khỏi phòng thí nghiệm cách âm?
Kiểm thử Thực chiến & Điểm mù: “Mù Tự Thân” và “Điếc Âm Học”
Đưa Figure 02 vào xưởng dập của BMW Spartanburg chính là cú tát vật lý làm thức tỉnh những nhà phát triển AI. Hệ thống cảm biến của ứng viên này bộc lộ những điểm mù chí mạng gây ảnh hưởng trực tiếp đến Thời gian chu kỳ (Cycle Time).


Thứ nhất là căn bệnh “điếc âm học“. Xưởng dập ô tô hoạt động với mức độ ồn nền liên tục ở ngưỡng 80 đến 90 dB (decibel). Các hệ thống nhận dạng giọng nói tự động (ASR – Automatic Speech Recognition) như Whisper của OpenAI yêu cầu Tỷ lệ tín hiệu trên nhiễu (SNR – Signal-to-Noise Ratio) phải có môi trường âm thanh sạch. Khi SNR tụt xuống dưới 10 dB giữa xưởng máy, bộ micro của robot hoàn toàn bất lực trong việc bóc tách lệnh của con người khỏi tiếng ồn. Tính năng giao tiếp giọng nói vỡ vụn và bị vô hiệu hóa hoàn toàn trên mặt sàn sản xuất thực tế.
Thứ hai là điểm mù thị giác. Figure 02 loại bỏ cảm biến đo khoảng cách bằng ánh sáng (LiDAR – Light Detection and Ranging) để dựa 100% vào hệ thống 6 camera quang học (RGB Cameras). Để ngăn chặn tình trạng vỏ kim loại của tay chân robot hắt sáng làm chói lóa chính camera của mình, hãng đã phải sơn phủ toàn bộ cỗ máy bằng một lớp sơn đen nhám (matte black finish).
Tuy nhiên, thủ thuật vật lý này vô dụng trước rào cản “mù tự thân” (Self-occlusion). Khi robot ôm một tấm thép lớn trước ngực để giữ trọng tâm, chính tấm thép đó đã che khuất toàn bộ tầm nhìn của cụm camera phía dưới bụng. Nó buộc phải đi lại bằng trí nhớ thông qua thuật toán Lập bản đồ và định vị đồng thời (SLAM – Simultaneous Localization and Mapping). Khi phải xử lý dữ liệu để mò mẫm trong điểm mù, hệ thống VLA thường xuyên gặp phải các gai độ trễ (Latency spikes), tạo ra những khoảng khựng (micro-stutters) trong chuyển động, đẩy rủi ro rơi rớt vật tư lên cao.
Bài toán Năng suất: Trả Giá Cho Thuật Toán Chưa Hoàn Thiện
Sự thật phũ phàng là doanh nghiệp đang phải trả tiền cho một bộ não AI không thể sử dụng hết 100% công suất trong môi trường công nghiệp nặng. Việc bị “mù và điếc” một phần trong ca làm việc khiến Figure 02 không thể đạt ngưỡng tự trị hoàn toàn.
Lúc này, Tương tác Người – Máy không còn là việc đứng hò hét ra lệnh cho robot như quảng cáo. Bản mô tả công việc của con người phải thay đổi. Thay vì dùng sức người để khuân vác, nhà máy phải bố trí những chuyên gia trực chiến để xử lý hậu quả ở các ca biên (Edge cases) mỗi khi thuật toán SLAM của cỗ máy mất phương hướng và báo lỗi.
Tầm nhìn 2030: Chuỗi cung ứng tự vận hành
Đến năm 2030, chúng ta có quyền kỳ vọng vào những Lõi AI đa phương thức có khả năng lọc nhiễu chủ động (Active noise cancellation) ở môi trường công nghiệp tĩnh, và hệ thống camera thấu thị vượt qua rào cản vật lý. Còn hiện tại, bộ não của Figure 02 mới chỉ dừng lại ở mức thu thập dữ liệu thô tốn kém.
Cụm bài phân tích robot hình người Figure 02
- Bài 1: Đánh giá Hiệu năng Robot Hình người: Sự thật Kỹ thuật từ Figure 02 tại BMW
- Bài 2: Phẫu Thuật Phần Cứng Figure 02: Sự Thật Về Tải Trọng 20kg Và Hao Hụt kWh
- Đang đọc bài 3: Đánh giá Lõi AI Figure 02: Khi Mô hình Ngôn ngữ “Mù Điếc” Tại Xưởng BMW
- Bài 4: Đánh giá Tỷ suất Hoàn vốn (ROI) Figure 02: Cú Sốc CAPEX Và Rào Cản Tích Hợp

