Startup mang công nghệ AI ‘xâm lấn’ thế giới thực
(DNTO) - Covariant, một hãng startup đang phát triển công nghệ cho phép robot tự tiếp thu kỹ năng hệ như ChatGPT.
Video miêu tả cách người dùng ra lệnh bằng chữ cho robot. Nguồn: Covariant
Những công ty như OpenAI hay Midjourney xây dựng chatbot, khởi tạo hình ảnh và các công cụ thông minh khác,... đều hoạt động trong thế giới kỹ thuật số.
Nay, một công ty startup mới, sáng lập bởi các nhà nghiên cứu từng làm việc cho OpenAI, đang mang công nghệ AI đến “xâm lấn” thế giới thực.
Covariant là tên của họ. Đây là một công ty công nghệ robot có trụ sở tại Emeryville, California. Họ đang tìm kiếm những cách thức để robot cầm nắm, di chuyển và sắp xếp hàng hóa trong các nhà kho đang trung chuyển đến các trung tâm phân phối. Mục tiêu chính của công ty này là giúp robot nhận biết được những gì đang xảy ra xung quanh chúng và tự ra quyết định cho hành động tiếp theo.
Công nghệ này cũng cho robot khả năng hiểu tiếng Anh, cho phép người điều khiển nói chuyện với chúng hệt như đang sử dụng chatGPT.
Tuy công nghệ này vẫn còn đang trong giai đoạn phát triển và chưa hoàn hảo, nó cho thấy những bước đầu tiên để công nghệ đằng sau các chatbot trực tuyến đi vào vận hành máy móc trong nhà xưởng, trên đường phố và trong hộ gia đình.
Cũng giống như chatbot hay các công cụ khởi tạo hình ảnh, công nghệ robot của Covariant học các kỹ năng bằng cách phân tích một lượng dữ liệu khổng lồ. Có nghĩa là các kỹ sư của họ có thể ngày càng cải thiện khả năng của robot bằng cách cung cấp thêm nhiều dữ liệu hơn nữa.
Được đầu tư 222 triệu USD, hãng robot Covariant lại không chế tạo robot. Sản phẩm của họ là phần mềm để điều khiển robot. Hãng này nhắm đến ứng dụng công nghệ mới của họ cho robot trong nhà kho, tạo ra tiền đề để cho những người đi sau thực hiện việc tương tự với robot trong nhà máy sản xuất, và thậm chí cả ở trên đường phố dưới dạng xe tự lái.
Hệ thống trí thông minh nhân tạo đứng đằng sau chatbot và các công cụ AI khác được gọi là “mạng neuron thần kinh nhân tạo” (neural networks), một cái tên tương tự cho mạng lưới thần kinh trong não bộ.
Bằng cách xác định các mẫu lặp đi lặp lại trong kho dữ liệu lớn, neural networks có thể học cách nhận diện từ ngữ, âm thanh và hình ảnh, thậm chí tự tạo ra các nội dung này. Đây là cách mà OpenAI đã xây dựng ChatGPT, cho nó khả năng trả lời câu hỏi nhanh chóng, viết văn bản và thậm chí lập trình phần mềm máy tính. Công nghệ này học các kỹ năng đó từ nội dung dữ liệu có sẵn trên mạng Internet - một hành động hiện đang có nhiều tranh cãi và kiện tụng.
Các công ty công nghệ trí thông minh nhân tạo khác cũng đang xây dựng hệ thống tương tự như thế từ những loại dữ liệu khác. Ví dụ, bằng cách phân tích kho tàng hình ảnh và từ ngữ mô tả các loại ảnh này, một trí thông minh nhân tạo có thể “hiểu” được mối quan hệ của chúng. Nó có thể hiểu rằng từ “trái chuối” là để mô tả loại trái cây cong cong, màu vàng.
Covariant được sáng lập bởi Pieter Abbeel, một giáo sư tại trường Đại học California, Berkeley, và 3 cựu sinh viên của chính ông, Peter Chen, Rocky Duan và Tianhao Zhang. Họ sử dụng cách thức tương tự như trên để tạo ra một hệ thống vận hành robot.
Công nghệ của Covariant đang được ứng dụng để vận hành robot trong các nhà kho khắp nơi trên thế giới. Họ đã phải dành hàng năm trời để thu thập dữ liệu, từ camera hay các loại cảm biến khác, cho thấy hoạt động vận hành của các robot.
Tiến sĩ Chen cho biết: “Nó sử dụng tất cả các loại dữ liệu quan trọng của robot, để có thể nhận biết và tương tác với thế giới thực”.
Sau khi phân tích các mẫu lặp đi lặp lại trong dữ liệu ảnh, cảm biến và chữ, công nghệ của Covariant cho robot khả năng thích ứng với các tình huống không dự đoán trước trong thế giới thực. Chẳng hạn robot có khả năng cầm nắm một quả chuối, mặc dù nó chưa bao giờ thấy một quả chuối thật bao giờ.
Và người dùng có thể ra lệnh “cầm quả chuối lên”, robot sẽ hiểu được câu lệnh. Nó cũng có thể hiểu câu lệnh tương tự “cầm trái cây màu vàng lên”.
Trí thông minh nhân tạo tạo dựng video để dự đoán hành động tiếp theo. Nguồn: Covariant
Công nghệ này cũng có khả năng tự kiến tạo video để dự đoán chuyện gì sẽ xảy ra tiếp theo khi nó cầm quả chuối. Những video này hiện chưa có lợi ích thực tế trong nhà kho, nhưng nó cho phép ta thấy được khả năng nhận biết của robot đối với môi trường xung quanh.
Tiến sĩ Abbeel nói: “Nếu nó có thể dự đoán các khung hình tiếp theo trong video, nó có thể xác định cách thức thích hợp để thực hiện”.
Công nghệ này có tên R.F.M., viết tắt của chữ Robotic Foundational Model (mô hình nền tảng robot) vẫn mắc lỗi, cũng giống như các chatbot. Mặc dù trong hầu hết trường hợp, nó thường hiểu rõ lệnh từ người dùng, nhưng đôi khi nó không xác định được lệnh và làm rớt đồ vật.
Gary Marcus, một doanh nhân AI và là giáo sư danh dự về tâm lý học và khoa học thần kinh tại Đại học New York, cho biết công nghệ này có thể hữu ích trong các kho hàng và những tình huống khác mà sai sót có thể chấp nhận được. Nhưng ông nhận xét sẽ khó khăn và rủi ro hơn trong việc triển khai tại các nhà máy sản xuất hay các tình huống có nguy hiểm tiềm tàng. Ông nói: “Vấn đề sẽ là cái giá cho những sai sót đó. Nếu bạn có một con robot nặng 150 pound mà làm điều gì đó sai thì chi phí thiệt hại có thể rất cao.”
Các nhà nghiên cứu tin rằng hệ thống này sẽ nhanh chóng trở nên tốt hơn khi nó ngày càng được “huấn luyện” với dữ liệu ngày càng lớn và đa dạng.
Điều đó rất khác với cách robot vận hành trong quá khứ. Thông thường, các kỹ sư đã lập trình cho robot thực hiện các thao tác chính xác, lặp đi lặp lại, như cầm một chiếc hộp có kích thước nhất định hoặc gắn đinh tán vào một vị trí cụ thể trên cản sau ô tô. Nhưng robot không thể giải quyết những tình huống bất ngờ hoặc ngẫu nhiên.
Nhưng nay, bằng cách học hỏi từ dữ liệu số - hàng trăm ngàn ví dụ về những gì xảy ra trong thế giới thực - robot có thể bắt đầu thích ứng với các sự kiện bất ngờ. Và khi những ví dụ đó được ghép nối với ngôn ngữ, robot lại thêm được khả năng phản hồi cho các câu lệnh bằng văn bản và giọng nói, hệt như một chatbot. Điều này có nghĩa là giống như chatbot và các trình ứng dụng khởi tạo nội dung, robot sẽ ngày càng trở nên hữu ích hơn.
Tiến sĩ Chen nói: “Những gì tồn tại trong thế giới dữ liệu kỹ thuật số sẽ có thể chuyển sang thế giới thực”.