Google và OpenAI đã tiết lộ các công cụ mới để đưa “hệ thống thông minh” tiến gần hơn đến hiện thực, đánh dấu một cột mốc quan trọng cho trí tuệ nhân tạo tái sinh (generative AI). Tại trụ sở chính của Google ở Mountain View, một cuộc trình diễn đầy màu sắc và có phần siêu thực đã giới thiệu những thành tựu mới nhất của công ty. Nhạc sĩ điện tử kiêm YouTuber Marc Rebillet tận dụng công cụ âm nhạc AI để tạo ra các bản hòa âm được đồng bộ hóa dựa trên các câu lệnh như “viola” và “808 hip-hop beat”. Rebillet mô tả trợ lý AI này là một bot (chương trình phần mềm) được cá nhân hóa giúp bạn làm việc, sáng tạo hoặc giao tiếp tốt hơn, thậm chí thay mặt người dùng tương tác với thế giới số.
Dòng sản phẩm mới này đã trở thành tâm điểm chú ý gần đây giữa một loạt các phát triển AI mới từ Google và công ty con AI DeepMind, cũng như OpenAI do Microsoft hậu thuẫn. Các công ty đồng thời công bố một loạt các công cụ AI được nâng cấp là “đa phương thức”, có nghĩa là chúng có thể diễn giải giọng nói, video, hình ảnh và mã trong một giao diện duy nhất và cũng có thể thực hiện các tác vụ phức tạp như dịch trực tiếp hoặc lập kế hoạch cho kỳ nghỉ gia đình.
Trong một video trình chiếu, trợ lý AI nguyên mẫu Astra của Google, được hỗ trợ bởi mô hình Gemini, đã phản hồi các lệnh thoại dựa trên phân tích những gì nó nhìn thấy qua camera điện thoại hoặc kính thông minh. Astra đã xác định thành công các chuỗi mã, đề xuất cải tiến cho sơ đồ mạch điện, nhận dạng khu vực King’s Cross của London thông qua ống kính camera và thậm chí còn nhắc nhở người dùng nơi họ để kính. Trong khi đó, tại buổi ra mắt sản phẩm của OpenAI, Giám đốc Công nghệ Mira Murati và các đồng nghiệp đã giới thiệu mô hình AI mới của họ, GPT4o, thực hiện dịch giọng nói theo thời gian thực và tương tác với người dùng bằng giọng điệu trò chuyện, phân tích văn bản, hình ảnh, video và mã.
Mặc dù trợ lý thông minh được hỗ trợ bởi AI đã được phát triển trong gần một thập kỷ, nhưng những tiến bộ gần đây cho phép tương tác bằng giọng nói mượt mà hơn và nhanh hơn cũng như mức độ hiểu vượt trội, nhờ vào các mô hình ngôn ngữ lớn (LLM). Hiện tại, một cuộc chạy đua mới đang diễn ra giữa các nhóm công nghệ để đưa các ứng dụng AI đến với người tiêu dùng. CEO Sundar Pichai tại Google mô tả chúng là “hệ thống thông minh” có thể lý luận, lập kế hoạch, ghi nhớ. Thậm chí, chúng còn có khả năng “suy nghĩ” trước nhiều bước, đồng thời xử lý trên phần mềm và hệ thống để hoàn thành nhiệm vụ.
Apple cũng được kỳ vọng sẽ là một nhân tố chính trong cuộc đua này, với những nâng cấp đáng kể cho trợ lý giọng nói Siri. Công ty đang tung ra các chip AI mới do công ty tự thiết kế, có khả năng cung cấp năng lượng cho các mô hình tạo ra trên thiết bị. Bên cạnh đó, Meta bắt đầu gia nhập đường đua với trợ lý AI trên Facebook, Instagram và WhatsApp tại hơn 10 quốc gia. Các công ty khởi nghiệp như Rabbit và Humane cũng đang cố gắng thâm nhập vào thị trường này bằng cách thiết kế các trợ lý AI độc lập.
Ông Mustafa Suleyman, CEO của Microsoft AI, nhấn mạnh rằng đây là thời điểm dành cho AI cá nhân. Trong bài phát biểu, tổng giám đốc điều hành chia sẻ: “Thung lũng Silicon luôn coi công nghệ là một tiện ích chức năng – hoàn thành mọi việc một cách hiệu quả và nhanh chóng. Nhưng bất ngờ thay những công cụ này hiện nằm trong phạm vi sáng tạo của những nhà sản xuất các sản phẩm điện tử. Công nghệ đã đủ phát triển để trở thành một loại đất sét mới mà tất cả chúng ta đều có thể sáng tạo ra những thứ mới dựa trên chúng”.
Trong gần một thập kỷ, các nhóm công nghệ đã cạnh tranh để đưa AI đến với người tiêu dùng thông qua các trợ lý ảo như Siri của Apple, Cortana của Microsoft và Alexa của Amazon, hiện được tích hợp trên nhiều thiết bị. Điển hình là Google đã ra mắt Trợ lý AI vào năm 2016 và Pichai đã hình dung về một thế giới hậu điện thoại thông minh, nơi trí thông minh nhân tạo hiện hữu trong mọi thứ, từ loa đến kính. Tuy nhiên, 8 năm sau, điện thoại thông minh vẫn duy trì tương tác người dùng với web là chính. Những thách thức như độ trễ (phản hồi chậm từ các tác nhân AI) và lỗi trong việc hiểu và thực hiện các hướng dẫn của con người đã cản trở việc áp dụng rộng rãi.
Sự xuất hiện vào năm 2017 của công nghệ chuyển đổi, vốn là cốt lõi của các chatbot như ChatGPT, Gemini và Claude, đã cải thiện đáng kể các công nghệ hỗ trợ các trợ lý AI, đặc biệt là trong xử lý ngôn ngữ tự nhiên. Để xây dựng các trợ lý AI được sử dụng rộng rãi, tốc độ là yếu tố quan trọng. Nhà phân tích công nghệ Ben Thompson lưu ý rằng khi các tương tác AI vượt qua ngưỡng tốc độ và độ trễ, chúng trở nên thú vị và hấp dẫn hơn là giống như một trò ảo thuật đầy sức cuốn hút. Bot chủ lực của OpenAI, GPT4o, cũng đã chứng minh được khả năng ấn tượng, dịch trôi chảy giữa tiếng Ý và tiếng Anh trong các cuộc trò chuyện thời gian thực với giọng điệu tự nhiên. Thompson nhấn mạnh rằng những cải tiến thực sự nằm ở trải nghiệm người dùng và sản phẩm ChatGPT thực tế, đóng vai trò quan trọng để giành chiến thắng trên sàn đấu công nghệ tiêu dùng.
Các kế hoạch của Apple cho AI đã thu hút sự quan tâm đáng kể của các nhà đầu tư, đặc biệt là khi giá cổ phiếu của công ty đã giảm trong năm nay so với Alphabet và Amazon. OpenAI đã công bố một thỏa thuận với Apple để tạo ra một ứng dụng máy tính cho dòng máy Mac. Nhà sản xuất iPhone dự đoán đang cân nhắc về các mối quan hệ đối tác với cả OpenAI và Google Gemini. Apple đang tuyển dụng các chuyên gia và đưa ra các bài báo nghiên cứu, cung cấp những hiểu biết hiếm có về quá trình làm việc trên các mô hình AI. Những người trong cuộc tin rằng lợi thế của Apple nằm ở lượng người dùng hiện tại khổng lồ của mình, với hơn 2.2 tỷ thiết bị đang hoạt động trên toàn thế giới.
Không kém cạnh, lợi thế của Google nằm ở bộ ứng dụng dành cho người tiêu dùng, từ email đến các công cụ lịch trình, nơi các tác nhân AI có thể được tích hợp liền mạch. Demis Hassabis, CEO của Google DeepMind, nhấn mạnh tầm nhìn dài hạn của công ty là xây dựng một tác nhân phổ biến và khái quát hữu ích trong cuộc sống hàng ngày. Hassabis đã hình dung ra các tác nhân có thể nhìn thấy và nghe thấy những gì chúng ta làm, hiểu rõ hơn bối cảnh người dùng và phản hồi nhanh chóng trong cuộc trò chuyện, khiến các tương tác trở nên tự nhiên hơn.
Bất chấp sự cạnh tranh, việc mở rộng quy mô trợ lý AI vẫn là một thách thức, với các vấn đề như độ chính xác trong việc tạo nội dung và phân phối công nghệ. Suleyman (Microsoft) lưu ý: “Đây là một thị trường cạnh tranh khốc liệt. Vấn đề phân phối và thương hiệu quan trọng – Apple và Google có lợi thế lớn theo nghĩa đó”. Ông thừa nhận khó khăn trong việc đạt được quy mô lớn như Gemini sau khi công ty start-up Inflection của ông chuyển từ tập trung vào người tiêu dùng sang mô hình doanh nghiệp.
Bret Taylor, chủ tịch hội đồng quản trị của OpenAI kiêm CEO của công ty start-up AI Sierra, coi việc thay thế các giao diện người dùng hiện tại là cơ hội cho nhiều công ty. Ông cho biết: “Trong những thay đổi lớn về công nghệ, các công ty khởi nghiệp có thể nổi bật và thành công vì hiện tại chưa chắc đã có công ty dẫn đầu thị trường”. Taylor nhấn mạnh rằng những thay đổi lớn về công nghệ mang đến cơ hội cho các công ty thành công mới nổi.
Nhà khoa học AI hàng đầu của Meta, Yann LeCun nhấn mạnh nhu cầu về các hệ thống AI đa dạng để mở rộng trợ lý AI ra ngoài các quốc gia riêng lẻ ở phương Tây. LeCun tuyên bố rằng trong tương lai, mọi tương tác với thế giới số sẽ thông qua trợ lý AI. Ông cho rằng các hệ thống AI này phải đa dạng và không chỉ được phát triển bởi các công ty ở bờ biển phía tây nước Mỹ.