Công nghệ

Startup LiveKit xây dựng mạng thần kinh nhân tạo cho AI

LiveKit cung cấp cơ sở hạ tầng mạng cho các startup như OpenAI và Character AI sử dụng để đảm bảo mô hình AI có thể tương tác với con người trên các định dạng âm thanh và hình ảnh.

Share
this:

Trong vài năm qua, các mô hình AI có những bước tiến nhảy vọt lớn về khả năng chuyển hình ảnh thành văn bản, nhưng những người tạo ra mô hình này có tầm nhìn xa hơn: giao diện AI “đa phương thức” có thể nhìn, nghe và nói chuyện với con người.

Nhưng để có thể thực hiện các tác vụ ấn tượng như kể chuyện cười và hát các bài hát, những mô hình như GPT- 4o của OpenAI yêu cầu hạ tầng mạng nhanh, hiệu quả hơn. Startup ba năm tuổi LiveKit đang cung cấp cơ sở hạ tầng mạng này, tuy nhiên công ty chưa được biết đến nhiều.

Russ D’Sa, đồng sáng lập kiêm CEO của LiveKit, nói: “Nếu OpenAI đang xây dựng bộ não thì LiveKit đang xây dựng hệ thần kinh để truyền tín hiệu đến và đi từ bộ não đó.”

Năm 2021, Russ D’Sa (trái) và David Zhao (phải) cùng sáng lập startup hạ tầng mạng để giúp nhà phát triển thêm khả năng âm thanh và video vào ứng dụng. Ảnh: LiveKit/ Forbes

Gần đây nhất là vào tháng 11.2023, D’Sa đã gặp khó khăn trong huy động vốn cho công ty khởi nghiệp của mình vì các nhà đầu tư cho rằng những mô hình đa phương thức này vẫn còn ít nhất 5 năm nữa mới có thể hoạt động được.

Niềm tin đó đã thay đổi chỉ trong vòng vài tháng khi cả Google và OpenAI đều trình diễn và phát hành mô hình AI mới có thể xử lý và tạo nội dung trên các định dạng âm thanh và hình ảnh.

D’Sa nói với Forbes: “Đột ​​nhiên nhiều nhà đầu tư nhắn tin cho tôi để hỏi về vòng gọi vốn này.”

Đến ngày 4.6, công ty thông báo đã huy động 22,7 triệu USD trong vòng gọi vốn series A do Altimeter Capital dẫn dắt với sự tham gia của Redpoint Ventures.

Ngoài ra, các nhà đầu tư thiên thần trong ngành AI, bao gồm Jeff Dean, giám đốc AI của Google, nhà đầu tư công nghệ Elad Gil và người sáng lập các startup AI nổi tiếng như Aravind Srinivas – CEO của Perplexity, Demi Guo – CEO của Pika và Mati Staniszewski – CEO của ElevenLabs cũng tham gia vòng gọi vốn.

Theo nguồn tin, LiveKit được định giá 110 triệu USD trong vòng gọi vốn này. Các công cụ của công ty hiện được khoảng 20.000 nhà phát triển tại những công ty như OpenAI, Character AI, Spotify và Meta sử dụng.

D’Sa cho biết cơ sở hạ tầng Internet hiện hữu không được tối ưu hóa để truyền dữ liệu đa phương tiện đến và đi từ mô hình AI. Vì vậy, các công ty cần cơ sở hạ tầng mạnh hơn.

LiveKit sử dụng giao thức truyền dẫn UDP cho phép các ứng dụng phát âm thanh và video mà không cần xác nhận từng dữ liệu. Phần giới thiệu công cụ của LiveKit đã thuyết phục Aravind Srinivas, CEO của Perplexity, đầu tư vào công ty vì ông cũng đang tìm cách thêm giọng nói vào công cụ tìm kiếm AI.

Năm 2007, D’Sa gặp nhà đồng sáng lập David Zhao tại Y Combinator. Khi đó, cả hai đang làm việc tại các startup phát trực tuyến video. Sau đó, D’Sa chuyển sang làm ở Twitter. Còn Zhao chuyển sang làm tại Motorola.

Đến năm 2012, họ cùng phát triển ứng dụng. Sau khi thử một số ý tưởng, cả hai cuối cùng thành lập Evie Labs và bán lại cho Medium với giá 30 triệu USD hồi năm 2019. Bộ đôi đã thành lập LiveKit vào năm 2021 để cung cấp các công cụ giúp dễ dàng thêm khả năng video và âm thanh vào những ứng dụng tương tác trong bối cảnh đại dịch COVID-19.

Ngoài các công ty xây dựng mô hình AI, LiveKit còn cung cấp công cụ nguồn mở cho nhiều công ty trong những lĩnh vực khác để gọi điện hỗ trợ khách hàng, giúp bệnh nhân đặt lịch hẹn tại bệnh viện, lái máy kéo tự động trong trang trại và thực hiện 1/4 số cuộc gọi đến tổng đài 911.

LiveKit tuyên bố bộ công cụ của công ty rất hữu ích cho các ứng dụng âm thanh và video được thực hiện theo thời gian thực này, giúp quá trình truyền dữ liệu nhanh chóng và hiệu quả hơn trên quy mô lớn.

“Hầu hết công ty đều tập trung phát triển các thuật toán cho mô hình AI,” D’Sa nói. “Hầu như không ai tập trung vào mạng thần kinh nhân tạo, nhưng đây lại là phần quan trọng để giúp mô hình AI trở nên mạnh mẽ.”

Biên dịch: Gia Nhi

———————

Xem thêm:

Môi trường đầu tư mạo hiểm: AI đang nổi lên
DeepL, mô hình dịch thuật máy học thế hệ mới từ AI tạo sinh