Giọng nói AI của ElevenLabs thuyết phục đến mức cha mẹ bạn cũng không nhận ra. Đó vừa là lợi thế vừa là thách thức của vị tỷ phú từng trong danh sách Forbes 30 Under 30.

Phim lồng tiếng ở Ba Lan thường không được ưa thích. Một người đọc giọng Slav duy nhất cho toàn bộ lời thoại, đơn điệu và thiếu sức sống. Không có sự đa dạng. Anh Mateusz (Mati) Staniszewski, đồng sáng lập công ty phần mềm nhận dạng giọng nói AI ElevenLabs chia sẻ: “Hãy hỏi bất kỳ người dân Ba Lan nào. Họ nói lồng tiếng hiện rất tệ. Đó là cách sản xuất nội dung rẻ tiền.”
Khi còn làm việc tại Palantir, Staniszewski hợp tác với người bạn thời trung học cũng là kỹ sư của Google, Piotr Dabkowski, để nghiên cứu trí tuệ nhân tạo. Cả hai nhận ra rằng, giọng nói AI có thể giải quyết vấn đề đặc trưng của nền điện ảnh Ba Lan, khi giọng những ngôi sao như Leonardo DiCaprio hay Scarlett Johansson đều bị thay thế bởi “ngôi sao” lồng tiếng như Maciej Gudowski.
Cả hai góp tiền tiết kiệm, tháng 5.2022 nghỉ việc để làm toàn thời gian cho ElevenLabs. Ngay khi ra mắt, công cụ chuyển văn bản thành giọng nói sử dụng AI của họ đã vượt trội hơn Siri của Apple hoặc Alexa của Amazon. Giọng nói AI của ElevenLabs có khả năng thể hiện niềm vui, sự phấn khích và cả tiếng cười.
Tháng 1.2023, ElevenLabs ra mắt mô hình AI đầu tiên, có thể nhận bất kỳ đoạn văn bản nào và sử dụng AI để đọc bằng giọng tự chọn, kể cả giọng của chính bạn, đáng lo ngại hơn có thể giả giọng người khác. Ngay lập tức nhu cầu tăng cao. Các tác giả có thể tạo ra sách nói bằng phần mềm này (gói chuyên nghiệp chất lượng cao giá từ 99 USD mỗi tháng). Các nhà sáng tạo nội dung trên YouTube sử dụng ElevenLabs để dịch video của họ sang ngôn ngữ khác (mô hình này hỗ trợ 29 ngôn ngữ). Công ty khởi nghiệp có trụ sở tại Warsaw và London đã ký thỏa thuận với nhiều ứng dụng học ngôn ngữ và thiền định, sau đó các công ty truyền thông như HarperCollins và Bertelsmann của Đức cũng tham gia. Nhà đầu tư Jennifer Li từ Andreessen Horowitz, đơn vị dẫn đầu vòng gọi vốn 19 triệu USD vào tháng 5.2023 chia sẻ: “Rõ ràng đây là mô hình tốt nhất thị trường và mọi người đều lựa chọn.” Một năm sau, các nhà đồng sáng lập ElevenLabs được vinh danh trong Forbes 30 Under 30.

Tuy nhiên, có nhiều bên sử dụng vào mục đích đáng lo ngại, như giả giọng nói của người nổi tiếng (Tổng thống Trump), giả diễn viên Emma Watson đọc cuốn Mein Kampf và giả người dẫn chương trình podcast Joe Rogan quảng cáo trò lừa đảo. Tệ nữa, kẻ xấu giả giọng nói của người thân nạn nhân và đánh cắp hàng triệu USD trong các vụ deepfake tinh vi.
Rủi ro đó không ngăn được nhà đầu tư đổ tiền vào. ElevenLabs huy động được hơn 300 triệu USD, nâng mức định giá lên 6,6 tỷ USD vào tháng 10.2025, trở thành một trong những công ty khởi nghiệp giá trị nhất châu Âu. CEO Staniszewski và người đứng đầu bộ phận nghiên cứu Dabkowski cùng 30 tuổi, cùng trở thành tỷ phú với mỗi người sở hữu tài sản hơn 1 tỷ USD.
Một nửa doanh thu 193 triệu USD của ElevenLabs trong 12 tháng gần nhất, đến từ các tập đoàn như Cisco, Twilio và Adecco. Họ sử dụng công nghệ của ElevenLabs để tiếp nhận cuộc gọi chăm sóc khách hàng hoặc phỏng vấn ứng viên. Epic Games sử dụng để lồng tiếng cho nhân vật trong trò chơi Fortnite, bao gồm cả cuộc trò chuyện với Darth Vader (với sự đồng ý của gia đình James Earl Jones). Nửa còn lại của doanh thu đến từ các YouTuber, người làm podcast và tác giả sách báo. Nhà phân tích Tom Coshow từ Gartner nhận xét: “Khi nói chuyện với đội ngũ ElevenLabs, bạn sẽ kinh ngạc trước khả năng của họ.” Lợi nhuận của ElevenLabs cũng là điều bất ngờ, khoảng 116 triệu USD, tức tỷ suất lên tới 60%.
Hiện ElevenLabs đang cạnh tranh với những người khổng lồ như Google, Microsoft, Amazon và OpenAI trong thị trường ứng dụng AI. Đây không phải lĩnh vực mới. Các hãng công nghệ đã tạo ra sản phẩm có thể nghe, phiên âm và sản xuất giọng nói từ hàng thập kỷ trước. Dù đây chỉ là mảng kinh doanh phụ, nhưng Microsoft của CEO Satya Nadella đã chi 20 tỷ USD mua dịch vụ phiên âm giọng nói Nuance niêm yết trên sàn Nasdaq vào tháng 3.2022. Tháng 10.2024, OpenAI ra mắt công cụ xử lý giọng nói của riêng mình, có thể đưa cuộc hội thoại của người thật vào ChatGPT.
Đội ngũ 300 nhân viên của ElevenLabs không nao núng. Mô hình của họ tốt đến mức, sẵn sàng tính phí cao gấp 3 lần so với đối thủ đến từ Mỹ. Thư viện 10 ngàn giọng nói của ElevenLabs là lớn nhất thị trường, bao gồm cả giọng của những ngôi sao hạng A như Michael Caine và Matthew McConaughey. Nó cũng rất đáng tin cậy. Công ty đào tạo dữ liệu Labelbox đã thử nghiệm sáu giọng nói hàng đầu và phát hiện ra rằng, ElevenLabs mắc ít lỗi hơn một nửa so với đối thủ OpenAI. CEO Staniszewski chia sẻ: “Chúng tôi nằm trong số rất ít công ty đi trước OpenAI, không chỉ là giọng nói, còn chuyển giọng nói thành văn bản và âm nhạc. Điều này rất khó.”

Công thức thành công của ElevenLabs rất đơn giản. Nhóm nhỏ các nhà nghiên cứu máy học (machine learning), tập trung cao độ vào một vấn đề cụ thể. Với ngân sách eo hẹp ban đầu (chỉ 100.000 USD cho lần huấn luyện đầu tiên), nhưng đã tạo ra đột phá. Chuyên gia Dabkowski nói: “Sở hữu nhiều sức mạnh tính toán có thể là lời nguyền, vì bạn không nghĩ ra được cách táo bạo để giải quyết vấn đề.”
Có một vụ kiện khiến nhiều bên suy nghĩ. Hai tác giả Karissa Vacker và Mark Boyett cáo buộc ElevenLabs sử dụng hàng ngàn cuốn sách nói có bản quyền của họ để huấn luyện cho mô hình AI. Các sách bị sao chép và huấn luyện đến mức, giọng nói trong đó đã trở thành bản sao mặc định trên ElevenLabs. Công ty phủ nhận mọi hành vi sai trái. Hai bên đã giải quyết xong tranh chấp vào tháng 11.2025 bên ngoài tòa án. Thỏa thuận được giữ bí mật.
Công ty đang thận trọng hơn, đã lập danh sách các giọng nói không được bắt chước, chủ yếu là của chính trị gia và người nổi tiếng. Trước đó giọng nói của Tổng thống Joe Biden đã được sử dụng để cản trở cuộc bầu cử của đảng Dân chủ trong chiến dịch năm 2024. ElevenLabs hiện có 7 người kiểm duyệt toàn thời gian (cộng với AI), để rà soát những đoạn âm thanh AI sử dụng sai mục đích. Công ty cũng cung cấp phần mềm phát hiện deepfake miễn phí.

Tác giả: Jon D. Markman
Phần mềm trí tuệ nhân tạo đang dần thay thế con người trong nhiều lĩnh vực. Ví dụ giọng nói giống người thật rất khó để nhận ra. Doanh nghiệp điển hình phát triển xu hướng này là SoundHound AI ở Santa Clara bang California. SoundHound cung cấp trợ lý giọng nói cho nhiều khách hàng lớn như Hyundai, Mercedes, Applebee và Chipotle. Trợ lý đàm thoại của SoundHound có thể xử lý dịch vụ khách hàng hoặc thậm chí nhận đơn hàng. Báo cáo tháng 11.2025 cho thấy, doanh thu quý 3 của công ty là 42 triệu USD, tăng 68% so với cùng kỳ năm ngoái. Dựa trên đà tăng này, giá cổ phiếu được dự đoán sẽ sớm cán mốc 16,5 USD, tăng 32% so với con số 12,5 USD gần đây.
Jon D. Markman là chủ tịch của Markman Capital Insight và biên tập viên mục Fast Forward Investment.
Hai lãnh đạo Staniszewski và Dabkowski đang có kế hoạch lớn hơn. Các nhà sáng tạo nội dung và công ty truyền thông với ngân sách eo hẹp đều muốn sở hữu nhạc nền bản quyền nhưng miễn phí. Do đó, ElevenLabs ra mắt công cụ tạo nhạc bằng AI vào tháng 8.2025. Bạn không có thời gian quay video? ElevenLabs sẽ có những avatar tạo ra từ AI để chèn vào, giống như Sora, vào năm 2026. Mục tiêu táo bạo nữa là chuyển giao chuyên môn cho khách hàng, để quản lý tất cả dịch vụ AI khách hàng đó đang sử dụng. CEO Staniszewski nói: “Chúng tôi đang xây dựng một nền tảng cho phép khách hàng tạo ra các trợ lý giọng nói và triển khai một cách trơn tru.”
Hàng loạt công ty khởi nghiệp cũng đang có bước đi tương tự. ElevenLabs có lợi nhuận từ ngày đầu thành lập là lợi thế lớn so với giới khởi nghiệp. Tuy nhiên giới khởi nghiệp lại được đầu tư mạnh mẽ từ các gã khổng lồ với nguồn lực gần như vô hạn. Tất cả đều đang không ngừng đổi mới. Các mô hình giọng nói không ngừng được phổ biến và đa dạng. Khi mặt bằng chất lượng gần lại, những khách hàng khó tính sẽ e ngại giá cả cao của ElevenLabs và có thể chuyển sang dịch vụ khác.
Khi mở rộng sang lĩnh vực khác ngoài giọng nói, như âm nhạc và video, đòi hỏi nhiều sức mạnh tính toán hơn. ElevenLabs cần mở rộng số lượng GPU của mình, để duy trì lợi thế cạnh tranh. Họ đã chi 50 triệu USD cho một trung tâm dữ liệu ở bang Oregon của Mỹ. CEO Staniszewski giải thích: “Nếu chúng ta muốn xây dựng một công ty đi qua nhiều thế hệ trong lĩnh vực AI, cần có nền tảng vững chắc. Chúng tôi đang làm điều đó.”
Tại Ba Lan, đội ngũ phiên dịch viên kỳ cựu của ElevenLabs vẫn đang làm việc miệt mài. Chuyên gia Dabkowski vẫn chưa quên sứ mệnh ban đầu. Ông tự hào tuyên bố mô hình AI tiếp theo của công ty sẽ tự động dịch và lồng tiếng cho phim. Vị lãnh đạo khẳng định, không bao giờ từ bỏ mục tiêu trên.
Biên dịch: NVP — Nội dung đã được đăng trên Tạp chí Forbes Việt Nam số tháng 1/2.2026.