Trí tuệ nhân tạo (AI) đã và đang biến khoa học viễn tưởng thành hiện thực. ChatGPT chỉ là sự khởi đầu, các mô hình ngôn ngữ thế hệ tiếp theo sẽ thông minh hơn, phổ biến hơn, dễ sử dụng hơn sẽ tiếp tục nâng cao chất lượng cuộc sống của nhân loại.
Tháng 11.2022, OpenAI – một startup nổi bật trong lĩnh vực trí tuệ nhân tạo được định giá 30 tỉ đô la Mỹ – công bố sản phẩm mới: ChatGPT. ChatGPT là chương trình có thể nói chuyện với người dùng, và thông qua các cuộc nói chuyện này thực hiện các mệnh lệnh người dùng yêu cầu.
ChatGPT đã thay đổi thế giới của con người mãi mãi. Bằng cách sử dụng các công nghệ thông minh như ChatGPT, người không biết vẽ cũng có thể làm họa sĩ; người không hiểu âm luật vẫn có thể sáng tác nhạc; người không có kiến thức điện ảnh cũng có thể tạo ra các bộ phim tưởng như từ Hollywood.
Sự thành công của ChatGPT đã khiến các “đại gia” công nghệ phải chạy đua đưa ra các sản phẩm tương tự. Google đã phát hành Bard, Meta đã phát hành LLAMA, bên cạnh vô số startup được rót hàng trăm triệu đô la Mỹ để phát triển các công nghệ tương tự. ChatGPT, Bard, hay LLAMA có cùng một nguyên lý hoạt động, được gọi là các mô hình ngôn ngữ lớn (large language models).
Nguyên lý hoạt động của các mô hình ngôn ngữ lớn này, thông qua tác động đối với cuộc sống của con người, sẽ tái định hình cách mà con người tương tác với máy tính.
Mô hình ngôn ngữ là một chương trình máy tính. Chương trình này nhận vào một chuỗi các từ – có thể chỉ là một vài từ, một câu, một đoạn văn, một chương trong một cuốn tiểu thuyết, hoặc dài hơn – và đoán từ tiếp theo xuất hiện trong chuỗi. Ví dụ, một mô hình ngôn ngữ có thể nhận vào câu: “Quân cờ mạnh nhất trong cờ vua là quân ___ ”, và trả về dự đoán là từ “hậu”.
Chương trình đơn giản thế sao có thể tạo ra cuộc cách mạng thay đổi hoàn toàn nhận thức của con người? Mấu chốt ở đây là các dự đoán trên chính xác đến đâu. Nếu mô hình ngôn ngữ có độ chính xác thấp thì nó gần như vô dụng. Ngược lại, bằng cách sử dụng một mô hình ngôn ngữ có độ chính xác cao, người dùng có thể thực hiện các dự đoán liên tiếp để tạo ra các câu trôi chảy và hợp lý.
Lấy ví dụ, bằng cách thực hiện liên tiếp các dự đoán sau:
“Hãy kể lại câu chuyện ‘Cô bé bán diêm’. ” -> Ngày;
“Hãy kể lại câu chuyện ‘Cô bé bán diêm’. Ngày ” -> xửa;
“Hãy kể lại câu chuyện ‘Cô bé bán diêm’. Ngày xửa ” -> ngày;
“Hãy kể lại câu chuyện ‘Cô bé bán diêm’. Ngày xửa ngày __” -> xưa;
…
Khoảng 500 lần như trên ta sẽ cho ra một câu chuyện hoàn chỉnh khoảng 500 chữ. Nếu mô hình ngôn ngữ đủ chính xác, câu chuyện sẽ rất gãy gọn, trôi chảy và hợp logic. Mô hình ngôn ngữ của ChatGPT sẽ đoán từng từ tiếp theo của câu trả lời, rồi dựa vào từ tiếp theo này để dự đoán từ tiếp theo nữa. Vì độ chính xác của ChatGPT rất cao, nên các câu mà ChatGPT “nói” ra thường rất trôi chảy, đôi khi còn hài hước, sáng tạo.
Đó là mô hình ngôn ngữ, còn mô hình ngôn ngữ lớn là gì? Từ “lớn” ở đây nói về độ tiêu hao năng lượng của một mô hình ngôn ngữ. Mô hình tiêu hao càng nhiều năng lượng thì càng lớn. Từ năm 2019, OpenAI đã phát triển thành công GPT-3, tiền thân của ChatGPT. Năng lượng để huấn luyện GPT-3 nhiều đến mức đủ thực hiện ba chuyến bay khứ hồi giữa San Francisco và New York!
Nhờ GPT-3, OpenAI phát hiện ra khi mô hình ngôn ngữ đủ lớn, độ chính xác sẽ tăng đột biến. Nôm na như khi ta đun nước từ 80 độ C đến 99,9 độ C, nước vẫn ở thể lỏng, nhưng chỉ cần đạt đến 100 độ C, nước hóa thành hơi. Mới đây, OpenAI công bố bản nâng cấp GPT-4, tất nhiên độ chính xác cao hơn rất nhiều.
Các mô hình ngôn ngữ với độ chính xác cao đã thay đổi cách con người tương tác với máy tính. Thay vì phải học qua rất nhiều khóa đào tạo, giờ đây con người có thể “nói chuyện” với các mô hình thông minh này, “nhờ” chúng “dịch” ngôn ngữ thành các lệnh cho máy tính.
Chứng kiến sự thay đổi này, tôi nghĩ đến mẹ mình, một kế toán thường phải tương tác với phần mềm Excel. Khổ nỗi mẹ tôi vừa không giỏi công nghệ, lại chẳng biết tiếng Anh, nên mỗi lần Excel ra một phiên bản mới, mẹ tôi thường phải nhờ cấp dưới giúp đỡ. Tôi thường nghe mẹ tôi nhờ các cô trong phòng, ví dụ: “Em đưa số liệu ô này sang đầu hàng, rồi gộp các bảng lại.”
Hiện nay, các mô hình ngôn ngữ thực hiện dễ dàng các thao tác như trên. Adept.ai – một startup là đồng nghiệp cũ của tôi, vừa gọi được 350 triệu đô la Mỹ vốn đầu tư để phát triển các mô hình ngôn ngữ thông minh hơn ChatGPT, nhằm giúp những người dùng không giỏi công nghệ. Mẹ tôi nay đã nghỉ hưu, nhưng nếu còn đi làm, mẹ tôi chẳng phải lo mình không giỏi máy tính, chỉ cần tập trung vào công việc chính.
Ngày nay, các công ty khi tuyển dụng luôn đòi hỏi ứng viên phải biết sử dụng máy tính. Vì sao biết sử dụng máy tính lại quan trọng? Inflection.ai – lại là một startup của các đồng nghiệp cũ khác của tôi, hiện được định giá hơn 1 tỉ đô la Mỹ – có một lời giải thích đầy bất ngờ: chính vì sự yếu kém của máy tính!
Thật vậy, nếu máy tính thông minh được như cô nhân viên của mẹ tôi – có thể hiểu được yêu cầu bằng ngôn ngữ tự nhiên – thì sẽ chẳng có ai đòi hỏi ứng viên tuyển dụng phải biết sử dụng máy tính nữa. Lúc này, các ứng viên sẽ được xem xét thông qua các giá trị khác nhân văn hơn, ví dụ như năng lực tư duy, khả năng hợp tác, tinh thần đội nhóm.
Khi các mô hình ngôn ngữ trở nên chính xác hơn, dần dần chúng không chỉ làm được các việc đơn giản như mẹ tôi nhờ xử lý Excel, mà sẽ làm những việc phức tạp hơn nhiều. Chẳng bao lâu nữa các mô hình ngôn ngữ sẽ đủ thông minh để thay thế các lập trình viên viết ra hàng triệu dòng code. Nhưng điều này không có nghĩa khiến họ sẽ thất nghiệp. Tuy nhiên họ sẽ phải học cách hợp tác với trí tuệ nhân tạo. Thay vì viết code, họ học cách ra lệnh cho các mô hình ngôn ngữ, để rồi chúng viết code cho mình.
Xu hướng tương tự cũng sẽ xảy ra ở các ngành khác. Một ví dụ, Stability.ai – một startup đã phát triển ControlNet, sản phẩm cho phép người dùng có thể tạo ra hình ảnh từ chữ. Không khó để tưởng tượng một người làm marketing trong tương lai sẽ sử dụng ChatGPT để tạo ra slogan cho sản phẩm mình cần quảng cáo, rồi sử dụng ControlNet để biến slogan đó thành hình ảnh hoặc clip quảng cáo.
Là một người trong ngành, tôi tin rằng chưa tới 10 năm nữa, chúng ta sẽ có âm nhạc do trí tuệ nhân tạo sáng tác (hiện đã có rồi, chỉ là chất lượng chưa được như kỳ vọng), tiểu thuyết do trí tuệ nhân tạo viết, phim cho trí tuệ nhân tạo đạo diễn… Nghĩ đến những việc mà trí tuệ nhân tạo sẽ làm được, tôi cảm thấy tương lai sẽ đầy bất ngờ.
Sau khi GPT-4 – thế hệ tiếp theo của ChatGPT – được OpenAI công bố, giáo sư Graham Neubig của đại học Carnegie Mellon đã lên danh sách những điều mà siêu AI này chưa thể làm được:
* Đưa ra giải pháp cho vấn đề biến đổi khí hậu.
* Phát triển thuốc chữa các bệnh hiểm nghèo như ung thư giai đoạn cuối, các bệnh truyền nhiễm Covid hay Ebola…
* Đóng vai chuyên gia tâm lý, hỗ trợ tư vấn điều trị sức khỏe tinh thần.
* Giảm thiểu bất bình đẳng trong giáo dục.
* Đưa ra biện pháp hòa giải nhằm chấm dứt căng thẳng toàn cầu, đặc biệt là các cuộc chiến tranh.
Mỗi mục tiêu trên đều là một hoài bão lớn lao của nhân loại. Kỳ diệu hơn nữa, cá nhân tôi tin rằng các mục tiêu trên có thể không quá xa vời, chẳng hạn mục tiêu thứ ba – tư vấn sức khỏe tinh thần – có thể sẽ thực hiện được trong vòng một năm tới.
ChatGPT đã hoàn toàn thay đổi cuộc sống của con người. Nhưng ChatGPT chỉ là sự khởi đầu. Các mô hình ngôn ngữ thế hệ tiếp theo sẽ thông minh hơn, phổ biến hơn, dễ sử dụng hơn và sẽ tiếp tục nâng cao chất lượng cho cuộc sống của chúng ta. AI đã và đang biến khoa học viễn tưởng thành hiện thực. Nhưng con người vẫn sẽ đi xa hơn, bởi vì chúng ta có một khả năng kỳ diệu hơn tất cả những gì mà trí tuệ nhân tạo hiện nay có thể làm được: đó là sự sáng tạo.
——————————–
(*) Phạm Hy Hiếu là nhà nghiên cứu trí tuệ nhân tạo, tiến sĩ Khoa học máy tính đại học Carnegie Mellon (Mỹ), thành viên Under 30 Forbes Việt Nam năm 2020.
4 tháng trước
AMD chi 665 triệu USD mua lại startup nghiên cứu Silo AI