Công ty truyền thông xã hội khổng lồ ra mắt công cụ AI mới giúp các nhà nghiên cứu phân đoạn cũng như nhận diện hình ảnh dễ dàng hơn.
Công bố này được đưa ra khi công ty truyền thông xã hội khổng lồ ngày càng chuyển hướng chú ý từ việc tạo ra vũ trụ Metaverse dựa trên thực tế ảo sang nhúng các tính năng AI vào nhiều nền tảng như Instagram, Facebook, Messenger và WhatsApp.
Chỉnh sửa ảnh, phân tích cảnh quay giám sát và hiểu các phần của vật thể. Những tác vụ này có một điểm chung: bạn cần có khả năng xác định và tách các đối tượng khác nhau trong một bức ảnh. Theo cách làm truyền thống, nhà nghiên cứu phải bắt đầu lại từ đầu mỗi khi muốn phân tích một phần mới của ảnh.
Meta nhắm đến thay đổi quy trình tốn nhiều công sức này bằng cách tạo ra một giải pháp mới cho nhà nghiên cứu cũng như phát triển web giải quyết các vấn đề như vậy.
Ngày 5.4, công ty ra mắt mô hình AI, được gọi là “mô hình phân đoạn” (SAM). Thông qua đó, người dùng chỉ nhấp vào một điểm hoặc vẽ xung quanh đối tượng để có thể tạo ra “các phần cắt” hay phân đoạn của bất kỳ vật thể nào trong ảnh.
Công cụ này có thể giúp cắt ảnh ra nhiều phần khác nhau một cách nhanh chóng cũng như hiệu quả hơn. Vì vậy công cụ được sử dụng cho mục đích nghiên cứu, để chỉnh sửa sáng tạo hoặc thậm chí hiểu các đối tượng khi đeo kính thực tế ảo.
Công ty công nghệ đã ra mắt công chúng công cụ dựa trên trình duyệt này. Đồng thời công ty cũng mã nguồn mở mô hình thị giác máy tính, được huấn luyện trên “bộ dữ liệu phân đoạn lớn nhất” gồm 1,1 tỉ phần khác nhau của ảnh và 11 triệu hình ảnh có bản quyền do một công ty ảnh lớn cung cấp. Tuy nhiên, Meta không tiết lộ công ty nào cung cấp ảnh bản quyền.
Meta AI, bộ phận nghiên cứu trí tuệ nhân tạo của công ty truyền thông xã hội khổng lồ, đã làm việc với 130 công ty nghiên cứu hành vi con người dựa vào học máy ở Kenya để chú thích thủ công lẫn tự động cho 1 tỉ phần của hàng triệu tấm ảnh nhằm tạo ra bộ dữ liệu.
Các công nghệ nhận dạng đối tượng và thị giác máy tính xuất hiện trong nhiều năm cũng như đã được tích hợp trong nhiều thiết bị khác nhau như camera giám sát và máy bay không người lái.
Ví dụ, nhiều cửa hàng của Amazon sử dụng tính năng nhận dạng đối tượng để phát hiện các mặt hàng bạn cho vào giỏ cũng như xe tự lái sử dụng tính năng này để nhận biết môi trường xung quanh.
Nhiều startups như Runway cùng với những công ty như Adobe thương mại hóa khả năng sử dụng AI để phát hiện cũng như chọn các đối tượng khác nhau trong một tấm ảnh cho người dùng sáng tạo.
Khi chatbot AI tổng quát hấp dẫn xuất hiện, mục tiêu của nhà nghiên cứu AI tại Meta là tích hợp sự tiến bộ trong các mô hình nền tảng AI với lĩnh vực công nghệ thị giác máy tính tiềm năng.
“Tôi không nói rằng đây là một lĩnh vực công nghệ mới. Phân đoạn đối tượng đã tồn tại nên tôi không nói đây là một khả năng mới. Về cơ bản, tôi nghĩ cách tiếp cận sử dụng mô hình nền tảng là mới và kích thước bộ dữ liệu họ đang huấn luyện có thể mới lạ,” Paul Powers, CEO kiêm nhà sáng lập Physna, công cụ tìm kiếm các đối tượng 3D, cho biết.
Nhưng điều Meta hi vọng khi giới thiệu công cụ này càng rộng rãi, công ty sẽ khuyến khích người dùng xây dựng dựa trên mô hình tổng quát cho những trường hợp sử dụng cụ thể hơn trong các lĩnh vực như sinh học và nông nghiệp.
Công bố này được đưa ra đồng thời khi truyền thông đưa tin Meta lên kế hoạch sử dụng AI tổng quát cho các quảng cáo trên Instagram và Facebook. CEO Mark Zuckerberg đã thông báo rằng ông đang thành lập một đội ngũ phát triển sản phẩm mới. Nhóm này chỉ tập trung xây dựng các công cụ AI tổng quát như bộ lọc Instagram cũng như những tính năng dựa trên trò chuyện trong WhatsApp và Instagram. Theo truyền thông, Zuckerberg đang dành phần lớn thời gian phát triển nhóm AI mới này.
Hai nhà nghiên cứu Alexander Kirillov và Nikhila Ravi của Meta AI cho biết công cụ SAM được xây dựng cho những người không có cơ sở hạ tầng AI hoặc dung lượng dữ liệu để tạo mô hình riêng để “phân đoạn” hoặc xác định các thành phần khác nhau của hình ảnh.
“Điều này đang diễn ra theo thời gian thực trong trình duyệt. Điều đó làm cho mô hình này dễ tiếp cận với nhiều người hơn vì họ không cần phải chạy mọi thứ trên bộ xử lý đồ họa…Chúng tôi có thể phân đoạn cho trường hợp phức tạp hơn mà một số phương pháp khác có thể không cho phép,” Ravi nói.
Nhưng có những hạn chế của mô hình thị giác máy tính được huấn luyện trên cơ sở dữ liệu hình ảnh hai chiều, Powers nói. Ví dụ: để công cụ phát hiện và chọn điều khiển từ xa bị lộn ngược, nó cần được huấn luyện về các hướng khác nhau của cùng một đối tượng. Ông nói, các mô hình được huấn luyện trên hình ảnh 2D sẽ không giúp phát hiện những hình ảnh bị che một phần hoặc hiện ra một chút.
Điều này có nghĩa là công cụ sẽ không xác định chính xác các đối tượng không được tiêu chuẩn hóa thông qua kính công nghệ thực tế tăng cường/ thực tế ảo. Ngoài ra, công cụ có thể cũng không phát hiện các đối tượng bị che một phần trong không gian công cộng nếu nhà sản xuất xe tự hành sử dụng nó.
Còn về phía công ty, đã đổi thương hiệu từ Facebook thành Meta vào cuối năm 2021 và đang theo đuổi phát triển Metaverse, sử dụng công cụ phát hiện đối tượng này trong không gian thực tế ảo, chẳng hạn như game VR trực tuyến Horizon Worlds. Kirillov và Ravi nói rằng công cụ phát hiện đối tượng của họ có thể được sử dụng để thực hiện điều đó “dựa trên ánh mắt” thông qua kính thực tế ảo cũng như thực tế tăng cường.
Mô hình này có thể phát hiện các vật thể chưa biết hiệu quả ở nhiều lĩnh vực với hình ảnh dưới nước, kính hiển vi, trên không và nông nghiệp. Kirillov cho biết ông đã được truyền cảm hứng để tạo ra mô hình phân đoạn hình ảnh tổng quát khi nói chuyện với nhiều nhà nghiên cứu.
“Tôi đang thuyết trình về sự phân đoạn cho một số nhà khoa học tự nhiên ở Berkeley và mọi người nói rằng ‘Được rồi, điều này thật tuyệt, nhưng tôi cần phải đếm đồng thời xác định cây cối trong những bức ảnh tôi thu thập cho nghiên cứu về các đám cháy ở California.” Mô hình này có thể giúp họ làm được điều đó,” Kirillov nói với Forbes.
Biên dịch: Gia Nhi
Xem thêm:
Meta phát triển mạng xã hội mới cạnh tranh với Twitter
Meta triển khai dịch vụ trả phí để nhận tích xanh
3 tháng trước
Để thông minh trong thời đại AI cần cách tư duy đa chiều1 năm trước
Tài sản của Larry Ellison giảm gần 20 tỉ USD