Thuật toán này của Microsoft còn có thể đánh bại con người trong một số tác vụ nhất định.

Microsoft đã phát triển một thuật toán chú thích-hình ảnh mới vượt mặt độ chính xác nếu được thực hiện bởi con người trong một số thử nghiệm giới hạn nhất định. Hệ thống trí tuệ nhân tạo đã được dùng để nâng cấp ứng dụng trợ lý của hãng dành cho người khiếm thị - SeeingAI, và sẽ sớm được tích hợp vào các sản phẩm khác của Microsoft như Word, Outlook và PowerPoint. Ở đó, nó sẽ được áp dụng cho các tác vụ như tạo văn bản thay thế hình ảnh – một chức năng đặc biệt quan trọng giúp nâng cao khả năng tiếp cận.

“Lý tưởng nhất, mọi người nên đính kèm các văn bản thay thế cho toàn bộ hình ảnh trong tài liệu, trên trang web, trên mạng xã hội, vì điều này cho phép người có thị lực kém truy cập nội dung và tham gia vào các cuộc trò chuyện. Nhưng, than ôi, mọi người không làm. Vì vậy, có rất nhiều ứng dụng sử dụng chú thích hình ảnh như là một cách lấp đầy văn bản thay thế khi bị thiếu” – Saqib Shaikh - giám đốc kỹ thuật phần mềm của nhóm Trí tuệ Nhân tạo thuộc Microsoft - phát biểu trong một thông cáo báo chí.

Những ứng dụng này bao gồm cả Seeing AI của chính Microsoft, thứ lần đầu được “gã khổng lồ công nghệ” phát hành vào năm 2017. Seeing AI dùng thị giác máy tính để mô tả thế giới phản chiếu qua camera trên điện thoại cho người khiếm thị. Nó có thể nhận diện các món đồ gia dụng, đọc và quét văn bản, miêu tả quang cảnh xung quanh, thậm chí là nhận dạng bạn bè. Nó cũng được dùng để mô tả hình ảnh trong các ứng dụng khác, bao gồm email, các ứng dụng mạng xã hội, ứng dụng nhắn tin như WhatsApp.

Microsoft không tiết lộ số lượng người dùng Seeing AI, nhưng Eric Boyd - phó chủ tịch công ty Azure AI - khẳng định với tạp chí The Verge rằng phần mềm này là “một trong những ứng dụng hàng đầu dành cho những người mù hoặc có thị lực kém”. Seeing AI đã được AppleVis - một cộng đồng người mù và thị lực kém, bình chọn là ứng dụng tốt nhất hoặc ứng dụng hỗ trợ tốt nhất trong 3 năm liên tiếp.

Thuật toán chú thích-hình ảnh mới của Microsoft sẽ cải thiện hiệu suất của Seeing AI một cách đáng kể, bởi nó không chỉ có khả năng xác định đối tượng mà còn có thể mô tả chính xác mối quan hệ giữa chúng. Vì vậy, khi nhìn vào một bức tranh, thuật toán không chỉ cho biết các món đồ và đối tượng xuất hiện trong đó, mà còn cho biết chúng đang tương tác như thế nào. Microsoft khẳng định thuật toán này tốt hơn hệ thống chú thích-hình ảnh trước đó (được đưa vào sử dụng từ năm 2015) của hãng gấp 2 lần.

Thuật toán chú thích hình ảnh sẽ được sử dụng để cải thiện các ứng dụng như See AI, được nhà phát triển Florian Beijers sử dụng ở đây.

Thuật toán chú thích hình ảnh sẽ được dùng để cải thiện các ứng dụng như Seeing AI, được nhà phát triển Florian Beijers sử dụng trong hình minh họa trên.

Thuật toán nói trên từng nhận được số điểm cao nhất từ trước đến nay trong điểm chuẩn đánh giá tính năng (benchmark) hình ảnh-chú thích có tên “nocaps”. Đó là số điểm dẫn đầu trong ngành về hình ảnh chú thích, dù vẫn tồn tại những hạn chế nhất định.

Điểm chuẩn đánh giá tính năng nocaps chứa hơn 166,000 chú thích do con người tạo ra, mô tả khoảng 15,100 hình ảnh được lấy từ Open Images Dataset (Bộ dữ liệu hình ảnh mở). Những hình ảnh này trải dài trong một loạt tình huống, từ giờ chơi thể thao cho tới các kỳ nghỉ, cho đến chụp ảnh đồ ăn... Các thuật toán được kiểm tra về khả năng tạo chú thích cho những bức ảnh nói trên, xem liệu chúng có khớp với chú thích của con người.

Dù vậy, cần lưu ý rằng điểm chuẩn đánh giá tính năng nocaps chỉ nắm bắt được một phần nhỏ về sự phức tạp của việc chú thích ảnh như một nhiệm vụ chung chung. Dẫu Microsoft khẳng định trong một cuộc họp báo rằng thuật toán mới của hãng “mô tả hình ảnh xuất sắc không kém gì con người”, nhưng điều đó chỉ đúng khi nó áp dụng cho một tập hợp con hình ảnh rất nhỏ trong nocaps.

Harsh Agrawal – một trong những người tạo nên điểm chuẩn đánh giá tính năng, tiết lộ với The Verge trong email rằng: “Đánh bại hiệu suất làm việc của con người trên nocaps không phải là một chỉ báo cho thấy chú thích hình ảnh là vấn đề đã được giải quyết”.

Agrawal nhấn mạnh rằng các chỉ số được dùng để đánh giá hiệu suất trên nocaps “chỉ tương quan gần đúng với sở thích của con người” và bản thân bài kiểm tra tính năng đó “ chỉ bao quát được một tỷ lệ nhỏ của tất cả các khái niệm hình ảnh có thể tồn tại”.

“Vì với hầu hết điểm chuẩn kiểm tra tính năng, nocaps chỉ là một chỉ báo sơ bộ về hiệu suất của các mô hình trên tác vụ. Đánh bại hiệu suất của con người trên nocaps không có nghĩa là hệ thống trí tuệ nhân tạo đó vượt mặt con người trên khía cạnh thấu hiểu hình ảnh”.

Vấn đề này – giả sử hiệu suất trên điểm chuẩn cụ thể có thể ngoại suy như là hiệu suất trên tác vụ cơ bản nói chung – là một vấn đề thường gặp khi đề cập đến việc phóng đại khả năng của trí tuệ nhân tạo. Thật vậy, trước đây, Microsoft từng bị các nhà nghiên cứu chỉ trích vì đưa ra những tuyên bố giống nhau về khả năng của thuật toán trong việc đọc hiểu các từ viết ra.

Tuy nhiên, chú thích hình ảnh là một tác vụ đã được đại tu trong những năm gần đây nhờ vào trí thông minh nhân tạo, và thuật toán của Microsoft chắc chắn là thứ hiện đại nhất. Ngoài việc được tích hợp vào Word, Outlook, PowerPoint, trí tuệ nhân tạo chú thích hình ảnh còn sẵn có dưới dạng mô hình độc lập thông qua đám mây của Microsoft và Azure nền tảng AI.

4/5 (1,002 lượt)