Apple đang nghiên cứu một AI agent có thể mô tả cảnh Street View cho người mù

Các kỹ sư của Apple đã mô tả chi tiết về một AI agent có thể mô tả chính xác các cảnh Street View. Nếu nghiên cứu thành công, nó có thể trở thành một công cụ giúp những người khiếm thị khám phá trước một địa điểm ảo. Những người khiếm thị và có vấn đề về thị giác đã có các công cụ để điều hướng thiết bị và môi trường địa phương của họ.

Tuy nhiên, Apple tin rằng việc những người đó biết về các đặc điểm vật lý của một địa điểm trước khi đến thăm có thể mang lại lợi ích. Một bài báo được công bố thông qua Apple Machine Learning Research vào thứ Hai vừa qua nói về SceneScout, một AI agent điều khiển bằng mô hình ngôn ngữ lớn đa phương thức.

Điểm mấu chốt của agent này là nó có thể được sử dụng để xem hình ảnh Street View, phân tích những gì nhìn thấy và mô tả hình ảnh đó cho người xem. Bài báo được chấp bút bởi Leah Findlater và Cole Gleason của Apple, cũng như Gaurav Jain của Đại học Columbia. Người ta giải thích rằng những người có thị lực kém có thể ngần ngại đi du lịch một mình trong những môi trường xa lạ, vì họ không biết trước về cảnh quan vật lý mà mình sẽ gặp phải.

Có những công cụ có sẵn để mô tả môi trường địa phương, chẳng hạn như ứng dụng Soundscape của Microsoft từ năm 2018. Tuy nhiên, tất cả chúng đều được thiết kế để hoạt động tại chỗ chứ không phải trước. Hiện tại, lời khuyên trước khi đi du lịch cung cấp các chi tiết như điểm mốc và điều hướng từng chặng, không cung cấp nhiều bối cảnh cảnh quan cho người dùng khiếm thị.

Tuy nhiên, hình ảnh theo phong cách Street View, chẳng hạn như Apple Maps Look Around, thường cung cấp cho người dùng sáng mắt nhiều manh mối theo ngữ cảnh hơn, thường bị những người không nhìn thấy bỏ lỡ.

SceneScout

Đây là lúc SceneScout xuất hiện, với tư cách là AI agent để cung cấp các tương tác có thể truy cập bằng hình ảnh Street View. Scene Scout có hai chế độ, với Route Preview cung cấp thông tin chi tiết về các yếu tố mà nó có thể quan sát trên một tuyến đường. Ví dụ, nó có thể thông báo về cây cối ở ngã rẽ và các yếu tố xúc giác khác cho người dùng.

Một ví dụ về kết quả đầu ra từ SceneScout
Một ví dụ về kết quả đầu ra từ SceneScout

Chế độ thứ hai, Virtual Exploration, được mô tả là cho phép di chuyển tự do trong hình ảnh Street View, mô tả các thành phần cho người dùng khi chúng di chuyển ảo. Trong nghiên cứu người dùng, nhóm đã xác định rằng SceneScout hữu ích cho những người khiếm thị, về mặt khám phá thông tin mà họ sẽ không thể truy cập bằng các phương pháp hiện có.

Khi nói đến mô tả, phần lớn được coi là chính xác, ở mức 72% thời gian và có thể mô tả các thành phần hình ảnh ổn định 95% thời gian. Tuy nhiên, đôi khi "lỗi tinh tế và hợp lý" khiến mô tả khó xác minh nếu không sử dụng thị giác.

Khi nói đến cách cải thiện hệ thống, những người tham gia thử nghiệm đề xuất rằng SceneScout có thể cung cấp các mô tả được cá nhân hóa có thể thích ứng qua nhiều phiên. Ví dụ, hệ thống có thể thu thập các loại thông tin mà người dùng thích nghe. Việc thay đổi góc nhìn cho những mô tả từ góc nhìn của máy ảnh trên nóc xe hơi sang nơi người đi bộ thường ở cũng có thể giúp cải thiện thông tin.

Một cách khác để cải thiện hệ thống cũng có thể được thực hiện tại chỗ. Những người tham gia cho biết họ rất muốn mô tả Street View được cung cấp theo thời gian thực, để phù hợp với nơi họ đang đi bộ. Những người tham gia cho biết đây có thể là một ứng dụng cung cấp thông tin hình ảnh thông qua tai nghe dẫn truyền qua xương hoặc chế độ Transparency khi họ di chuyển.

Hơn nữa, người dùng có thể muốn sử dụng kết hợp con quay hồi chuyển và la bàn trong một thiết bị để chỉ theo hướng chung cho các chi tiết về môi trường, thay vì hy vọng họ căn chỉnh camera đúng cho thị giác máy tính.

Các ứng dụng trong tương lai

Giống như việc hồ sơ nộp bằng sáng chế, một bài báo nêu chi tiết về việc sử dụng AI theo những cách mới không đảm bảo rằng nó sẽ có trong một sản phẩm hoặc dịch vụ tương lai. Tuy nhiên, nó cung cấp cái nhìn thoáng qua về các ứng dụng mà Apple đã cân nhắc cho công nghệ này.

Mặc dù không sử dụng hình ảnh Street View, một cách tiếp cận tương tự có thể tận dụng một số sản phẩm Apple được đồn đại. Apple được cho là đang tạo ra AirPods có camera tích hợp, cũng như kính thông minh Apple Glass có camera riêng.

Trong cả hai trường hợp, camera có thể cung cấp cho Apple Intelligence góc nhìn về thế giới, sau đó sẽ được sử dụng để giúp trả lời các truy vấn của người dùng. Không quá khó để tưởng tượng một hệ thống tương tự được sử dụng để mô tả môi trường cục bộ cho người dùng. Tất cả bằng cách sử dụng dữ liệu trực tiếp thay vì hình ảnh Street View có khả năng đã lỗi thời.

Thứ Ba, 08/07/2025 10:54
31 👨 95
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ