Chắc hẳn bất cứ ai trong số chúng ta cũng đã từng ít nhiều gặp phải tình huống khung hiển thị video bị cắt xén “lởm chởm” khi bạn xem trên thiết bị di động. Khó chịu và phiền toái có lẽ là những cảm giác xuất hiện ngay lập tức, nhưng bạn vẫn phải chấp nhận mà xem hết đoạn video bởi đơn giản bạn chẳng thể làm gì khác.
Để giải quyết vấn đề tưởng chừng nhỏ nhưng lại ảnh hưởng lớn đến trải nghiệm người dùng này, đội ngũ nghiên cứu AI của Google đã phát triển thành công một giải pháp nguồn mở có tên Autoflip, có thể tự động tinh chỉnh video sao cho phù hợp với thiết bị hoặc kích thước màn hình nhất định theo nhiều chế độ khác nhau, chẳng hạn như phong cảnh (landscape), hình vuông (square), chân dung (portrait)....
Về cơ bản, Autoflip hoạt động theo 3 giai đoạn chính: Phát hiện cảnh (scene), phân tích nội dung video, và cuối cùng là tinh chỉnh.
Ở giai đoạn phát hiện cảnh, mô hình học máy sẽ chú ý nhiều đến điểm trước khi cắt hoặc nhảy từ cảnh này sang cảnh khác. Nhờ vậy, nó có thể so sánh một khung hình với khung hình trước đó để phát hiện sự thay đổi của màu sắc và các yếu tố liên quan.
Sau khi xác định được một cảnh quay làm chuẩn, mô hình AI sẽ chuyển sang phân tích nội dung video để xác định các đối tượng quan trọng trong một cảnh. Để làm được như vậy, Autoflip sẽ sử dụng một mạng lưới thần kinh học sâu (deep learning neural network) giúp nó xác định rõ không chỉ đối tượng xuất hiện trong cảnh, ví dụ như người, động vật, xe cộ, cây cối… mà còn là cả chuyển động cũng như trạng thái di chuyển của đối tượng.
Ở giai đoạn cuối cùng, mô hình AI sẽ xác định xem nó nên sử dụng chế độ đứng yên cho các cảnh diễn ra trong một không gian duy nhất hay chế độ theo dõi khi các đối tượng quan tâm liên tục di chuyển. Dựa vào yếu tố này và kích thước mục tiêu mà video cần được hiển thị, Autoflip sẽ cắt khung hiển thị sao cho vẫn đảm bảo sự mượt mà và đặc biệt là giữ lại đầy đủ nội dung đáng quan tâm.
Các nhà nghiên cứu AI Google cho biết Autoflip có thể được sử dụng để chuyển đổi video sang nhiều định dạng và kích thước màn hình mà không cần sự can thiệp từ con người. Ở giai đoạn tiếp theo, nhóm nghiên cứu muốn cải thiện khả năng theo dõi đối tượng trong các cuộc phỏng vấn và phim hoạt hình của Autoflip. Để làm được điều này, mô hình AI cần phải được trang bị các kỹ thuật phát hiện văn bản và hình ảnh mờ để sắp đặt đối tượng ở nền trước và nền sau trong một khung hình tốt hơn.
Bạn có thể tham khảo mã của Autoflip mã ở ĐÂY.