Với bản nâng cấp mới nhất, Gemini giờ đây không chỉ đọc văn bản, mà còn "nghe" được âm thanh! Tìm hiểu cách upload file âm thanh miễn phí 10 phút, 3 giờ nếu trả phí và khám phá các ứng dụng tuyệt vời của tính năng AI đa phương thức này.
Tính năng này cho phép người dùng tải lên file âm thanh
và yêu cầu Gemini tóm tắt nội dung hoặc chuyển đổi lời nói thành văn bản.
- Người
dùng miễn phí có thể tải lên tối đa 10 phút âm thanh.
- Người
dùng trả phí (Gemini Advanced) có giới hạn lên đến 3 giờ.
Tính năng này có nhiều ứng dụng thực tế như tóm tắt cuộc
họp, chuyển bài giảng thành văn bản, biên tập phỏng vấn, và hỗ trợ sáng tạo nội
dung.
So với các đối thủ như Whisper
của OpenAI, Gemini có lợi thế vượt trội nhờ khả năng xử lý đa phương
thức. Trong khi Whisper chủ yếu tập trung vào việc chuyển đổi giọng nói
thành văn bản, Gemini lại kết hợp tính năng này với khả năng tổng hợp, tóm tắt
và phân tích dữ liệu đa dạng (văn bản, hình ảnh, video).
Thêm vào đó, điểm mạnh của Gemini
là khả năng tích hợp sâu vào hệ sinh thái Google (Gmail, Google Drive),
biến nó thành một công cụ cực kỳ tiện lợi và mạnh mẽ.
Hướng dẫn cách sử dụng nhanh chóng
Sử dụng tính năng này cực kỳ đơn giản. Hãy làm theo các bước
sau:
-
Truy cập vào trang web hoặc ứng dụng Gemini.
-
Bắt đầu một cuộc hội thoại mới.
-
Tìm biểu tượng "đính kèm" (thường là một kẹp giấy hoặc biểu tượng loa).
-
Tải lên tệp âm thanh của bạn (hỗ trợ nhiều định dạng như .mp3, .wav, .m4a…).
-
Viết prompt (yêu cầu) của bạn. Ví dụ: "Hãy tóm tắt lại cuộc họp này và liệt kê các điểm chính."
-
Đợi Gemini xử lý và đưa ra kết quả.
Mẹo nhỏ: Để đạt được kết quả tốt nhất, hãy đảm bảo chất
lượng tệp âm thanh của bạn rõ ràng, ít tiếng ồn. Càng cung cấp prompt chi tiết,
Gemini càng hiểu rõ yêu cầu của bạn.
Hãy truy cập ngay gemini.google.com để trải nghiệm tính năng mới mẻ này nhé!