กูเกิลเปิดตัวโปรแกรม Live Transcribe มาตั้งแต่ต้นปีที่ผ่านมา ตอนนี้โปรแกรมก็เปิดเป็นโอเพนซอร์สให้นำไปคอมไพล์ (และจ่ายเงินค่า API) กันเองได้แล้ว
แม้โปรแกรมจะใช้ฟีเจอร์แปลงเสียงเป็นข้อความของ Cloud Speech API เป็นหลัก แต่ตัวโปรแกรมเองก็มีความสามารถเพิ่มเติมหลายอย่าง ได้แก่
- ทนทานต่อเน็ตเวิร์คดับ สามารถรอการเชื่อมต่ออินเทอร์เน็ตได้หนึ่งชั่วโมง
- เก็บข้อมูลความมั่นใจ, หมายเลขประจำผู้พูด (ทำจากตัวแอปโดยตรง)
- ตรวจจับช่วงเวลาเริ่มพูดและหยุดพูด ทำให้ไม่ต้องส่งข้อมูลเสียงตลอดเวลา
- เปลี่ยนไปใช้เอนจินแบบออฟไลน์ได้
ตัวไลบรารีเป็นสัญญาอนุญาตแบบ Apache 2.0 แต่โมเดลการตรวจจับผู้พูดหรือช่วงเวลาเริ่มพูดไมได้โอเพนซอร์สมาด้วย รวมถึงชุดทดสอบต่างๆ ก็ไม่ได้โอเพนซอร์สเช่นกัน
ที่มา - Google Live Transcribe Speech Engine
- สามารถเปลี่ยนไปใช้โมเดลแปลงเสียงแบบออฟไลน์ได้
Topics:
from Blognone https://www.blognone.com/node/111417
via IFTTT

