Pantip.com จับมือ ม.เกษตร เปิดตัวระบบ Auto Tag ด้วย Machine Learning

Pantip.com เปิดตัวฟีเจอร์ใหม่ Auto Tag ระบบจัดแท็กให้กระทู้อัตโนมัติ โดยใช้เทคนิควิเคราะห์คำในกระทู้ตั้งแต่ตอนโพสต์ ระบบจะอ่านข้อความแล้วคัดเลือกแท็กที่น่าจะเกี่ยวข้องมานำเสนอให้ 15 แท็ก (Pantip ใส่ได้ 5 แท็ก) เป้าหมายเพื่อช่วยให้เจ้าของกระทู้เลือกแท็กอย่างแม่นยำขึ้น และลดภาระการดูแลกระทู้ของทีมงานลง

ระบบนี้เป็นความร่วมมือของ Pantip.com, บริษัท อินโนเวทีฟ เอ็กซ์ตรีมิสต์ (INOX) ผู้ดูแลระบบโครงสร้างพื้นฐานไอทีให้ Pantip และภาควิชาวิศกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

Pantip Auto Tag

คุณอภิศิลป์ ตรุงกานนท์ ซีทีโอของ Pantip (หรือที่รู้จักกันในชื่อ @macroart) เล่าว่าตอนนี้ Pantip มีคนเข้าเว็บวันละ 4.2 ล้านคน คิดเป็น 16 ล้านเพจวิว มีกระทู้ใหม่วันละ 5,000 กระทู้ ซึ่งเติบโตขึ้นเรื่อยๆ

Pantip Auto Tag

ห้องยอดนิยมของ Pantip ในปี 2015 คือห้องก้นครัว แต่ตอนนี้ห้องบางขุนพรหม (ข่าวดารา-บันเทิง) ที่เพิ่งเปิดเมื่อกลางปีที่แล้ว แซงหน้ากลายเป็นห้องยอดนิยมอันดับหนึ่งไปแล้ว

Pantip Auto Tag

แท็กยอดนิยมคือแท็ก "ความรัก" ตามด้วย "ชีวิตวัยรุ่น" และ "หุ้น"

Pantip Auto Tag

ที่ผ่านมา Pantip ให้เจ้าของกระทู้เป็นฝ่ายเลือกแท็กให้กระทู้เอง ปัญหาที่พบคือ 1) ใส่แท็กไม่เป็น 2) สแปมแท็ก อยากให้คนเห็นเยอะๆ เลยตั้งแท็กหว่านๆ

Pantip Auto Tag

ทางแก้ของ Pantip คือต้องมีทีมงานตรวจสอบกระทู้อย่างละเอียด และแก้ไขแท็กให้ถูกต้อง ปัจจุบันมีกระทู้ใหม่วันละ 5,000 กระทู้ ถือเป็นงานหนัก ต้องใช้ทีมเว็บมาสเตอร์หลายสิบคนช่วยกันมอนิเตอร์ เปลืองแรงมาก

Pantip Auto Tag

Pantip Auto Tag

Pantip จึงปรึกษากับ INOX ในฐานะพาร์ทเนอร์ทางเทคโนโลยี ที่คอยดูแลระบบให้อยู่แล้ว ว่าถ้ามีปัญหาแบบนี้ทำอะไรได้บ้าง ทางออกก็ชัดเจนว่าต้องมีระบบเข้ามาช่วยแยกแยะข้อความในกระทู้ เพื่อนำเสนอแท็กให้ผู้ใช้งาน

การทำระบบนี้ได้ประโยชน์ 2 ต่อ คือ ผู้ใช้เลือกแท็กได้แม่นยำขึ้น โดยไม่ต้องทำอะไรเพิ่ม และช่วยลดภาระของทีมแอดมินลง

Pantip Auto Tag

ผู้เชี่ยวชาญที่เข้ามาช่วยคือห้องวิจัย MIKE (Massive Information & Knowledge Engineering) ของภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ ที่มีความชำนาญเรื่องการจัดการข้อมูลขนาดใหญ่อยู่แล้ว

Pantip Auto Tag

รศ.ดร.อานนท์ รุ่งสว่าง จากห้องวิจัย MIKE อธิบายว่าใช้เทคนิค Big Data และ Machine Learning สร้างระบบนี้ขึ้น กระบวนการของ Machine Learning คือ Pantip มีข้อมูลกระทู้เก่าที่คัดแยกแท็กโดยทีมงานอยู่แล้ว ข้อมูลพวกนี้ใช้เป็น Training Data เพื่อหาโมเดลการแยกแยะข้อมูลได้

Pantip Auto Tag

รายละเอียดในเชิงเทคนิคคือสร้าง "เวกเตอร์" ของกลุ่มแท็กประเภทต่างๆ ขึ้นมาจากข้อมูลเก่าและโมเดลที่เทรนไว้

Pantip Auto Tag

เมื่อมีกระทู้ใหม่ถูกส่งเข้ามาในระบบ มันจะถูกมองว่าเป็นเวกเตอร์ใหม่หนึ่งตัว ระบบจะพิจารณา "ทิศทาง" ของเวกเตอร์นั้นจากเนื้อหาของกระทู้ (ด้วย natural language processing) จากนั้นนำเวกเตอร์กระทู้ไปเทียบกับเวกเตอร์ตัวอื่นๆ ที่เคยประมวลผลไว้แล้ว ว่ามีความคล้ายคลึงกันแค่ไหน แล้วจึงคัดเลือกแท็กในกลุ่มเดียวกันให้

Pantip Auto Tag

ในงานแถลงข่าวมีเดโม โดยใช้เนื้อหากระทู้จากข่าวไฟไหม้ธนาคาร SCB เมื่อคืนนี้ ผลคือระบบแยกแยะคำว่า "อุบัติเหตุ" ได้ แต่กลับไม่แนะนำแท็ก "SCB" ให้ตอนตั้งกระทู้ ซึ่งอธิบายได้ว่าเป็นผลมาจากกลุ่ม "SCB" มักใช้กับแท็ก "การเงิน" หรือ "หุ้น" มากกว่า พอมีเนื้อหาที่ไม่เชื่อมโยงกันนัก ทำให้ระบบยังไม่สามารถจัดกลุ่ม "SCB" กับ "อุบัติเหตุ" เข้าด้วยกันได้

แต่เนื่องจากระบบ Auto Tag ใช้เทคนิค Machine Learning ดังนั้นเมื่อมีเนื้อหาลักษณะนี้มากขึ้น ระบบก็จะเรียนรู้ได้เองว่ามีข่าวแบบนี้ด้วย และจะพัฒนาตัวเองให้นำเสนอแท็กที่แม่นยำขึ้นในภายหลัง

รายละเอียดในแง่การใช้งาน อ่านได้จาก เปิดตัวฟีเจอร์ใหม่ : Auto Tag



from Blognone https://www.blognone.com/node/79057
via IFTTT