ไมโครซอฟท์เปิดตัวบริการใหม่ Azure Data Lake แพลตฟอร์มสำหรับจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ (big data) บนกลุ่มเมฆ
Azure Data Lake ประกอบด้วยชิ้นส่วนย่อย ดังนี้
- Azure Data Lake Store เป็นบริการสำหรับจัดเก็บข้อมูล (data store) จากแหล่งอื่น เช่น เว็บไซต์ เซ็นเซอร์ หรืออุปกรณ์ต่างๆ จุดเด่นของมันคือเก็บข้อมูลอยู่บนแพลตฟอร์มของ Azure และเข้ากันได้กับระบบไฟล์ HDFS สามารถนำไปประมวลผลต่อด้วยแอพพลิเคชัน Hadoop ได้
- Azure Data Lake Analytics เป็นบริการตัวใหม่สำหรับวิเคราะห์ข้อมูล โดยไมโครซอฟท์นำโค้ดของโครงการ Apache YARN มาปรับปรุงให้ทำงานบน Azure ได้ดีขึ้น
- Azure HDInsight ดิสโทร Hadoop/Spark/HBase/Storm เวอร์ชันของไมโครซอฟท์ที่พัฒนามาได้สักระยะแล้ว ล่าสุดออกเวอร์ชันลินุกซ์แล้ว

ส่วนของ Analytics ไมโครซอฟท์ยังพัฒนาภาษาใหม่ชื่อ U-SQL (ย่อมาจาก unified) โดยรวมเอาจุดเด่นของภาษาคิวรีข้อมูล SQL มาผสมกับภาษาโปรแกรมมิ่ง (อิงจาก C#) และภาษา SCOPE ที่ไมโครซอฟท์พัฒนาขึ้นใช้ภายใน การสร้างภาษา U-SQL ช่วยให้การวิเคราะห์ข้อมูลขนาดใหญ่ทำได้ง่ายขึ้น จบในภาษาเดียว และยังคง syntax ที่คุ้นเคยจาก ANSI SQL (ที่ใช้ใน SQL Server) และ C# อีกด้วย
ไมโครซอฟท์จะเปิดบริการ Azure Data Lake รุ่นพรีวิวช่วงปลายปีนี้
ที่มา - Microsoft (Data Lake), Microsoft (U-SQL)
ตัวอย่างภาษา U-SQL
@t = EXTRACT date string
, time string
, author string
, tweet string
FROM "/input/MyTwitterHistory.csv"
USING Extractors.Csv();
@res = SELECT author
, COUNT(*) AS tweetcount
FROM @t
GROUP BY author;
OUTPUT @res TO "/output/MyTwitterAnalysis.csv"
ORDER BY tweetcount DESC
USING Outputters.Csv();
Microsoft Azure, Big Data, Hadoop, Cloud Computing, SQL
from Blognone https://www.blognone.com/node/73259
via IFTTT

