เข้าใจกันสักนิดกับบิ๊กเดต้า (Big Data)

เทคโนโลยี Big data analytics เป็นกระบวนการณ์วิเคราะห์ข้อมูลที่มีจำนวนมาก มีขนาดใหญ่ มีความเร็ว มีความหลากหลาย และเป็นข้อมูลที่คลุมเครือ ตามรูปด้านล่างที่กล่าวถึง 4Vs of Big Data ในการค้นหารูปแบบความสัมพันธ์ของข้อมูลที่ซ่อนอยู่ภายในจำนวนมาก ๆ ทำการหาสิ่งที่เชื่อมโยงระหว่างข้อมูลหลาย ๆ เรคคอร์ดเข้าด้วยกัน แล้วนำมาวิเคราะห์ และสามารถพยากรณ์ถึงเทรนต่าง ๆ ที่จะเกิดขึ้นในอนาคตได้ หรือใช้ในการตัดสินใจ ยกตัวอย่างเพื่อให้เห็นภาพมายิ่งขึ้นนะครับ อย่างเช่น การนำข้อมูลวิเคราะห์ของร้านสะดวกซื้อ 7Eleven ที่ดูว่าสินค้าอะไรที่ลูกค้ามักจะสั่งบ่อยครั้ง ในช่วงเวลาไหน อาจจะช่วงสิ้นเดือน ต้นเดือน หรือวันหยุด ก็มักจะทำโปรโมชั่นออกมาเป็นแพ็คเพื่อทำการขายในช่วงเวลานั้นเฉพาะเจาะจง รวมถึงการจัดวางสินค้าในชั้นวางของที่หน้าร้าน หรือหน้าเคาร์เตอร์จ่ายเงิน สิ่งต่าง ๆ เหล่านี้ไม่ได้เกิดขึ้นมาจากการที่ร้านสะดวกซื้อคิดเอาจากความรู้สึก แต่ได้มาจากข้อมูลซึ่งถูกวิเคราะห์มาเรียบร้อยแล้วนั่นเองครับ

หลายครั้งมีคนพูดถึงบิ๊กเดต้า หลายคนก็มักจะนึกว่าเป็นข้อมูลที่มีขนาดใหญ่อย่างเดียว แต่จริง ๆ แล้วบิ๊กเดต้า (Big Data) นั้นคือ ข้อมูลขนาดใหญ่ ที่มีคุณลักษณะดังต่อไปนี้ครับ
1. Volume คือ ข้อมูลที่มีปริมาณมาก ในระดับ Terabyte หรือ Petabyte ขึ้นไป
2. Velocity คือ ข้อมูลมีการเปลี่ยนแปลงตลอดเวลาและรวดเร็ว เรียกได้ว่ามี Transaction ที่เยอะมาก ๆ เช่น การซื้อขายหุ้นในตลาดหลักทรัพย์แห่งประเทศไทย, การซื้อขายบิตคอยน์ เป็นต้น
3. Variety คือ ชนิดและลักษณะของข้อมูลมีความหลากหลาย ทั้งแบบมีโครงสร้าง แบบกึ่งโครงสร้าง หรือแบบไม่มีโครงสร้าง เช่น รูปภาพ ข้อความ วีดีโอ เช่นข้อมูลข่าว, ข้อมูลจากสื่อ Social Media เป็นต้น

หากมี 3V นี้ครบถ้วนก็จะถือว่าเป็นบิ๊กเดต้า อย่างไรก็ตามในปัจจุบันก็ได้มีการกำหนดคุณลักษณะเพิ่มเติม ดังนี้่ครับ
4. Veracity คือ คุณภาพและความน่าเชื่อถือของข้อมูล เพราะถ้าข้อมูลไม่มีคุณภาพ ไม่มีความน่าเชื่อถือ นำมาวิเคราะห์ ก็ยังเป็นข้อมูลที่ไม่ดีเหมือนเดิม
5. Value คือ ข้อมูลที่มีคุณค่า สามารถนำไปใช้ประโยชน์ได้ หรือมีมูลค่าและความสำคัญต่อธุรกิจในการนำมาใช้ประโยชน์

Big Data รองรับการวิเคราะห์ข้อมูลต่าง ๆ โดยซอฟท์แวร์ที่มีการใช้งานกันอย่างแพร่หลาย เช่น Hadoop, MapReduce, Hive และ NoSQL เป็นต้น โปรแกรมต่าง ๆ เหล่านี้สามารถทำงานร่วมกันกับพวกข้อมูลที่ไม่มีโครงสร้าง หรือกึ่งมีโครงสร้างได้เป็นอย่างดี เช่น Log files, Social media data ในหลาย ๆ ส่วนจะถูกโหลดเข้าไปทำงานและประมวลผลครับ

Big Data and Data Warehousing

Data Warehouse คือแหล่งจัดเก็บข้อมูล ซึ่งต้องผ่าน ETL (Extract>Transform>Load) มาก่อน เพื่อทำข้อมูลให้มีคุณภาพ แล้วนำมาเก็บใน Data Warehouse ภายหลัง สามารถนำมาทำงานร่วมกับ Big data ได้ตามรูปด้านบนนี้

ความท้าทายของ Big Data Analytics มีอะไรบ้าง

1. ขนาดของข้อมูล ต้องจัดการกับมันอย่างไร เช่นการเข้าถึง Web ภายในองค์กร จะต้องเตรียมเรื่องของ Network Infrastructure เพื่อรองรับทั้งการใช้งาน และภายในเดต้าเซ็นเตอร์อย่างไร การออกแบบระบบเครือข่ายให้เป็น 2 tier แบบ Spine และ Leaf รองรับการ Scale Out หรือการขยายที่มากยิ่งขึ้นได้ในอนาคต
2. ความสามารถในการเก็บข้อมูลในช่วงเวลาที่กำหนด ส่วนของ Database มีความสำคัญเช่นเดียวกัน ด้านล่างเป็น Ranking ของเครื่องมือและซอฟต์แวร์ยอดนิยมสำหรับวิทยาศาสตร์ข้อมูลในปี 2020 ที่ผ่านมา จะเห็นจากลำดับต้น ๆ จะมี Oracle, MySQL ซึ่งหลายต่อหลายคนคุ้นเคยกันเป็นอย่างดีครับ


3. หากไม่มีการ Analytic ข้อมูลในขณะนั้น ก็อาจจะทำให้ข้อมูลนั้นล้าสมัยได้ ตลาดอาจจะอิ่มตัวไปแล้วก็ได้ เช่น ราคาหุ้น เพราะฉะนั้นหากมีการวิเคราะห์ข้อมูลได้อย่างเรียลไทม์ มี Dashboard เพื่อให้ผู้บริหารตัดสินใจได้ทันที ก็จะได้เปรียบคู่แข่งขัน
4. ความสามารถในการรวมข้อมูลแหล่งต่าง ๆ เข้าด้วยกัน ไม่ว่าจะเป็นข้อมูลที่เราสามารถดึงจาก Open data เช่นข้อมูลจาก Social Media หรือข้อมูลที่เก็บไว้ในอดีตที่ผ่านมา อาจจะเป็นเอกสารทางราชการ เอกสารที่มีการบันทึกไว้เป็น Log File เป็นต้น
5. ความสามารถในการประมวลผล ดูแล พัฒนาทักษะของ Big Data เช่น Data Scientist เป็นผู้ที่มีความรู้ ความเข้าใจเกี่ยวกับเรื่องของข้อมูล และสถิติ และตอนนี้เป็นอาชีพที่น่าจับตามาก เพราะเป็นผู้ที่นำเทคโนโลยีมาใช้ร่วมกับข้อมูลที่มีอยู่ เพื่อหาข้อสรุปจากข้อมูลที่ได้ และเป็นประโยชน์ต่อการพยากรณ์ และการวางแผนงานให้กับบริษัทต่าง ๆ ได้อย่างถูกต้องครับ
6. ต้องดูเรื่องของ ROI ด้วย เช่นลงทุน ERP Software ไป 10 ล้าน ผลที่ได้คือการทำงานเร็วขึ้น, ลูกค้าพอใจมากขึ้น, กระบวนการทำงานดีขึ้น สิ่งเหล่านี้ได้จากการลงทุน ต้องเปลี่ยนสิ่งเหล่านี้ให้เป็นตัวเงิน ว่าลงทุนไป 10ล้าน ได้ Return กลับมาเท่าไหร่ ภายในกี่ปี จะต้องตอบโจทย์ได้ จากข้อมูลแผนภาพดังกล่าวจะเห็นได้ว่าธุรกิจ Big data และการวิเคราะห์จะมีข้อมูลมีมูลค่าถึง 274 พันล้านเหรียญสหรัฐเลยทีเดียวครับ

บทความนี้เป็นการพูดถึงเรื่องบิ๊กเดต้าเบื้องต้น ที่สามารถนำไปต่อยอดความเข้าใจเรื่องการใช้งานซอฟท์แวร์ได้ ไม่ว่าจะเป็น Public หรือ Private Cloud ครับ ปัจจุบันหลายหน่วยงานใช้ Big Data, AI, ML (Machine Learning) ในการนำมาวิเคราะห์การตลาด เพื่อช่วยในการทำการตลาด คิดยุทธศาสตร์ธุรกกิจต่าง ๆ เพื่อสามารถตอบโจทย์ให้กับลูกค้าได้โดยข้อมูลที่มีอยู่ มิใช่เพียงแค่ความรู้สึกนึกคิดจากทางตัวเราเองเท่านั้น

หากบทความนี้เป็นประโยชน์สำหรับเพื่อน ๆ ฝากกด Like กด Share บทความของเรากันด้วยนะครับ พบกันใหม่ฉบับหน้า สวัสดีครับ

ที่มา: Statista และ TUXSA Thammasat University, 2020