วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613_week9

Data Management II & Business Intelligence
Data Warehouse
·         รวบรวมและคัดกรองข้อมูลต่างๆ เข้าสู่ Metadata           
·         Data Staging (ETL) เป็นกระบวนการคัดกรองข้อมูลที่ต้องการโดยคัดลอกจาก Database มาเก็บไว้ใน Data Cube (Data Cube คือ Multidimensional Databases ที่เอาไว้เก็บข้อมูลที่ Transform แล้วจึงมา Load ลงที่นี่ เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ หลายมุมมอง ทำให้เห็นปัญหาที่ชัดเจนขึ้นโดยใช้วิธี Slice (การตัดข้อมูลออกมาโดยมองในมุมมองของช่วงเวลา แต่มองสินค้าทุกชนิด) และ Dice (การตัดข้อมูลออกมาโดยมองในมุมมองของสินค้าชนิดหนึ่ง ในช่วงเวลายาวๆ)
·         Data Warehouse Business Subject 
·         Business Views อัพโหลดขึ้น dashboard เพื่อให้ผู้บริหารสามารถเรียกดูได้
·         Information Catalog สิ่งที่อยู่บน dashboard จะเป็นสารสนเทศในการวิเคราะห์
Data Mart
คือ ส่วนย่อยของ Data Warehouse โดยจะมีลักษณะเป็นคลังข้อมูลขนาดเล็กที่เก็บข้อมูลที่เฉพาะเจาะจง โดย Data Mart จะมีประโยชน์ที่เด่นชัดคือ การจัดทำคลังข้อมูลจะใช้เวลาสั้น และการนำไปประยุกต์ใช้ในเชิงวิเคราะห์ เพื่อการตัดสินใจในเรื่องใดเรื่องหนึ่งตามมุมมองที่ผู้ใช้ต้องการ
Business Intelligence (BI): เป็นโปรแกรมที่มีความสามารถในการทำ Online Analytical Process (OLAP) โดยรวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่างดียิ่งขึ้น
Data Cleansing คือการแก้ปัญหา Consistency วิธีหนึ่ง เช่น หากเราพบว่า field ข้อมูลช่องหนึ่งหายไป เราอาจหาค่าเฉลี่ยของสองช่องข้างๆ มาใส่ลงไปแทน หรืออาจใช้วิธีอื่น ทั้งนี้ขึ้นกับว่าข้อมูลที่เราใช้มีลักษณะเป็นอย่างไรการกำจัด attribute ที่ไม่จำเป็นออกไป อาจเป็น attribute ที่ค่อนข้าง unique ของแต่ละบุคคล เช่น บ้านเลขที่ หมู่บ้าน ถนน แขวง เขต และจังหวัด เป็นต้น เนื่องจากมีความละเอียดมากเกินไปต่อการวิเคราะห์ข้อมูล โดยอาจแปลง (Transform) ข้อมูลจังหวัดเป็นภูมิภาค แล้วนำข้อมูลที่ได้จากการ transform นี้ไป Load ลงใน Data Cube
Data Mining   คือ การค้นหาสิ่งที่ไม่เคยรู้มาก่อน ก่อให้เกิดความเข้าใจและสามารถปฏิบัติลงมือทำได้ เป็นการทำให้ข้อมูลขององค์กรที่มีอยู่มากมายมหาศาลเกิดประโยชน์ขึ้นมาผ่านการวิเคราะห์ อย่างไรก็ตามการทำ Data Mining จะเกิดประโยชน์ก็ต่อเมื่อสามารถตีความ (Interpretation) หรือเข้าใจในผลลัพธ์ที่ออกมา
เทคนิคในการทำ Data mining1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า

ปัญจรัตน์ อุทัยพัฒน์   5202113196

ไม่มีความคิดเห็น:

แสดงความคิดเห็น