วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613_week9

Data Management II & Business Intelligence
Data Warehouse
·         รวบรวมและคัดกรองข้อมูลต่างๆ เข้าสู่ Metadata           
·         Data Staging (ETL) เป็นกระบวนการคัดกรองข้อมูลที่ต้องการโดยคัดลอกจาก Database มาเก็บไว้ใน Data Cube (Data Cube คือ Multidimensional Databases ที่เอาไว้เก็บข้อมูลที่ Transform แล้วจึงมา Load ลงที่นี่ เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ หลายมุมมอง ทำให้เห็นปัญหาที่ชัดเจนขึ้นโดยใช้วิธี Slice (การตัดข้อมูลออกมาโดยมองในมุมมองของช่วงเวลา แต่มองสินค้าทุกชนิด) และ Dice (การตัดข้อมูลออกมาโดยมองในมุมมองของสินค้าชนิดหนึ่ง ในช่วงเวลายาวๆ)
·         Data Warehouse Business Subject 
·         Business Views อัพโหลดขึ้น dashboard เพื่อให้ผู้บริหารสามารถเรียกดูได้
·         Information Catalog สิ่งที่อยู่บน dashboard จะเป็นสารสนเทศในการวิเคราะห์
Data Mart
คือ ส่วนย่อยของ Data Warehouse โดยจะมีลักษณะเป็นคลังข้อมูลขนาดเล็กที่เก็บข้อมูลที่เฉพาะเจาะจง โดย Data Mart จะมีประโยชน์ที่เด่นชัดคือ การจัดทำคลังข้อมูลจะใช้เวลาสั้น และการนำไปประยุกต์ใช้ในเชิงวิเคราะห์ เพื่อการตัดสินใจในเรื่องใดเรื่องหนึ่งตามมุมมองที่ผู้ใช้ต้องการ
Business Intelligence (BI): เป็นโปรแกรมที่มีความสามารถในการทำ Online Analytical Process (OLAP) โดยรวมเครื่องมือในการทำงานต่างๆและ database เพื่อทำให้สามารถเข้าถึงข้อมูล จัดการข้อมูลได้อย่าง interactive รวมถึงช่วยให้ผู้บริหารและนักวิเคราะห์สามารถวิเคราะห์ข้อมูลต่างๆได้อย่างดียิ่งขึ้น
Data Cleansing คือการแก้ปัญหา Consistency วิธีหนึ่ง เช่น หากเราพบว่า field ข้อมูลช่องหนึ่งหายไป เราอาจหาค่าเฉลี่ยของสองช่องข้างๆ มาใส่ลงไปแทน หรืออาจใช้วิธีอื่น ทั้งนี้ขึ้นกับว่าข้อมูลที่เราใช้มีลักษณะเป็นอย่างไรการกำจัด attribute ที่ไม่จำเป็นออกไป อาจเป็น attribute ที่ค่อนข้าง unique ของแต่ละบุคคล เช่น บ้านเลขที่ หมู่บ้าน ถนน แขวง เขต และจังหวัด เป็นต้น เนื่องจากมีความละเอียดมากเกินไปต่อการวิเคราะห์ข้อมูล โดยอาจแปลง (Transform) ข้อมูลจังหวัดเป็นภูมิภาค แล้วนำข้อมูลที่ได้จากการ transform นี้ไป Load ลงใน Data Cube
Data Mining   คือ การค้นหาสิ่งที่ไม่เคยรู้มาก่อน ก่อให้เกิดความเข้าใจและสามารถปฏิบัติลงมือทำได้ เป็นการทำให้ข้อมูลขององค์กรที่มีอยู่มากมายมหาศาลเกิดประโยชน์ขึ้นมาผ่านการวิเคราะห์ อย่างไรก็ตามการทำ Data Mining จะเกิดประโยชน์ก็ต่อเมื่อสามารถตีความ (Interpretation) หรือเข้าใจในผลลัพธ์ที่ออกมา
เทคนิคในการทำ Data mining1.Clustering : เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน โดยมีเกณฑ์แบ่งตัวแปรนั้นออกเป็นกลุ่ม เช่น เพศ รายได้
2.Classification : เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้หรือไม่ โดยพิจารณาจากข้อมูลที่มีอยู่ ซึ่ง model ที่สร้างนั้น จะเป็นตัวกรองข้อมูลต่างๆออกเป็นกลุ่มๆที่มีลักษณะแตกต่างกัน
3.Association : เป็นการค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปใช้ในการวิเคราะห์ปรากฏการณ์ต่างๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “Market Basket Analysis” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ กฎความสัมพันธ์”(Association Rule) เพื่อหาความสัมพันธ์ของข้อมูล เช่น การใช้บริการเปิดบัญชีออมทรัพย์ มักมีการเปิดใช้บริการ ATM ด้วย
4.Sequence Discovery : เกิดผลตามหลัง
5.Prediction : เป็นการ Forecast ไปข้างหน้า

ปัญจรัตน์ อุทัยพัฒน์   5202113196

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

AI613_week8

AI613_week8_12/1/11
Data Management
System: ระบบมีกระบวนการทำงานคือ input ผ่าน processออกมาเป็น output ต้องกำหนด Objective ก่อนว่าทำไปเพื่ออะไร ต้องการทำอะไรกับสิ่งเหล่านี้
Date VS Information: information ต่างจากdataคือ information เป็นข้อมูลที่ผู้รับข้อมูลจะมีส่วนได้ส่วนเสีย หรือได้รับประโยชน์จากข้อมูลนั้น โดยข้อมูลนั้นจะมีผลต่อพฤติกรรมและการตัดสินใจของผู้รับข้อมูล ในขณะที่data ไม่ส่งผลอะไร
ระบบสารสนเทศ(Information system)
ระบบสารสนเทศ คือ ระบบที่ผลิตสารสนเทศ ซึ่งแตกต่างกันไปตามวัตถุประสงค์ โดยระบบสารสนเทสนั้นทำหน้าที่ในการรวบรวมข้อมูลจากแหล่งต่างๆและนำข้อมูลไปประมวลผลหรือวิเคราะห์ เพื่อให้ได้สารสนเทศตามวัตถุประสงค์และนำเสนอแก่ผู้ที่ต้องการ  และทำการจัดเก็บบันทึกข้อมูลไว้เพื่อใช้ในอนาคตต่อไป
องค์ประกอบของสารสนเทศ 
·         Hardware
·         software
  • data
  • network
  • procedures
  • people
ปัญหาในการจัดการข้อมูล
1.       ข้อมูลกระจัดกระจายทำให้เกิดความซ้ำซ้อนของข้อมูล
2.       จำนวนข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
3.       การเลือกใช้เครื่องมือในการจัดเก็บข้อมูล
4.       ความปลอดภัย คุณภาพ
Data Life Cycle Process: ดูว่าข้อมูลเมื่อเริ่มเกิดขึ้นแล้วไปจบที่ตรงไหน เช่น เมื่อมีข้อมูลเกิดขึ้นแล้ว ข้อมูลจะถูกเก็บไว้ที่ database ก่อนที่จะถูกนำไปเก็บไว้ที่ data warehouse ตามวัตถุประสงค์หรือ format ที่องค์กรต้องการ จากนั้นผู้ใช้ข้อมูลสามารถเข้าไปใช้ข้อมูลจาก data warehouse เพื่อใช้ประโยชน์ในการวิเคราะห์ได้

ปัญจรัตน์ อุทัยพัฒน์ 5202113196