B. เมทริกซ์สหสัมพันธ์และเมทริกซ์ตัวประกอบ

13.10.2021

เมื่อคุ้นเคยกับแนวคิดเรื่องการโหลดปัจจัยและพื้นที่ของการเปลี่ยนแปลงร่วมกันแล้ว คุณสามารถไปต่อได้อีกครั้งโดยใช้เครื่องมือของเมทริกซ์สำหรับการนำเสนอ องค์ประกอบที่คราวนี้จะเป็นค่าสัมประสิทธิ์สหสัมพันธ์

เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับตามกฎจากการทดลองเรียกว่าเมทริกซ์สหสัมพันธ์หรือเมทริกซ์สหสัมพันธ์

องค์ประกอบของเมทริกซ์นี้คือค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรทั้งหมดในประชากรที่กำหนด

ตัวอย่างเช่น หากเรามีชุดที่ประกอบด้วยการทดสอบ จำนวนสัมประสิทธิ์สหสัมพันธ์ที่ได้รับจากการทดลองจะเป็น

ค่าสัมประสิทธิ์เหล่านี้เติมครึ่งหนึ่งของเมทริกซ์ ซึ่งอยู่ที่ด้านหนึ่งของเส้นทแยงมุมหลัก เห็นได้ชัดว่ามีสัมประสิทธิ์เดียวกันในอีกด้านหนึ่ง เนื่องจาก ฯลฯ ดังนั้นเมทริกซ์สหสัมพันธ์จึงสมมาตร

โครงการ 3.2 เมทริกซ์สหสัมพันธ์แบบเต็ม

มีหลายตัวที่อยู่บนเส้นทแยงมุมของเมทริกซ์นี้ เนื่องจากความสัมพันธ์ของแต่ละตัวแปรกับตัวมันเองคือ +1

เมทริกซ์สหสัมพันธ์ซึ่งองค์ประกอบของเส้นทแยงมุมหลักเท่ากับ 1 เรียกว่า "เมทริกซ์เต็ม" ของสหสัมพันธ์ (Scheme 3.2) และแสดงแทน

ควรสังเกตว่าโดยการวางหน่วยหรือความสัมพันธ์ของตัวแปรแต่ละตัวกับตัวมันเองบนเส้นทแยงมุมหลัก เราจะคำนึงถึงความแปรปรวนรวมของตัวแปรแต่ละตัวที่แสดงในเมทริกซ์ ดังนั้นจึงคำนึงถึงอิทธิพลไม่เพียงแต่ปัจจัยทั่วไปเท่านั้น แต่ยังรวมถึงปัจจัยเฉพาะด้วย

ในทางตรงกันข้ามหากในเส้นทแยงมุมหลักของเมทริกซ์สหสัมพันธ์มีองค์ประกอบที่สอดคล้องกับลักษณะทั่วไปและเกี่ยวข้องเฉพาะกับการกระจายตัวของตัวแปรทั่วไปเท่านั้น จากนั้นจะคำนึงถึงอิทธิพลของปัจจัยทั่วไปเท่านั้น อิทธิพลของปัจจัยเฉพาะและข้อผิดพลาดจะถูกกำจัด กล่าวคือ ความจำเพาะและการกระจายข้อผิดพลาดจะถูกละทิ้งไป

เมทริกซ์สหสัมพันธ์ซึ่งองค์ประกอบของเส้นทแยงมุมหลักสอดคล้องกับความเหมือนกันเรียกว่าการลดลงและเขียนแทนด้วย R (Scheme 3.3)

โครงการ 3.3 เมทริกซ์สหสัมพันธ์ลดลง

เราได้กล่าวถึงการโหลดปัจจัยหรือการเติมตัวแปรที่กำหนดด้วยปัจจัยเฉพาะแล้ว มีการเน้นย้ำว่าการโหลดตัวประกอบมีรูปแบบของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรที่กำหนดและปัจจัยที่กำหนด

เมทริกซ์ ซึ่งคอลัมน์ประกอบด้วยการโหลดแฟกเตอร์ที่กำหนดโดยสัมพันธ์กับตัวแปรทั้งหมดของประชากรที่กำหนด และแถวที่ประกอบด้วยการโหลดแฟกเตอร์ของตัวแปรที่กำหนด เรียกว่าเมทริกซ์แฟกเตอร์ หรือเมทริกซ์แฟกเตอร์ ตรงนี้เรายังพูดถึงเมทริกซ์ตัวประกอบเต็มและตัวลดได้ด้วย องค์ประกอบของเมทริกซ์ตัวประกอบเต็มสอดคล้องกับความแปรปรวนหน่วยรวมของตัวแปรแต่ละตัวในประชากรที่กำหนด หากการโหลดของปัจจัยทั่วไปแสดงด้วย c และการโหลดของปัจจัยเฉพาะด้วย และ ดังนั้นเมทริกซ์ตัวประกอบที่สมบูรณ์สามารถแสดงได้ดังต่อไปนี้:

โครงการ 3.4 เมทริกซ์ตัวประกอบเต็มสำหรับตัวแปรสี่ตัว

เมทริกซ์ตัวประกอบที่แสดงที่นี่มีสองส่วน ส่วนแรกประกอบด้วยรายการที่เกี่ยวข้องกับตัวแปรสี่ตัวและปัจจัยทั่วไปสามตัว ซึ่งทั้งหมดนี้ถือว่าใช้กับตัวแปรทั้งหมด นี่ไม่ใช่เงื่อนไขที่จำเป็น เนื่องจากองค์ประกอบบางส่วนของส่วนแรกของเมทริกซ์อาจเท่ากับศูนย์ ซึ่งหมายความว่าปัจจัยบางอย่างใช้ไม่ได้กับตัวแปรทั้งหมด องค์ประกอบของส่วนแรกของเมทริกซ์คือการโหลดของปัจจัยร่วม (เช่น องค์ประกอบแสดงการโหลดของปัจจัยร่วมที่สองในตัวแปรแรก)

ในส่วนที่สองของเมทริกซ์ เราจะเห็นการโหลดตัวประกอบลักษณะเฉพาะ 4 ตัว โดยตัวประกอบหนึ่งตัวในแต่ละแถว ซึ่งสอดคล้องกับลักษณะของตัวประกอบเหล่านั้น แต่ละปัจจัยเหล่านี้เกี่ยวข้องกับตัวแปรเพียงตัวเดียวเท่านั้น องค์ประกอบอื่นๆ ทั้งหมดของเมทริกซ์ส่วนนี้มีค่าเท่ากับศูนย์ ปัจจัยลักษณะเฉพาะสามารถแบ่งออกเป็นปัจจัยเฉพาะและที่เกี่ยวข้องกับข้อผิดพลาดได้อย่างชัดเจน

คอลัมน์ของเมทริกซ์ตัวประกอบแสดงลักษณะของตัวประกอบและอิทธิพลของตัวประกอบต่อตัวแปรทั้งหมด เส้นนี้แสดงลักษณะของตัวแปรและเนื้อหาด้วยปัจจัยต่างๆ หรืออีกนัยหนึ่งคือ โครงสร้างปัจจัยของตัวแปร

เมื่อวิเคราะห์เฉพาะส่วนแรกของเมทริกซ์ เรากำลังเผชิญกับเมทริกซ์ตัวประกอบที่แสดงความแปรปรวนรวมของแต่ละตัวแปร เมทริกซ์ส่วนนี้เรียกว่าลดลงและแสดงเป็น F เมทริกซ์นี้ไม่คำนึงถึงการโหลดปัจจัยลักษณะและไม่คำนึงถึงความแปรปรวนเฉพาะของบัญชี โปรดจำไว้ว่า ตามที่กล่าวไว้ข้างต้นเกี่ยวกับความแปรปรวนทั่วไปและการโหลดตัวประกอบ ซึ่งเป็นรากที่สองของความแปรปรวนร่วม ผลรวมของกำลังสองขององค์ประกอบของแต่ละแถวของเมทริกซ์ตัวประกอบตัวประกอบ F ที่ลดลงจะเท่ากับชุมชนของค่าที่กำหนด ตัวแปร

ดังนั้น ผลรวมของกำลังสองขององค์ประกอบแถวทั้งหมดของเมทริกซ์ตัวประกอบที่สมบูรณ์จะเท่ากับ หรือผลต่างรวมของตัวแปรที่กำหนด

เนื่องจากการวิเคราะห์ปัจจัยมุ่งเน้นไปที่ปัจจัยทั่วไป ต่อไปนี้เราจะใช้เมทริกซ์ความสัมพันธ์ที่ลดลงและเมทริกซ์ตัวประกอบที่ลดลงเป็นหลัก


บทบัญญัติพื้นฐาน

การวิเคราะห์ปัจจัยเป็นหนึ่งในส่วนใหม่ของการวิเคราะห์ทางสถิติหลายตัวแปร วิธีนี้ได้รับการพัฒนามาเพื่ออธิบายความสัมพันธ์ระหว่างพารามิเตอร์อินพุต ผลลัพธ์ของการวิเคราะห์สหสัมพันธ์คือเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์ หากจำนวนคุณลักษณะ (ตัวแปร) มีน้อย คุณสามารถดำเนินการวิเคราะห์เมทริกซ์นี้ด้วยภาพได้ เมื่อจำนวนสัญญาณเพิ่มขึ้น (10 หรือมากกว่า) การวิเคราะห์ด้วยภาพจะไม่ให้ผลลัพธ์ที่เป็นบวก ปรากฎว่าความสัมพันธ์ที่หลากหลายทั้งหมดสามารถอธิบายได้ด้วยการกระทำของปัจจัยทั่วไปหลายประการ ซึ่งเป็นฟังก์ชันของพารามิเตอร์ที่กำลังศึกษา ในขณะที่ปัจจัยนั้นอาจไม่เป็นที่รู้จัก แต่สามารถแสดงออกผ่านคุณลักษณะที่กำลังศึกษาได้ ผู้ก่อตั้งการวิเคราะห์ปัจจัยคือนักวิทยาศาสตร์ชาวอเมริกัน แอล. เธอร์สโตน

นักสถิติสมัยใหม่เข้าใจการวิเคราะห์ปัจจัยเป็นชุดของวิธีการที่บนพื้นฐานของการเชื่อมโยงในชีวิตจริงระหว่างลักษณะต่างๆ ช่วยให้สามารถระบุลักษณะทั่วไปที่แฝงอยู่ (ซ่อนเร้น) ของโครงสร้างองค์กรและกลไกของการพัฒนาปรากฏการณ์และกระบวนการที่กำลังศึกษา

ตัวอย่าง: สมมติว่ารถยนต์ n คันได้รับการประเมินตามเกณฑ์ 2 ข้อ:

x 1 – ราคารถ,

x 2 คือระยะเวลาอายุการใช้งานของมอเตอร์

โดยมีเงื่อนไขว่า x 1 และ x 2 มีความสัมพันธ์กัน กระจุกจุดที่มีทิศทางและหนาแน่นพอสมควรจะปรากฏในระบบพิกัด ซึ่งแสดงอย่างเป็นทางการด้วยแกนใหม่และ (รูปที่ 5)

รูปที่ 6

คุณสมบัติ เอฟ 1 และ เอฟ 2 คือพวกมันผ่านกลุ่มจุดหนาแน่นและมีความสัมพันธ์กันตามลำดับ x 1 x 2.สูงสุด

จำนวนแกนใหม่จะเท่ากับจำนวนคุณสมบัติเบื้องต้น การพัฒนาเพิ่มเติมในการวิเคราะห์ปัจจัยแสดงให้เห็นว่าวิธีนี้สามารถนำไปใช้กับปัญหาการจัดกลุ่มและจำแนกวัตถุได้สำเร็จ

การนำเสนอข้อมูลในการวิเคราะห์ปัจจัย

เพื่อดำเนินการวิเคราะห์ปัจจัย ข้อมูลจะต้องนำเสนอในรูปแบบของเมทริกซ์ขนาด m x n:

แถวของเมทริกซ์สอดคล้องกับวัตถุการสังเกต (i=) และคอลัมน์สอดคล้องกับคุณลักษณะ (j=)

คุณลักษณะที่แสดงลักษณะของวัตถุจะมีมิติต่างกัน เพื่อนำมาไว้ในมิติเดียวกันและรับประกันความสามารถในการเปรียบเทียบคุณลักษณะต่างๆ โดยปกติแล้วเมทริกซ์ข้อมูลต้นฉบับจะถูกทำให้เป็นมาตรฐานโดยการแนะนำสเกลเดียว วิธีการทำให้เป็นมาตรฐานที่พบบ่อยที่สุดคือการทำให้เป็นมาตรฐาน จากตัวแปรไปที่ตัวแปร

ค่าเฉลี่ย เจเข้าสู่ระบบ,

ส่วนเบี่ยงเบนมาตรฐาน.

การเปลี่ยนแปลงนี้เรียกว่าการทำให้เป็นมาตรฐาน

แบบจำลองการวิเคราะห์ปัจจัยพื้นฐาน

แบบจำลองการวิเคราะห์ปัจจัยพื้นฐานมีรูปแบบดังนี้

zเจ – เจ- เครื่องหมาย (ค่าสุ่ม);

เอฟ 1 , เอฟ 2 , …, เอฟ พี– ปัจจัยทั่วไป (ค่าสุ่ม, ค่ากระจายปกติ)

ยู เจ– ปัจจัยลักษณะเฉพาะ

เจ1 , เจ2 , …, เจพี ปัจจัยการโหลดที่แสดงถึงความสำคัญของอิทธิพลของแต่ละปัจจัย (ที่จะกำหนดพารามิเตอร์แบบจำลอง)

ปัจจัยทั่วไปมีความสำคัญต่อการวิเคราะห์คุณลักษณะทั้งหมด ปัจจัยลักษณะเฉพาะแสดงให้เห็นว่าเกี่ยวข้องกับคุณลักษณะที่กำหนดเท่านั้น ซึ่งเป็นลักษณะเฉพาะซึ่งไม่สามารถแสดงผ่านปัจจัยได้ กำลังโหลดปัจจัย เจ1 , เจ2 , …, เจพี กำหนดลักษณะของอิทธิพลของปัจจัยทั่วไปหนึ่งหรือปัจจัยอื่นในการแปรผันของคุณลักษณะที่กำหนด งานหลักของการวิเคราะห์ปัจจัยคือการกำหนดการโหลดปัจจัย ความแปรปรวน j 2 ของแต่ละลักษณะสามารถแบ่งออกเป็น 2 องค์ประกอบ:

    ส่วนแรกกำหนดการกระทำของปัจจัยทั่วไป - ความเหมือนกันของ h j 2;

    ส่วนที่สองกำหนดการกระทำของปัจจัยลักษณะ - ลักษณะเฉพาะ - d j 2

ตัวแปรทั้งหมดจะถูกนำเสนอในรูปแบบมาตรฐาน ดังนั้นความแปรปรวน - สัญญาณของรัฐ เจ2 = 1

หากปัจจัยทั่วไปและปัจจัยคุณลักษณะไม่สัมพันธ์กัน การกระจายตัวของคุณลักษณะ j สามารถแสดงได้เป็น:

โดยที่สัดส่วนของความแปรปรวนลักษณะที่เป็นของ เค-ปัจจัยที่

ผลรวมของปัจจัยใดๆ ต่อความแปรปรวนรวมเท่ากับ:

การมีส่วนร่วมของปัจจัยร่วมทั้งหมดต่อความแปรปรวนรวม:

สะดวกในการนำเสนอผลการวิเคราะห์ปัจจัยในรูปแบบตาราง

กำลังโหลดปัจจัย

ความเหมือนกัน

11 21 ...ก หน้า 1

12 22 หน้า 2

… … … …

1ม 2ม

ปัจจัย

วี 1 วี 2 ... วี พี

- เมทริกซ์ของการโหลดปัจจัย สามารถหาได้หลายวิธี โดยปัจจุบัน วิธีการที่นิยมใช้กันมากที่สุดคือ วิธีการหาองค์ประกอบหลักหรือปัจจัยหลัก

ขั้นตอนการคำนวณของวิธีตัวประกอบหลัก

การแก้ปัญหาโดยใช้ส่วนประกอบหลักคือการแปลงเมทริกซ์ข้อมูลต้นฉบับทีละขั้นตอน เอ็กซ์ :

เอ็กซ์- เมทริกซ์ข้อมูลต้นฉบับ

ซี– เมทริกซ์ของค่าคุณสมบัติมาตรฐาน

– เมทริกซ์ของความสัมพันธ์คู่:

เมทริกซ์แนวทแยงของตัวเลขลักษณะเฉพาะ

เจ พบได้โดยการแก้สมการคุณลักษณะ

อี- เมทริกซ์เอกลักษณ์,

 j – ตัวบ่งชี้การกระจายตัวของส่วนประกอบหลักแต่ละส่วน

ขึ้นอยู่กับมาตรฐานของแหล่งข้อมูล แล้ว=

ยู– เมทริกซ์ของเวกเตอร์ลักษณะเฉพาะ ซึ่งหาได้จากสมการ:

ในความเป็นจริงนี่หมายถึงการแก้ปัญหา ระบบสมการเชิงเส้นสำหรับแต่ละระบบ

เหล่านั้น. ค่าลักษณะเฉพาะแต่ละค่าสอดคล้องกับระบบสมการ

จากนั้นพวกเขาก็พบ วี- เมทริกซ์ของไอเกนเวกเตอร์ที่ทำให้เป็นมาตรฐาน

เมทริกซ์การแมปปัจจัย A คำนวณโดยใช้สูตร:

จากนั้นเราจะค้นหาค่าขององค์ประกอบหลักโดยใช้สูตรที่เทียบเท่ากัน:

กลุ่มวิสาหกิจอุตสาหกรรมสี่แห่งได้รับการประเมินตามคุณลักษณะเฉพาะสามประการ:

    ผลผลิตเฉลี่ยต่อปีต่อพนักงาน x 1;

    ระดับความสามารถในการทำกำไร x 2;

ระดับการผลิตทุน x 3

ผลลัพธ์จะถูกนำเสนอในเมทริกซ์มาตรฐาน ซี:

โดยเมทริกซ์ ซีได้รับเมทริกซ์ของความสัมพันธ์คู่ :

    เรามาค้นหาดีเทอร์มิแนนต์ของเมทริกซ์ความสัมพันธ์แบบคู่กัน (เช่น โดยใช้วิธีของ Faddeev)

    มาสร้างสมการคุณลักษณะกัน:

    เราพบการแก้สมการนี้:

ดังนั้นลักษณะเบื้องต้นเริ่มต้น x 1, x 2, x 3 สามารถสรุปได้โดยค่าขององค์ประกอบหลักทั้งสามและ:

เอฟ 1 อธิบายความแปรผันทั้งหมดโดยประมาณ

เอฟ 2 - ,ก เอฟ 3 -

องค์ประกอบหลักทั้งสามอธิบายความแปรผันได้อย่างสมบูรณ์ 100%

การแก้ปัญหาระบบนี้เราพบว่า:

ระบบสำหรับ 2 และ 3 ถูกสร้างขึ้นในลักษณะเดียวกัน สำหรับโซลูชันระบบ ï 2:

เมทริกซ์เวกเตอร์ไอเกน ยูใช้แบบฟอร์ม:

    เราหารแต่ละองค์ประกอบของเมทริกซ์ด้วยผลรวมของกำลังสองขององค์ประกอบของ j

คอลัมน์ เราจะได้เมทริกซ์มาตรฐาน วี.

โปรดทราบว่าจะต้องได้รับความเท่าเทียมกัน = อี.

    เราได้รับเมทริกซ์การแมปปัจจัยจากความสัมพันธ์ของเมทริกซ์

=

ความหมายของแต่ละองค์ประกอบของเมทริกซ์ แสดงถึงค่าสัมประสิทธิ์บางส่วนของเมทริกซ์สหสัมพันธ์ระหว่างจุดสนใจดั้งเดิม x j และส่วนประกอบหลัก เอฟร. ดังนั้นองค์ประกอบทั้งหมด

ความเท่าเทียมกันหมายถึงเงื่อนไข - จำนวนส่วนประกอบ

ผลงานรวมของแต่ละปัจจัยต่อความแปรปรวนรวมของลักษณะจะเท่ากับ:

แบบจำลองการวิเคราะห์ปัจจัยจะอยู่ในรูปแบบ:

มาหาค่าของส่วนประกอบหลัก (matrix เอฟ) ตามสูตร

จุดศูนย์กลางการกระจายค่าขององค์ประกอบหลักอยู่ที่จุด (0,0,0)

นอกจากนี้ ข้อสรุปเชิงวิเคราะห์ตามผลการคำนวณจะตามมาหลังจากการตัดสินใจเกี่ยวกับจำนวนคุณลักษณะที่สำคัญและส่วนประกอบหลัก และการกำหนดชื่อของส่วนประกอบหลัก งานในการจดจำองค์ประกอบหลักและการกำหนดชื่อสำหรับองค์ประกอบเหล่านั้นได้รับการแก้ไขโดยอัตวิสัยตามค่าสัมประสิทธิ์การถ่วงน้ำหนักจากเมทริกซ์การทำแผนที่ .

ลองพิจารณาประเด็นการกำหนดชื่อของส่วนประกอบหลัก

มาแสดงกันเถอะ 1 – ชุดของค่าสัมประสิทธิ์การถ่วงน้ำหนักที่ไม่มีนัยสำคัญ ซึ่งรวมถึงองค์ประกอบที่ใกล้กับศูนย์

2 - ชุดค่าสัมประสิทธิ์การถ่วงน้ำหนักที่มีนัยสำคัญ

3 – เซตย่อยของค่าสัมประสิทธิ์การถ่วงน้ำหนักที่สำคัญซึ่งไม่เกี่ยวข้องกับการก่อตัวของชื่อขององค์ประกอบหลัก

2 - 3 – เซตย่อยของค่าสัมประสิทธิ์การถ่วงน้ำหนักที่เกี่ยวข้องในการสร้างชื่อ

เราคำนวณค่าสัมประสิทธิ์เนื้อหาข้อมูลสำหรับแต่ละปัจจัยหลัก

เราถือว่าชุดคุณสมบัติที่สามารถอธิบายได้นั้นเป็นที่น่าพอใจหากค่าของสัมประสิทธิ์การให้ข้อมูลอยู่ในช่วง 0.75-0.95

11 =0,776 12 =-0,130 13 =0,308

12 =0,904 22 =-0,210 23 =-0,420

31 =0,616 32 =0,902 33 =0,236

สำหรับเจ=1 1 = , 2 ={ 11 , 21 , 31 },

.

สำหรับเจ=2 1 ={ 12 , 22 }, 2 ={ 32 },

สำหรับเจ=3 1 ={ 33 }, 2 ={ 13 , 33 },

ค่าคุณลักษณะ x 1 , x 2 , x 3 องค์ประกอบของส่วนประกอบหลักถูกกำหนดให้เป็น 100% ในกรณีนี้ การมีส่วนร่วมที่ใหญ่ที่สุดของคุณลักษณะนี้ x 2 ความหมายคือการทำกำไร ถูกต้องสำหรับชื่อแอตทริบิวต์ เอฟ 1จะเป็น ประสิทธิภาพการผลิต.

เอฟ 2 ถูกกำหนดโดยส่วนประกอบ x 3 (ผลิตภาพทุน) เรียกมันว่า ประสิทธิภาพการใช้สินทรัพย์การผลิตคงที่.

เอฟ 3 กำหนดโดยส่วนประกอบ x 1 ,x 2 – อาจไม่ได้รับการพิจารณาในการวิเคราะห์เพราะว่า มันอธิบายได้เพียง 10% ของความแปรผันทั้งหมด

วรรณกรรม.

    โปปอฟ เอ.เอ.

Excel: คู่มือปฏิบัติ, DES COM.-M.-2000.

    Dyakonov V.P. , Abramenkova I.V. Mathcad7 ในวิชาคณิตศาสตร์ ฟิสิกส์ และอินเทอร์เน็ต สำนักพิมพ์ "Nomidzh", M.-1998, หัวข้อ 2.13 ดำเนินการถดถอย

    แอลเอ Soshnikova, V.N. Tomashevich และคณะ การวิเคราะห์ทางสถิติหลายตัวแปรทางเศรษฐศาสตร์ เอ็ด วี.เอ็น. โทมาเชวิช - ม. -นัวกา, 2523

    Kolemaev V.A. , O.V. Staroverov, V.B. ทฤษฎีความน่าจะเป็นของทูรันดาเอฟสกีและสถิติทางคณิตศาสตร์ –ม. – มัธยมปลาย - 2534.

    ถึงไอเบอร์ลา. การวิเคราะห์ปัจจัย.-ม. สถิติ - 1980.

การเปรียบเทียบระหว่างประชากรปกติสองคนหมายถึงการทราบความแปรปรวน

ปล่อยให้ประชากรทั่วไป X และ Y มีการกระจายตามปกติ และทราบความแปรปรวน (เช่น จากประสบการณ์ครั้งก่อนหรือพบตามทฤษฎี) จากตัวอย่างอิสระที่มีปริมาตร n และ m ที่สกัดจากประชากรเหล่านี้ พบค่าเฉลี่ยตัวอย่าง x ใน และ y ใน

จำเป็นต้องใช้ค่าเฉลี่ยตัวอย่างในระดับนัยสำคัญที่กำหนดเพื่อทดสอบสมมติฐานว่าง ซึ่งก็คือค่าเฉลี่ยทั่วไป (ความคาดหวังทางคณิตศาสตร์) ของประชากรที่อยู่ระหว่างการพิจารณามีค่าเท่ากัน กล่าวคือ H 0: M(X) = M (ญ)

เมื่อพิจารณาว่าค่าเฉลี่ยตัวอย่างเป็นค่าประมาณที่เป็นกลางของค่าเฉลี่ยทั่วไป เช่น M(x in) = M(X) และ M(y in) = M(Y) สมมติฐานว่างสามารถเขียนได้ดังนี้: H 0: M(x in ) = M(ใช่ใน)

ดังนั้นจึงจำเป็นต้องตรวจสอบว่าความคาดหวังทางคณิตศาสตร์ของค่าเฉลี่ยตัวอย่างเท่ากันหรือไม่ งานนี้เกิดขึ้นเนื่องจากตามกฎแล้ว ค่าเฉลี่ยตัวอย่างจะแตกต่างกัน คำถามเกิดขึ้น: ค่าเฉลี่ยของกลุ่มตัวอย่างแตกต่างกันอย่างมีนัยสำคัญหรือไม่มีนัยสำคัญหรือไม่?

หากปรากฏว่าสมมติฐานว่างเป็นจริง กล่าวคือ ค่าเฉลี่ยทั่วไปเท่ากัน ความแตกต่างในค่าเฉลี่ยตัวอย่างไม่มีนัยสำคัญและอธิบายได้ด้วยเหตุผลแบบสุ่ม และโดยเฉพาะอย่างยิ่ง โดยการสุ่มเลือกวัตถุตัวอย่าง

หากสมมติฐานว่างถูกปฏิเสธ กล่าวคือ ค่าเฉลี่ยทั่วไปไม่เท่ากัน แสดงว่าความแตกต่างในค่าเฉลี่ยตัวอย่างมีนัยสำคัญ และไม่สามารถอธิบายด้วยเหตุผลสุ่มได้ สิ่งนี้อธิบายได้จากข้อเท็จจริงที่ว่าค่าเฉลี่ยทั่วไป (ความคาดหวังทางคณิตศาสตร์) นั้นแตกต่างกัน

จากการทดสอบสมมติฐานว่าง เราจะหาตัวแปรสุ่ม

เกณฑ์ Z เป็นตัวแปรสุ่มปกติที่ทำให้เป็นมาตรฐาน แท้จริงแล้วค่า Z นั้นมีการกระจายตามปกติ เนื่องจากเป็นการรวมกันเชิงเส้นของค่าที่กระจายตามปกติ X และ Y ค่าเหล่านี้เองมีการกระจายตามปกติเป็นวิธีตัวอย่างที่พบจากตัวอย่างที่ดึงมาจากประชากรทั่วไป Z เป็นค่าที่ทำให้เป็นมาตรฐาน เนื่องจาก M(Z) = 0 หากสมมติฐานว่างเป็นจริง D(Z) = 1 เนื่องจากกลุ่มตัวอย่างเป็นอิสระจากกัน

พื้นที่วิกฤตถูกสร้างขึ้นขึ้นอยู่กับประเภทของสมมติฐานที่แข่งขันกัน

กรณีแรก-

สมมติฐานว่าง H 0:M(X)=M(Y) สมมติฐานที่แข่งขันกัน H 1: M(X) ¹M(Y)

ในกรณีนี้ บริเวณวิกฤตสองด้านถูกสร้างขึ้นบนข้อกำหนดที่ว่าความน่าจะเป็นของเกณฑ์ที่ตกอยู่ในบริเวณนี้ โดยสมมติว่าสมมติฐานว่างเป็นจริง จะเท่ากับระดับนัยสำคัญที่ยอมรับ

พลังที่ยิ่งใหญ่ที่สุดของเกณฑ์ (ความน่าจะเป็นที่เกณฑ์จะตกลงไปในพื้นที่วิกฤติหากสมมติฐานที่แข่งขันกันเป็นจริง) จะเกิดขึ้นได้เมื่อเลือกจุดวิกฤติ "ซ้าย" และ "ขวา" เพื่อให้ความน่าจะเป็นของเกณฑ์ตกไปในแต่ละช่วงเวลา ของภูมิภาควิกฤตเท่ากับ:< zлев.кр)=a¤2,

พี(ซ

P(Z > zright.cr)=a¤2. (1)

เนื่องจาก Z เป็นปริมาณปกติที่ทำให้เป็นมาตรฐาน และการกระจายตัวของปริมาณดังกล่าวมีความสมมาตรประมาณศูนย์ จุดวิกฤติจึงสมมาตรประมาณศูนย์

ดังนั้น หากเราแสดงขอบเขตด้านขวาของบริเวณวิกฤตสองด้านด้วย zcr แล้วขอบเขตด้านซ้ายจะเป็น zcr< -zкр, Z >ดังนั้นจึงเพียงพอที่จะค้นหาขอบเขตที่ถูกต้องเพื่อค้นหาบริเวณวิกฤตสองด้าน Z เอง

zcr และพื้นที่การยอมรับสมมติฐานว่าง (-zcr, zcr)

ให้เราแสดงวิธีค้นหา zcr - ขอบเขตด้านขวาของบริเวณวิกฤตสองด้านโดยใช้ฟังก์ชัน Laplace Ф(Z) เป็นที่ทราบกันดีว่าฟังก์ชัน Laplace จะกำหนดความน่าจะเป็นของตัวแปรสุ่มปกติที่ทำให้เป็นมาตรฐาน เช่น Z ซึ่งอยู่ในช่วง (0;z):< Z

ป(0< Z < zкр)+Р(Z >เนื่องจากการแจกแจงของ Z มีความสมมาตรประมาณศูนย์ ความน่าจะเป็นที่ Z จะตกอยู่ในช่วง (0; ¥) จะเท่ากับ 1/2 ดังนั้น ถ้าเราหารช่วงเวลานี้ด้วยจุด zcr เข้ากับช่วง (0, zcr) และ (zcr, ¥) จากนั้นด้วยทฤษฎีบทการบวก P(0

zcr)=1/2.

ดังนั้นเราจึงสรุปได้ว่า: เพื่อที่จะค้นหาขอบเขตที่ถูกต้องของขอบเขตวิกฤตสองด้าน (zcr) ก็เพียงพอแล้วที่จะค้นหาค่าของอาร์กิวเมนต์ของฟังก์ชัน Laplace ซึ่งสอดคล้องกับค่าของฟังก์ชันเท่ากับ (1- ก)/2.

จากนั้นบริเวณวิกฤตสองด้านจะถูกกำหนดโดยอสมการ Z< – zкр, Z >zcr หรืออสมการที่เทียบเท่า ½Z½ > zcr และช่วงของการยอมรับสมมติฐานว่างตามอสมการ – zcr< Z < zкр или равносильным неравенством çZ ç< zкр.

ให้เราแสดงค่าของเกณฑ์ที่คำนวณจากข้อมูลเชิงสังเกตโดย zobserved และกำหนดกฎสำหรับการทดสอบสมมติฐานว่าง

กฎ.

1. คำนวณค่าเกณฑ์ที่สังเกตได้

2. ใช้ตารางของฟังก์ชันลาปลาส หาจุดวิกฤติด้วยค่าความเท่าเทียมกัน Ф(zкр)=(1-a)/2

3. ถ้า ç zobserved ç< zкр – нет оснований отвергнуть нулевую гипотезу.

ถ้า ç zob ç> zcr สมมติฐานว่างจะถูกปฏิเสธ

กรณีที่สอง-

สมมติฐานว่าง H0: M(X)=M(Y) สมมติฐานที่แข่งขันกัน H1: M(X)>M(Y)

ในทางปฏิบัติ กรณีดังกล่าวเกิดขึ้นหากการพิจารณาทางวิชาชีพแนะนำว่าค่าเฉลี่ยทั่วไปของประชากรกลุ่มหนึ่งมากกว่าค่าเฉลี่ยทั่วไปของประชากรอีกกลุ่มหนึ่ง ตัวอย่างเช่น หากมีการนำการปรับปรุงกระบวนการทางเทคโนโลยีมาใช้ ก็เป็นเรื่องปกติที่จะสันนิษฐานว่าจะนำไปสู่การเพิ่มขึ้นของผลผลิตของผลิตภัณฑ์

ในกรณีนี้ บริเวณวิกฤตทางด้านขวาจะถูกสร้างขึ้นตามข้อกำหนดที่ว่าความน่าจะเป็นที่เกณฑ์จะอยู่ในบริเวณนี้ โดยสมมติว่าสมมติฐานว่างเป็นจริง จะเท่ากับระดับนัยสำคัญที่ยอมรับได้:

P(Z> zcr)=ก. (3)

เรามาแสดงวิธีการหาจุดวิกฤติโดยใช้ฟังก์ชันลาปลาซกันดีกว่า ลองใช้ความสัมพันธ์กัน เนื่องจากการแจกแจงของ Z มีความสมมาตรประมาณศูนย์ ความน่าจะเป็นที่ Z จะตกอยู่ในช่วง (0; ¥) จะเท่ากับ 1/2 ดังนั้น ถ้าเราหารช่วงเวลานี้ด้วยจุด zcr เข้ากับช่วง (0, zcr) และ (zcr, ¥) จากนั้นด้วยทฤษฎีบทการบวก P(0

ป(0

โดยอาศัยอำนาจตาม (2) และ (3) เรามี Ф(zкр)+a=1/2 ดังนั้น Ф(zкр)=(1-2a)/2< zкр.

กฎ.

จากตรงนี้ เราสรุปได้ว่าในการหาขอบเขตของบริเวณวิกฤตทางขวามือ (zcr) ก็เพียงพอแล้วที่จะหาค่าของฟังก์ชันลาปลาซเท่ากับ (1-2a)/2 จากนั้น บริเวณวิกฤตทางขวามือจะถูกกำหนดโดยอสมการ Z > zcr และบริเวณที่ยอมรับสมมติฐานว่างจะถูกกำหนดโดยอสมการ Z

1. คำนวณค่าที่สังเกตได้ของเกณฑ์ zob

2. ใช้ตารางของฟังก์ชันลาปลาส หาจุดวิกฤตจากความเท่าเทียมกัน Ф(zкр)=(1-2a)/2< z кр – нет оснований отвергнуть нулевую гипотезу. Если Z набл >3. ถ้า Z obs

z cr - เราปฏิเสธสมมติฐานว่างกรณีที่สาม.

สมมติฐานว่าง H0: M(X)=M(Y) สมมติฐานการแข่งขัน H1: M(X)

ในกรณีนี้ พื้นที่วิกฤติด้านซ้ายจะถูกสร้างขึ้นตามความต้องการ โดยสันนิษฐานว่ามีความน่าจะเป็นที่เกณฑ์จะอยู่ในภูมิภาคนี้< z’кр)=a, т.е. z’кр= – zкр. Таким образом, для того чтобы найти точку z’кр, достаточно сначала найти “вспомогательную точку” zкр а затем взять найденное значение со знаком минус. Тогда левосторонняя критическая область определяется неравенством Z < -zкр, а область принятия нулевой гипотезы – неравенством Z >ความถูกต้องของสมมติฐานว่าง เท่ากับระดับนัยสำคัญที่ยอมรับ P(Z

กฎ.

-zcr

1. คำนวณโซบ

3. ถ้า Zob > -zcr ก็ไม่มีเหตุผลที่จะปฏิเสธสมมติฐานที่เป็นโมฆะ

ถ้า Zobserved< -zкр, – нулевую гипотезу отвергают.

โดยทั่วไป ในการอธิบายเมทริกซ์สหสัมพันธ์ ไม่ใช่เพียงปัจจัยเดียว แต่จำเป็นต้องมีปัจจัยหลายประการ แต่ละปัจจัยจะมีลักษณะเป็นคอลัมน์ , ตัวแปรแต่ละตัวจะเป็นแถวของเมทริกซ์ เรียกว่าปัจจัย ทั่วไปถ้าโหลดทั้งหมดแตกต่างอย่างมากจากศูนย์และมีโหลดจากตัวแปรทั้งหมด ปัจจัยทั่วไปมีการโหลดจากตัวแปรทั้งหมด และปัจจัยดังกล่าวจะแสดงเป็นแผนผังในรูปที่ 1 คอลัมน์ .Factor เรียกว่า ทั่วไปถ้าโหลดอย่างน้อยสองค่าแตกต่างอย่างมีนัยสำคัญจากศูนย์ คอลัมน์ เปิด ข้าว. 1.แสดงถึงปัจจัยร่วมดังกล่าว มีการโหลดตัวแปรมากกว่าสองตัว หากปัจจัยมีการโหลดเพียงครั้งเดียวที่แตกต่างจากศูนย์อย่างมีนัยสำคัญ แสดงว่าปัจจัยนั้นถูกเรียก ปัจจัยลักษณะเฉพาะ(ดูคอลัมน์ใน ข้าว. 1.) แต่ละปัจจัยดังกล่าวแสดงถึงตัวแปรเดียวเท่านั้น ปัจจัยทั่วไปมีความสำคัญอย่างยิ่งในการวิเคราะห์ปัจจัย หากมีการกำหนดปัจจัยทั่วไปแล้ว ปัจจัยลักษณะเฉพาะจะได้รับโดยอัตโนมัติ เรียกว่าจำนวนการโหลดตัวแปรสูงตามปัจจัยทั่วไป ความซับซ้อน- เช่น เปิดตัวแปร รูปที่ 1.มีความยากอยู่ที่ 2 และตัวแปรมีความยากอยู่ที่ 3

ข้าว. 1. การแสดงแผนผังของการแมปปัจจัย กากบาทบ่งชี้ว่ามีการโหลดปัจจัยสูง

งั้นเรามาสร้างแบบจำลองกันดีกว่า

, (4)

โดยมีปัจจัยที่ไม่สามารถสังเกตได้ < เค,

ตัวแปรที่สังเกตได้ (ลักษณะเริ่มต้น)

การโหลดปัจจัย

ข้อผิดพลาดแบบสุ่มเกี่ยวข้องกับค่าเฉลี่ยและความแปรปรวนเป็นศูนย์เท่านั้น:

และ - ไม่เกี่ยวข้องกัน

ตัวแปรสุ่มที่ไม่สัมพันธ์กันโดยมีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนของหน่วย .

(5)

ที่นี่ - ฉันชุมชนที่ th ซึ่งเป็นตัวแทนของส่วนหนึ่งของความแปรปรวนเนื่องจากปัจจัยต่างๆ เป็นส่วนหนึ่งของความแปรปรวนเนื่องจากข้อผิดพลาด ในสัญกรณ์เมทริกซ์ แบบจำลองตัวประกอบจะอยู่ในรูปแบบ:

(6)

โดยที่เมทริกซ์การโหลดคือเวกเตอร์ของปัจจัย คือเวกเตอร์ของข้อผิดพลาด

ความสัมพันธ์ระหว่างตัวแปรที่แสดงโดยปัจจัยสามารถหาได้ดังนี้

ที่ไหน - เมทริกซ์แนวทแยงของลำดับที่มีความแปรปรวนของข้อผิดพลาด [i] เงื่อนไขหลัก: - เส้นทแยงมุม - เมทริกซ์แน่นอนที่ไม่เป็นลบ เงื่อนไขเพิ่มเติมสำหรับเอกลักษณ์ของโซลูชันคือเส้นทแยงมุมของเมทริกซ์

มีหลายวิธีในการแก้สมการปัจจัย วิธีการวิเคราะห์ปัจจัยที่เก่าแก่ที่สุดคือ วิธีปัจจัยหลักซึ่งใช้เทคนิคการวิเคราะห์องค์ประกอบหลักกับเมทริกซ์สหสัมพันธ์แบบรีดิวซ์ที่มีความเหมือนกันบนเส้นทแยงมุมหลัก ในการประเมินความเหมือนกัน พวกเขามักจะใช้ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณระหว่างตัวแปรที่สอดคล้องกันและชุดของตัวแปรอื่นๆ

การวิเคราะห์ปัจจัยจะดำเนินการบนพื้นฐานของสมการคุณลักษณะ เช่นเดียวกับในการวิเคราะห์องค์ประกอบหลัก:

(8)

การแก้ซึ่งพวกเขาได้รับค่าลักษณะเฉพาะ lam i และเมทริกซ์ของเวกเตอร์ปกติ (ลักษณะเฉพาะ) V จากนั้นค้นหาเมทริกซ์การแมปปัจจัย:

อัลกอริธึมการวนซ้ำเชิงประจักษ์ใช้เพื่อรับการประมาณค่าชุมชนและการโหลดปัจจัยที่บรรจบกับการประมาณค่าพารามิเตอร์ที่แท้จริง สาระสำคัญของอัลกอริธึมมีดังต่อไปนี้: การประมาณค่าเบื้องต้นของการโหลดปัจจัยจะถูกกำหนดโดยใช้วิธีปัจจัยหลัก จากเมทริกซ์สหสัมพันธ์ R การประมาณค่าขององค์ประกอบหลักและปัจจัยทั่วไปจะถูกกำหนดอย่างเป็นทางการ:

(9)

โดยที่ค่าลักษณะเฉพาะที่สอดคล้องกันของเมทริกซ์ R คือ

แหล่งข้อมูล (เวกเตอร์คอลัมน์);

ค่าสัมประสิทธิ์สำหรับปัจจัยร่วม

ส่วนประกอบหลัก (เวกเตอร์คอลัมน์)

ค่าประมาณของการโหลดปัจจัยคือค่าต่างๆ

การประมาณค่าทั่วไปได้มาจาก

ในการวนซ้ำครั้งถัดไป เมทริกซ์ R ได้รับการแก้ไข - แทนที่จะเป็นองค์ประกอบของเส้นทแยงมุมหลัก การประมาณค่าชุมชนที่ได้รับในการวนซ้ำครั้งก่อนจะถูกทดแทน จากเมทริกซ์ R ที่แก้ไขแล้ว โดยใช้รูปแบบการคำนวณของการวิเคราะห์ส่วนประกอบ การคำนวณส่วนประกอบหลัก (ซึ่งไม่เป็นเช่นนั้นจากมุมมองของการวิเคราะห์ส่วนประกอบ) จะถูกทำซ้ำ; มีการแสวงหาลักษณะเฉพาะ การวิเคราะห์ปัจจัยสามารถถือว่าสมบูรณ์ได้เมื่อการประมาณค่าของชุมชนเปลี่ยนแปลงเพียงเล็กน้อยเมื่อวนซ้ำสองครั้งติดกัน

บันทึก.การเปลี่ยนแปลงของเมทริกซ์ R อาจละเมิดค่ากำหนดเชิงบวกของเมทริกซ์ R+ และผลที่ตามมาคือค่าลักษณะเฉพาะบางส่วนของ R+ อาจเป็นลบ

มหาวิทยาลัยวิจัยนิวเคลียร์แห่งชาติ “MEPhI”
คณะสารสนเทศธุรกิจและการจัดการ
ระบบที่ซับซ้อน
ภาควิชาเศรษฐศาสตร์และการจัดการ
ในอุตสาหกรรม (ฉบับที่ 71)
วิธีการประมวลผลทางคณิตศาสตร์และเครื่องมือ
ข้อมูลทางสถิติ
คิเรฟ VS.
ปริญญาเอก, รองศาสตราจารย์
อีเมล:
มอสโก, 2017
1

การทำให้เป็นมาตรฐาน

มาตราส่วนทศนิยม
การทำให้เป็นมาตรฐานขั้นต่ำ
การทำให้เป็นมาตรฐานโดยใช้การแปลงมาตรฐาน
การทำให้เป็นมาตรฐานโดยใช้การแปลงตามองค์ประกอบ
2

มาตราส่วนทศนิยม

วิ
"
Vi k , สูงสุด (Vi) 1
10
"
3

การทำให้เป็นมาตรฐานขั้นต่ำ

วิ
วี มิน (วี)
"
ฉัน
สูงสุด (Vi) นาที (Vi)
ฉัน
ฉัน
4

การทำให้เป็นมาตรฐานโดยใช้ส่วนเบี่ยงเบนมาตรฐาน

วิ
"
วี
วี
วี วี
วี
- เลือกสรร
เฉลี่ย
- ตัวอย่างกำลังสองเฉลี่ย
ส่วนเบี่ยงเบน
5

การทำให้เป็นมาตรฐานโดยใช้การแปลงตามองค์ประกอบ

วี เอฟ วี
"
วิ 1
"
ล็อกวี
, Vi ล็อก Vi
"
Vi ประสบการณ์ Vi
"
วิ วิ , วิ 1 ปี
วิ
"

"
6

การวิเคราะห์ปัจจัย

(FA) คือชุดของวิธีการที่
ขึ้นอยู่กับการเชื่อมต่อในชีวิตจริงของคุณสมบัติที่วิเคราะห์และการเชื่อมต่อด้วยตนเอง
วัตถุที่สังเกตได้ช่วยให้คุณสามารถระบุสิ่งที่ซ่อนเร้นได้ (โดยนัย, แฝงอยู่)
ลักษณะทั่วไปของโครงสร้างองค์กรและกลไกการพัฒนา
ปรากฏการณ์และกระบวนการที่กำลังศึกษาอยู่
ส่วนใหญ่จะใช้วิธีการวิเคราะห์ปัจจัยในการปฏิบัติงานวิจัย
วิธีเพื่อวัตถุประสงค์ในการบีบอัดข้อมูลโดยได้รับการสรุปจำนวนเล็กน้อย
คุณลักษณะที่อธิบายความแปรปรวน (การกระจายตัว) ของคุณลักษณะเบื้องต้น (เทคนิค R ของการวิเคราะห์ปัจจัย) หรือการแปรปรวนของวัตถุที่สังเกตได้ (เทคนิค Q)
การวิเคราะห์ปัจจัย)
อัลกอริธึมการวิเคราะห์ปัจจัยจะขึ้นอยู่กับการใช้การลดลง
เมทริกซ์ของความสัมพันธ์แบบคู่ (ความแปรปรวนร่วม) เมทริกซ์รีดิวซ์คือเมทริกซ์
เส้นทแยงมุมหลักที่ไม่มีหน่วย (การประมาณ) ของความสัมพันธ์ที่สมบูรณ์หรือ
การประมาณค่าการกระจายตัวทั้งหมด และค่าที่ลดลงหรือลดลงเล็กน้อย ที่
นี่เป็นการสมมุติฐานว่าการวิเคราะห์จะไม่อธิบายความแปรปรวนทั้งหมด
ลักษณะ (วัตถุ) ที่กำลังศึกษาอยู่ และบางส่วนก็มักจะเป็นเรื่องใหญ่ ที่เหลืออยู่
ส่วนที่ไม่สามารถอธิบายได้ของความแปรปรวนคือคุณลักษณะที่เกิดขึ้นเนื่องจากความจำเพาะ
วัตถุที่สังเกตได้ หรือข้อผิดพลาดที่เกิดขึ้นในการบันทึกปรากฏการณ์ กระบวนการ
เหล่านั้น. ความไม่น่าเชื่อถือของข้อมูลที่ป้อน
7

การจำแนกประเภทของวิธี FA

8

วิธีการองค์ประกอบหลัก

(MGK) ใช้เพื่อลดมิติ
พื้นที่ของเวกเตอร์ที่สังเกตได้ โดยไม่ทำให้เกิดการสูญเสียอย่างมีนัยสำคัญ
เนื้อหาข้อมูล สถานที่ตั้งของ PCA คือกฎหมายการกระจายแบบปกติ
เวกเตอร์หลายมิติ ใน PCA จะมีการกำหนดการรวมเชิงเส้นของตัวแปรสุ่ม
ลักษณะเฉพาะ
เวกเตอร์
ความแปรปรวนร่วม
เมทริกซ์
หลัก
ส่วนประกอบแสดงถึงระบบพิกัดมุมฉากซึ่งมีความแปรปรวน
ส่วนประกอบต่างๆ มีลักษณะเฉพาะด้วยคุณสมบัติทางสถิติ MGC ไม่จัดอยู่ในประเภท FA แม้ว่าจะมีก็ตาม
อัลกอริธึมที่คล้ายกันและแก้ไขปัญหาการวิเคราะห์ที่คล้ายกัน ความแตกต่างที่สำคัญของมัน
อยู่ในความจริงที่ว่ามันไม่ได้ลดลง แต่เป็นเมทริกซ์ธรรมดาที่ต้องได้รับการประมวลผล
ความสัมพันธ์แบบคู่ ความแปรปรวนร่วม บนเส้นทแยงมุมหลักซึ่งมีหน่วยอยู่
กำหนดให้เซตเริ่มต้นของเวกเตอร์ X ของปริภูมิเชิงเส้น Lk แอปพลิเคชัน
วิธีการประกอบหลักช่วยให้เราสามารถไปที่ฐานของช่องว่าง Lm (m≤k) เช่น
ว่า: องค์ประกอบแรก (เวกเตอร์พื้นฐานแรก) สอดคล้องกับทิศทางตาม
ซึ่งการกระจายตัวของเวกเตอร์ของเซตดั้งเดิมมีค่าสูงสุด ทิศทางที่สอง
ส่วนประกอบ (ของเวกเตอร์ฐานที่สอง) ถูกเลือกในลักษณะที่การกระจายตัวของค่าเริ่มต้น
เวกเตอร์ตามค่าสูงสุดภายใต้เงื่อนไขของมุมตั้งฉากกับเวกเตอร์แรก
พื้นฐาน เวกเตอร์พื้นฐานที่เหลืออยู่ถูกกำหนดในทำนองเดียวกัน ส่งผลให้มีแนวทาง
เวกเตอร์พื้นฐานถูกเลือกเพื่อเพิ่มความแปรปรวนของชุดดั้งเดิมให้สูงสุด
ตามส่วนประกอบแรกเรียกว่าส่วนประกอบหลัก (หรือส่วนประกอบหลัก
แกน) ปรากฎว่าความแปรปรวนหลักของเวกเตอร์ของชุดเวกเตอร์ดั้งเดิม
แสดงโดยองค์ประกอบสองสามอย่างแรก และโอกาสเกิดขึ้นโดยละทิ้งไป
ส่วนประกอบที่จำเป็นน้อยกว่า ให้ย้ายไปยังพื้นที่ที่มีมิติต่ำกว่า
9

10. วิธีการองค์ประกอบหลัก โครงการ

10

11. วิธีการองค์ประกอบหลัก เมทริกซ์บัญชี

เมทริกซ์การนับ T ช่วยให้เราสามารถคาดการณ์ตัวอย่างดั้งเดิม (มิติ J
เวกเตอร์
x1,…,xI)
บน
สเปซย่อย
หลัก
ส่วนประกอบ
(มิติเอ)
แถว t1,…,tI ของเมทริกซ์ T คือพิกัดของกลุ่มตัวอย่างในระบบพิกัดใหม่
คอลัมน์ t1,…,tA ของเมทริกซ์ T อยู่ในมุมฉากและแสดงถึงเส้นโครงของกลุ่มตัวอย่างทั้งหมดบน
แกนพิกัดใหม่หนึ่งแกน
เมื่อศึกษาข้อมูลโดยใช้วิธี PCA จะให้ความสนใจเป็นพิเศษกับกราฟ
บัญชี พวกเขามีข้อมูลที่เป็นประโยชน์ในการทำความเข้าใจวิธีการ
ข้อมูล. บนกราฟการนับ แต่ละตัวอย่างจะแสดงเป็นพิกัด (ti, tj) บ่อยที่สุด
– (t1, t2) หมายถึง PC1 และ PC2 ความใกล้ชิดของจุดสองจุดหมายถึงความคล้ายคลึงกันนั่นคือ
ความสัมพันธ์เชิงบวก จุดที่อยู่ตรงมุมฉากได้แก่
ไม่มีความสัมพันธ์กัน และสิ่งที่อยู่ตรงข้ามกันก็มี
ความสัมพันธ์เชิงลบ
11

12. วิธีการองค์ประกอบหลัก โหลดเมทริกซ์

โหลดเมทริกซ์ P คือเมทริกซ์การเปลี่ยนแปลงจากพื้นที่เดิม
ตัวแปร x1, …xJ (มิติ J) เข้าไปในปริภูมิของส่วนประกอบหลัก (มิติ A) แต่ละ
แถวของเมทริกซ์ P ประกอบด้วยสัมประสิทธิ์ที่เชื่อมต่อตัวแปร t และ x
ตัวอย่างเช่น เส้น a-th คือเส้นโครงของตัวแปรทั้งหมด x1, ...xJ ไปยังแกน a-th ของแกนหลัก
ส่วนประกอบ. แต่ละคอลัมน์ P คือการฉายภาพของตัวแปร xj ที่สอดคล้องกันไปยังคอลัมน์ใหม่
ระบบพิกัด.
Loadings plot ใช้เพื่อตรวจสอบบทบาทของตัวแปร เกี่ยวกับเรื่องนี้
ในกราฟ ตัวแปร xj แต่ละตัวจะแสดงด้วยจุดในพิกัด (pi, pj) เป็นต้น
(พี1,พี2) เมื่อวิเคราะห์คล้ายกับผังบัญชี คุณจะเข้าใจได้ว่าตัวแปรใดบ้าง
เกี่ยวข้องและเป็นอิสระ ศึกษาร่วมกันของผังบัญชีคู่และ
loads ยังสามารถให้ข้อมูลที่เป็นประโยชน์มากมายเกี่ยวกับข้อมูลได้
12

13. คุณลักษณะของวิธีส่วนประกอบหลัก

วิธีองค์ประกอบหลักขึ้นอยู่กับสมมติฐานต่อไปนี้
สมมติฐานที่ว่ามิติข้อมูลสามารถลดลงได้อย่างมีประสิทธิภาพ
โดยการแปลงเชิงเส้น
สมมติฐานที่ว่าข้อมูลส่วนใหญ่ดำเนินไปตามทิศทางเหล่านั้น
การกระจายตัวของข้อมูลอินพุตสูงสุด
จะเห็นได้ง่ายว่าไม่ตรงตามเงื่อนไขเหล่านี้เสมอไป ตัวอย่างเช่น,
หากจุดของชุดอินพุตอยู่บนพื้นผิวของไฮเปอร์สเฟียร์แสดงว่าไม่
การแปลงเชิงเส้นจะไม่สามารถลดขนาดได้ (แต่สามารถรับมือกับสิ่งนี้ได้อย่างง่ายดาย
การเปลี่ยนแปลงแบบไม่เชิงเส้นขึ้นอยู่กับระยะห่างจากจุดหนึ่งไปยังจุดศูนย์กลางของทรงกลม)
ข้อเสียเปรียบนี้เป็นลักษณะที่เท่าเทียมกันของอัลกอริธึมเชิงเส้นทั้งหมดและสามารถเป็นได้
เอาชนะโดยใช้ตัวแปรจำลองเพิ่มเติม ได้แก่
ฟังก์ชันไม่เชิงเส้นจากองค์ประกอบของชุดข้อมูลอินพุต (ที่เรียกว่าเคล็ดลับเคอร์เนล)
ข้อเสียประการที่สองของวิธีองค์ประกอบหลักคือทิศทาง
ผู้ที่กระจายข้อมูลได้สูงสุดไม่ได้เพิ่มเนื้อหาข้อมูลให้สูงสุดเสมอไป
ตัวอย่างเช่น ตัวแปรที่มีความแปรปรวนสูงสุดอาจมีค่าเกือบไม่มีเลย
ข้อมูล ในขณะที่ตัวแปรที่มีความแปรปรวนขั้นต่ำอนุญาต
แยกชั้นเรียนโดยสิ้นเชิง วิธีองค์ประกอบหลักในกรณีนี้จะให้
การตั้งค่าสำหรับตัวแปรแรก (มีข้อมูลน้อย) เพิ่มเติมทั้งหมด
ข้อมูลที่เกี่ยวข้องกับเวกเตอร์ (เช่น รูปภาพนั้นเป็นของหนึ่งในนั้นหรือไม่
คลาส) จะถูกละเว้น
13

14. ข้อมูลตัวอย่างสำหรับ MGC

เค. เอสเบนเซ่น. การวิเคราะห์ข้อมูลหลายตัวแปร อักษรย่อ เลน จากอังกฤษ ภายใต้
เอ็ด O. Rodionova จากสถาบันฟิสิกส์เคมี RAS, 2548
14

15. ตัวอย่างข้อมูลสำหรับ MGC การกำหนด

ความสูง
ความสูง: หน่วยเป็นเซนติเมตร
น้ำหนัก
น้ำหนัก: เป็นกิโลกรัม
ผม
ผม: สั้น: –1 หรือยาว:
+1
รองเท้า
รองเท้า: ขนาดยุโรป
มาตรฐาน
อายุ
อายุ: ปี
รายได้
รายได้: เป็นพันยูโรต่อปี
เบียร์
เบียร์: การบริโภคเป็นลิตรต่อปี
ไวน์
ไวน์: ปริมาณการใช้เป็นลิตรต่อปี
เพศ
เพศ: ชาย: –1 หรือหญิง: +1
ความแข็งแกร่ง
จุดแข็ง: ดัชนีขึ้นอยู่กับ
การทดสอบความสามารถทางกายภาพ
ภูมิภาค
ภูมิภาค: เหนือ: –1 หรือใต้: +1
ไอคิว
ไอคิว,
วัดโดยการทดสอบที่ได้มาตรฐาน
15

16. เมทริกซ์บัญชี

16

17. โหลดเมทริกซ์

17

18. การสุ่มตัวอย่างวัตถุในพื้นที่ของส่วนประกอบใหม่

ผู้หญิง (F) จะแสดงด้วยวงกลม ● และ ● และ
ผู้ชาย (M) – สี่เหลี่ยม ■ และ ■ ภาคเหนือ (N)
แสดงด้วยสีน้ำเงิน ■ และทิศใต้ (S) ด้วยสีแดง
สี ●.
ขนาดและสีของสัญลักษณ์สะท้อนรายได้-อะไร
ยิ่งใหญ่และเบาเท่าไรก็ยิ่งยิ่งใหญ่เท่านั้น ตัวเลข
เป็นตัวแทนของอายุ
18

19. ตัวแปรเริ่มต้นในพื้นที่ของส่วนประกอบใหม่

19

20. พล็อตหินกรวด

20

21. วิธีการปัจจัยหลัก

ในกระบวนทัศน์ของวิธีปัจจัยหลัก งานในการลดมิติของคุณลักษณะ
space ดูเหมือนว่า n คุณสมบัติสามารถอธิบายได้โดยใช้ขนาดเล็กกว่า
จำนวนคุณสมบัติ m-latent - ปัจจัยทั่วไป โดยที่ m<ลักษณะเริ่มต้นและปัจจัยร่วมที่แนะนำ (ชุดค่าผสมเชิงเส้น)
นำมาพิจารณาโดยใช้สิ่งที่เรียกว่าปัจจัยลักษณะเฉพาะ
เป้าหมายสูงสุดของการศึกษาทางสถิติที่ดำเนินการโดยการมีส่วนร่วมของ
ตามกฎแล้วเครื่องมือวิเคราะห์ปัจจัยประกอบด้วยการระบุและการตีความ
ปัจจัยทั่วไปที่แฝงอยู่พร้อมกับความปรารถนาที่จะลดทั้งสองอย่างพร้อมกัน
จำนวนและระดับของการพึ่งพาการสุ่มตกค้างจำเพาะ
ส่วนประกอบ.
ทุกป้าย
คือผลลัพธ์
ผลกระทบของสมมติทั่วไปและ
ปัจจัยลักษณะหนึ่ง:
X 1 a11 f1 a12 f 2 a1m f ม d1V1
X a f a f a f d V
2
21 1
22 2
2ม. ม
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. การหมุนเวียนของปัจจัย

การหมุนเป็นวิธีการเปลี่ยนปัจจัยที่ได้รับในขั้นตอนที่แล้วให้เป็น
ไปสู่สิ่งที่มีความหมายมากขึ้น การหมุนแบ่งออกเป็น:
กราฟิก (แกนวาด ไม่ใช้เกินสองมิติ
การวิเคราะห์),
เชิงวิเคราะห์ (เลือกเกณฑ์การหมุนที่แน่นอน ตั้งฉาก และ
เฉียง) และ
เมทริกซ์โดยประมาณ (การหมุนประกอบด้วยการเข้าใกล้ค่าที่กำหนด
เมทริกซ์เป้าหมาย)
ผลลัพธ์ของการหมุนคือโครงสร้างปัจจัยรอง หลัก
โครงสร้างปัจจัย (ประกอบด้วยการโหลดหลัก (ได้รับจากครั้งก่อน
ระยะ) ที่จริงแล้วคือเส้นโครงของจุดบนแกนพิกัดตั้งฉาก เห็นได้ชัดว่า
ถ้าประมาณการเป็นศูนย์ โครงสร้างก็จะง่ายขึ้น และการคาดการณ์จะเป็นศูนย์
ถ้าจุดนั้นอยู่บนแกนใดแกนหนึ่ง ดังนั้นการหมุนจึงถือเป็นการเปลี่ยนผ่านจาก
ระบบพิกัดหนึ่งไปยังอีกระบบหนึ่งโดยมีพิกัดที่รู้จักในระบบเดียว (
ปัจจัยหลัก) และพิกัดที่เลือกซ้ำๆ ในระบบอื่น
(ปัจจัยรอง) เมื่อได้รับโครงสร้างรอง พวกเขามักจะย้ายไปที่ดังกล่าว
ระบบพิกัดเพื่อวาดแกนให้ได้มากที่สุดผ่านจุด (วัตถุ) เพื่อสิ่งนั้น
การคาดการณ์จำนวนมาก (และโหลด) จึงเป็นศูนย์ที่สุดเท่าที่จะเป็นไปได้ ในขณะเดียวกันก็สามารถ
ข้อจำกัดของมุมตั้งฉากและนัยสำคัญที่ลดลงตั้งแต่แรกไปสุดท้ายจะถูกลบออก
ลักษณะปัจจัยของโครงสร้างหลัก
22

23. การหมุนมุมฉาก

แสดงว่าเราจะหมุนเวียนปัจจัย แต่ไม่ใช่
เราจะฝ่าฝืนความเป็นมุมฉากซึ่งกันและกัน การหมุนมุมฉาก
หมายถึงการคูณเมทริกซ์โหลดหลักดั้งเดิมด้วยโหลดมุมฉาก
เมทริกซ์ R (เมทริกซ์เช่นนั้น
วี=บีอาร์
อัลกอริธึมการหมุนมุมฉากในกรณีทั่วไปจะเป็นดังนี้:
0. B - เมทริกซ์ของปัจจัยหลัก
1.
กำลังมองหา
ตั้งฉาก
เมทริกซ์
RT
ขนาด
2*2
สำหรับ
สอง
คอลัมน์ (ปัจจัย) bi และ bj ของเมทริกซ์ B เพื่อให้เป็นเกณฑ์สำหรับเมทริกซ์
R คือสูงสุด
2.
แทนที่คอลัมน์ bi และ bj ด้วยคอลัมน์
3.
เราตรวจสอบว่ามีการจัดเรียงคอลัมน์ทั้งหมดแล้วหรือไม่ ถ้าไม่เช่นนั้นไปที่ 1
4.
เราตรวจสอบว่าเกณฑ์สำหรับเมทริกซ์ทั้งหมดเพิ่มขึ้น ถ้าใช่ ให้ไปที่ 1. ถ้า
ไม่ ถ้าอย่างนั้นก็ถึงจุดสิ้นสุดของอัลกอริทึม
.
23

24. การหมุนแบบวาริแม็กซ์

เกณฑ์นี้ใช้การทำให้เป็นทางการ
การกระจายตัวของการโหลดกำลังสองของตัวแปร:
ความยากลำบาก
ปัจจัยก
ผ่าน
จากนั้นเกณฑ์โดยทั่วไปสามารถเขียนได้ดังนี้:
ในเวลาเดียวกัน การโหลดแฟคเตอร์สามารถทำให้เป็นมาตรฐานเพื่อกำจัดออกไปได้
อิทธิพลของตัวแปรแต่ละตัว
24

25. การหมุนควอติแมกซ์

ขอให้เรากำหนดแนวคิดเรื่องความซับซ้อนของปัจจัย q ของตัวแปร i-th อย่างเป็นทางการ
การกระจายตัวของปัจจัยกำลังสอง การโหลดปัจจัย:
โดยที่ r คือจำนวนคอลัมน์ของเมทริกซ์ตัวประกอบ bij คือการโหลดตัวประกอบของ jth
ตัวประกอบของตัวแปร i-th คือค่าเฉลี่ย พยายามใช้เกณฑ์ควอร์ติแม็กซ์
เพิ่มความซับซ้อนของตัวแปรทั้งชุดเพื่อให้บรรลุผลสำเร็จ
ความง่ายในการตีความปัจจัย (มีจุดมุ่งหมายเพื่อทำให้คำอธิบายคอลัมน์ง่ายขึ้น):
เมื่อพิจารณาแล้วว่า
- ค่าคงที่ (ผลรวมของค่าลักษณะเฉพาะของเมทริกซ์
ความแปรปรวนร่วม) และการขยายค่าเฉลี่ย (และคำนึงถึงฟังก์ชันกำลังด้วย
เติบโตตามสัดส่วนกับการโต้แย้ง) เราได้รับรูปแบบสุดท้ายของเกณฑ์
การเพิ่มประสิทธิภาพสูงสุด:
25

26. หลักเกณฑ์ในการกำหนดจำนวนปัจจัย

ปัญหาหลักของการวิเคราะห์ปัจจัยคือการระบุและการตีความ
ปัจจัยหลัก เมื่อเลือกส่วนประกอบผู้วิจัยมักจะเผชิญหน้า
ปัญหาสำคัญเนื่องจากไม่มีเกณฑ์ที่ชัดเจนในการระบุ
ปัจจัยและดังนั้นความเป็นส่วนตัวในการตีความผลลัพธ์จึงเป็นสิ่งที่หลีกเลี่ยงไม่ได้
มีเกณฑ์ที่ใช้กันทั่วไปหลายประการในการกำหนดจำนวนปัจจัย
บางส่วนเป็นทางเลือกแทนผู้อื่นและบางส่วน
สามารถใช้เกณฑ์ร่วมกันเพื่อให้เกณฑ์หนึ่งมาเสริมอีกเกณฑ์หนึ่งได้:
เกณฑ์ไกเซอร์หรือเกณฑ์ค่าลักษณะเฉพาะ หลักเกณฑ์นี้เสนอ
ไกเซอร์และน่าจะมีการใช้กันอย่างแพร่หลายมากที่สุด เลือกไว้เท่านั้น
ตัวประกอบที่มีค่าลักษณะเฉพาะเท่ากับหรือมากกว่า 1 ซึ่งหมายความว่าถ้า
ปัจจัยไม่ได้จัดสรรความแปรปรวนเทียบเท่ากับความแปรปรวนอย่างน้อยหนึ่งค่า
ตัวแปรแล้วละเว้น
เกณฑ์หินกรวดหรือเกณฑ์การคัดกรอง เขาคือ
วิธีกราฟิก เสนอครั้งแรกโดยนักจิตวิทยา Cattell เป็นเจ้าของ
ค่าสามารถแสดงได้ในรูปแบบของกราฟอย่างง่าย Cattell แนะนำให้ค้นหาเช่นนี้
ตำแหน่งบนกราฟที่มีค่าลักษณะเฉพาะที่ลดลงจากซ้ายไปขวาคือสูงสุด
ช้าลง. สันนิษฐานว่าทางด้านขวาของจุดนี้มีเพียง
"แฟกทอเรียลสกรี" - "สไลด์" เป็นคำที่มีความหมายทางธรณีวิทยา
เศษหินที่สะสมอยู่ที่ด้านล่างของเนินหิน
26

27. หลักเกณฑ์ในการกำหนดจำนวนปัจจัย ความต่อเนื่อง

เกณฑ์ความสำคัญ จะมีประสิทธิภาพโดยเฉพาะเมื่อรุ่นทั่วไป
เป็นที่ทราบกันดีอยู่แล้วและไม่มีปัจจัยรอง แต่เกณฑ์ดังกล่าวไม่เหมาะสม
เพื่อค้นหาการเปลี่ยนแปลงในแบบจำลองและนำไปใช้ในการวิเคราะห์ปัจจัยโดยใช้วิธีการเท่านั้น
กำลังสองน้อยที่สุดหรือความน่าจะเป็นสูงสุด
เกณฑ์สำหรับสัดส่วนของความแปรปรวนที่ทำซ้ำได้ ปัจจัยจัดอันดับตามส่วนแบ่ง
ความแปรปรวนที่กำหนด เมื่อเปอร์เซ็นต์ของความแปรปรวนไม่มีนัยสำคัญ
ควรหยุดการปล่อย เป็นที่พึงปรารถนาที่ปัจจัยที่ระบุจะอธิบาย
มากกว่า 80% ของสเปรด ข้อเสียของเกณฑ์: ประการแรกการเลือกเป็นเรื่องส่วนตัว ประการที่สองความจำเพาะของข้อมูลอาจเป็นเช่นนั้นซึ่งปัจจัยหลักทั้งหมดไม่สามารถทำได้
อธิบายเปอร์เซ็นต์ของสเปรดที่ต้องการโดยรวม ดังนั้นปัจจัยหลักๆ
ต้องร่วมกันอธิบายความแปรปรวนอย่างน้อย 50.1%
เกณฑ์ของการตีความและความคงที่ เกณฑ์นี้รวมกัน
ความแม่นยำทางสถิติพร้อมความสนใจเชิงอัตนัย ตามเขาปัจจัยหลัก
สามารถแยกออกได้ตราบใดที่สามารถตีความได้ชัดเจน เธออยู่ในเธอ
เทิร์น ขึ้นอยู่กับขนาดของการโหลดแฟคเตอร์ กล่าวคือ ถ้าแฟคเตอร์มีอย่างน้อยที่สุด
ภาระหนักอย่างหนึ่งก็สามารถตีความได้ ตัวเลือกย้อนกลับก็เป็นไปได้เช่นกัน -
หากมีภาระมาก แต่การตีความยากสิ่งนี้
ขอแนะนำให้ทิ้งส่วนประกอบต่างๆ
27

28. ตัวอย่างการใช้งาน MGC

อนุญาต
มีอยู่
กำลังติดตาม
ตัวชี้วัด
ทางเศรษฐกิจ
กิจกรรม
รัฐวิสาหกิจ: ความเข้มข้นของแรงงาน (x1), ส่วนแบ่งของสินค้าที่ซื้อในการผลิต (x2),
อัตราส่วนการเปลี่ยนอุปกรณ์ (x3) สัดส่วนของคนงานในองค์กร
(x4) โบนัสและรางวัลต่อพนักงาน (x5) ความสามารถในการทำกำไร (y) เชิงเส้น
โมเดลการถดถอยดูเหมือนว่า:
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5
x1
x2
x3
x4
x5

0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. ตัวอย่างการใช้งาน MGC

การสร้างแบบจำลองการถดถอยในแพ็คเกจทางสถิติแสดงให้เห็น
สัมประสิทธิ์ X4 ไม่มีนัยสำคัญ (p-Value > α = 5%) และสามารถแยกออกจากโมเดลได้
อะไร
หลังจากกำจัด X4 แล้ว กระบวนการสร้างแบบจำลองจะเริ่มต้นอีกครั้ง
29

30. ตัวอย่างการใช้งาน MGC

เกณฑ์ของ Kaiser สำหรับ PCA แสดงให้เห็นว่าองค์ประกอบสองประการสามารถอธิบายได้
ประมาณ 80% ของความแปรปรวนเดิม
สำหรับส่วนประกอบที่เลือก คุณสามารถสร้างสมการในระบบพิกัดดั้งเดิมได้:
U1 = 0.41*x1 - 0.57*x2 + 0.49*x3 - 0.52*x5
U2 = 0.61*x1 + 0.38*x2 - 0.53*x3 - 0.44*x5
30

31. ตัวอย่างการใช้งาน MGC

ตอนนี้คุณสามารถสร้างแบบจำลองการถดถอยใหม่ในส่วนประกอบใหม่:
y = 15.92 - 3.74*U1 - 3.87*U2
31

32. วิธีการสลายตัวด้วยค่าเอกพจน์ (SVD)

เบลตรามีและจอร์แดนถือเป็นผู้ก่อตั้งทฤษฎีเอกภาวะ
การสลายตัว Beltrami - สำหรับการเป็นคนแรกที่เผยแพร่ผลงาน
การสลายตัวเอกพจน์และจอร์แดนเพื่อความสง่างามและความสมบูรณ์ของมัน
งาน. งานของ Beltrami ปรากฏในวารสารคณิตศาสตร์สำหรับ
การใช้นักศึกษาของมหาวิทยาลัยในอิตาลี” ในปี พ.ศ. 2416 หลัก
จุดประสงค์ก็เพื่อให้นักศึกษาได้รู้จัก
รูปแบบไบลิเนียร์ สาระสำคัญของวิธีนี้คือการสลายตัวของเมทริกซ์ A ขนาด n
x m โดยมีอันดับ d = อันดับ (M)<= min(n,m) в произведение матриц меньшего
อันดับ:
A =UDVT,
โดยที่เมทริกซ์ U ขนาด nxd และ V ขนาด mxd ประกอบด้วย
คอลัมน์ออร์โธนอร์มอล ซึ่งเป็นเวกเตอร์เฉพาะสำหรับ
ค่าลักษณะเฉพาะที่ไม่เป็นศูนย์ของเมทริกซ์ AAT และ ATA ตามลำดับ และ
UTU = V TV = I และ D ขนาด dxd เป็นเมทริกซ์แนวทแยงด้วย
องค์ประกอบเส้นทแยงมุมบวกถูกจัดเรียงเป็น
ตามลำดับจากมากไปน้อย คอลัมน์ของเมทริกซ์ U เป็นตัวแทน
เป็นพื้นฐานออร์โธนอร์มอลของสเปซคอลัมน์ของเมทริกซ์ A และคอลัมน์
เมทริกซ์ V เป็นพื้นฐานออร์โธนอร์มอลของสเปซแถวของเมทริกซ์ A
32

33. วิธีการสลายตัวด้วยค่าเอกพจน์ (SVD)

คุณสมบัติที่สำคัญของการสลายตัวของ SVD คือข้อเท็จจริงที่ว่าถ้า
ส้อม จากองค์ประกอบเส้นทแยงมุมที่ใหญ่ที่สุด k เท่านั้นและด้วย
เหลือเพียง k คอลัมน์แรกในเมทริกซ์ U และ V ตามด้วยเมทริกซ์
Ak=UkDkVkT
จะเป็นค่าประมาณที่ดีที่สุดของเมทริกซ์ A เทียบกับ
บรรทัดฐานของโฟรเบเนียสในบรรดาเมทริกซ์ทั้งหมดที่มีอันดับ k
การตัดทอนนี้จะลดขนาดของเวกเตอร์ก่อน
พื้นที่ ลดความต้องการในการจัดเก็บข้อมูลและการประมวลผล
ข้อกำหนดของรุ่น
ประการที่สอง ละทิ้งค่าเอกพจน์เล็กๆ น้อยๆ ไป
การบิดเบือนที่เกิดจากสัญญาณรบกวนในข้อมูลจะถูกลบออกไป
เฉพาะเอฟเฟกต์และเทรนด์ที่แข็งแกร่งที่สุดในโมเดลนี้เท่านั้น

การวิเคราะห์ปัจจัยความแปรปรวน

เมทริกซ์ตัวประกอบ

ปัจจัยแปรผัน A ปัจจัย B

ดังที่เห็นได้จากเมทริกซ์ การโหลดปัจจัย (หรือน้ำหนัก) A และ B สำหรับความต้องการของผู้บริโภคที่แตกต่างกันแตกต่างกันอย่างมีนัยสำคัญ การโหลดปัจจัย A สำหรับข้อกำหนด T 1 สอดคล้องกับความใกล้ชิดของการเชื่อมต่อโดยมีค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.83 เช่น การพึ่งพาที่ดี (ปิด) การโหลดปัจจัย B สำหรับข้อกำหนดเดียวกันนั้นให้ รเค= 0.3 ซึ่งสอดคล้องกับการเชื่อมต่อที่อ่อนแอ ตามที่คาดไว้ ปัจจัย B มีความสัมพันธ์เป็นอย่างดีกับความต้องการของผู้บริโภค T 2, T 4 และ T 6

เมื่อพิจารณาว่าการโหลดปัจจัยของทั้ง A และ B มีอิทธิพลต่อความต้องการของผู้บริโภคที่ไม่เกี่ยวข้องกับกลุ่มของพวกเขาโดยมีความสัมพันธ์ใกล้ชิดไม่เกิน 0.4 (เช่น อย่างอ่อน) เราสามารถสรุปได้ว่าเมทริกซ์ความสัมพันธ์ระหว่างกันที่นำเสนอข้างต้นถูกกำหนดโดยปัจจัยอิสระสองตัว ซึ่งในทางกลับกัน มีการกำหนดข้อกำหนดผู้บริโภคหกประการ (ยกเว้น T 7)

ตัวแปร T 7 สามารถแยกได้เป็นปัจจัยอิสระ เนื่องจากไม่มีภาระความสัมพันธ์ที่มีนัยสำคัญ (มากกว่า 0.4) กับความต้องการของผู้บริโภค แต่ในความเห็นของเราไม่ควรทำเช่นนี้เนื่องจากปัจจัย “ประตูไม่ควรเป็นสนิม” ไม่ได้เกี่ยวข้องโดยตรงกับความต้องการของผู้บริโภคสำหรับ การออกแบบประตู

ดังนั้นเมื่ออนุมัติข้อกำหนดทางเทคนิคในการออกแบบโครงสร้างของประตูรถยนต์จึงเป็นชื่อของปัจจัยที่ได้รับซึ่งจะถูกป้อนตามความต้องการของผู้บริโภคซึ่งจำเป็นต้องค้นหาวิธีแก้ปัญหาเชิงสร้างสรรค์ในรูปแบบของลักษณะทางวิศวกรรม

ให้เราชี้ให้เห็นคุณสมบัติพื้นฐานที่สำคัญประการหนึ่งของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปร นั่นคือ กำลังสอง ซึ่งแสดงว่าส่วนใดของความแปรปรวน (กระจาย) ของแอตทริบิวต์ที่เหมือนกันกับตัวแปรสองตัว และจำนวนตัวแปรเหล่านี้ทับซ้อนกัน ตัวอย่างเช่นหากตัวแปรสองตัว T 1 และ T 3 ที่มีความสัมพันธ์กัน 0.8 ทับซ้อนกับระดับ 0.64 (0.8 2) นั่นหมายความว่า 64% ของความแปรปรวนของตัวแปรทั้งสองเป็นเรื่องธรรมดานั่นคือ จับคู่. นอกจากนี้ยังสามารถกล่าวได้ว่า ชุมชนของตัวแปรเหล่านี้เท่ากับ 64%

ขอให้เราจำไว้ว่าการโหลดปัจจัยในเมทริกซ์ปัจจัยก็เป็นค่าสัมประสิทธิ์สหสัมพันธ์เช่นกัน แต่อยู่ระหว่างปัจจัยและตัวแปร (ความต้องการของผู้บริโภค)

ปัจจัยแปรผัน A ปัจจัย B

ดังนั้น การโหลดปัจจัยกำลังสอง (ความแปรปรวน) จะแสดงลักษณะของระดับความเหมือนกัน (หรือการทับซ้อนกัน) ของตัวแปรที่กำหนดและปัจจัยที่กำหนด เรามากำหนดระดับของการทับซ้อน (ความแปรปรวน D) ของทั้งสองปัจจัยกับตัวแปร (ความต้องการของผู้บริโภค) T 1 ในการทำเช่นนี้ จำเป็นต้องคำนวณผลรวมของกำลังสองของน้ำหนักของปัจจัยที่มีตัวแปรแรก เช่น 0.83 x 0.83 + 0.3 x 0.3 = 0.70 ดังนั้น ความเหมือนกันของตัวแปร T 1 ที่มีทั้งสองปัจจัยคือ 70% นี่เป็นการทับซ้อนกันที่ค่อนข้างสำคัญ


ในเวลาเดียวกัน ชุมชนต่ำอาจบ่งชี้ว่าตัวแปรวัดหรือสะท้อนบางสิ่งที่มีคุณภาพแตกต่างไปจากตัวแปรอื่นๆ ที่รวมอยู่ในการวิเคราะห์ นี่หมายความว่าตัวแปรที่กำหนดไม่ได้รวมกับปัจจัยด้วยเหตุผลข้อใดข้อหนึ่ง: ไม่ว่าจะเป็นการวัดแนวคิดอื่น (เช่นตัวแปร T 7) หรือมีข้อผิดพลาดในการวัดขนาดใหญ่ หรือมีคุณสมบัติที่บิดเบือนความแปรปรวน

ควรสังเกตว่าความสำคัญของแต่ละปัจจัยยังถูกกำหนดโดยปริมาณการกระจายตัวระหว่างตัวแปรและการโหลดปัจจัย (น้ำหนัก) ในการคำนวณค่าลักษณะเฉพาะของปัจจัย คุณต้องค้นหาผลรวมของกำลังสองของการโหลดปัจจัยสำหรับแต่ละตัวแปรในแต่ละคอลัมน์ของเมทริกซ์ตัวประกอบ ตัวอย่างเช่น ความแปรปรวนของตัวประกอบ A (DA) จะเป็น 2.42 (0.83 x 0.83 + 0.3 x 0.3 + 0.83 x 0.83 + 0.4 x 0.4 + 0 .8 x 0.8 + 0.35 x 0.35) การคำนวณนัยสำคัญของปัจจัย B พบว่า D B = 2.64 กล่าวคือ ความสำคัญของปัจจัย B สูงกว่าปัจจัย A

ถ้าค่าลักษณะเฉพาะของปัจจัยหารด้วยจำนวนตัวแปร (ในตัวอย่างของเรามี 7 ตัว) ค่าที่ได้จะแสดงสัดส่วนของความแปรปรวน (หรือจำนวนข้อมูล) γ ในเมทริกซ์ความสัมพันธ์ดั้งเดิมที่ปัจจัยนี้จะประกอบขึ้น . สำหรับปัจจัย A γ ~ 0.34 (34%) และสำหรับปัจจัย B - γ = 0.38 (38%) สรุปผลลัพธ์เราได้รับ 72% ดังนั้น เมื่อทั้งสองปัจจัยรวมกัน จะเติมความแปรปรวนเพียง 72% ในตัวบ่งชี้เมทริกซ์ดั้งเดิม ซึ่งหมายความว่าจากผลของการแยกตัวประกอบ ข้อมูลบางส่วนในเมทริกซ์ดั้งเดิมต้องเสียสละเพื่อสร้างแบบจำลองสองปัจจัย เป็นผลให้ 28% ของข้อมูลหายไปซึ่งสามารถกู้คืนได้หากนำแบบจำลองหกปัจจัยมาใช้

ข้อผิดพลาดเกิดขึ้นที่ไหน เมื่อคำนึงถึงตัวแปรที่พิจารณาทั้งหมดที่เกี่ยวข้องกับข้อกำหนดการออกแบบประตูแล้ว เป็นไปได้มากว่าค่าของสัมประสิทธิ์สหสัมพันธ์ของตัวแปรที่เกี่ยวข้องกับปัจจัยหนึ่งนั้นค่อนข้างถูกประเมินต่ำเกินไป เมื่อคำนึงถึงการวิเคราะห์ที่ดำเนินการแล้วจะสามารถกลับไปสู่การก่อตัวของค่าอื่น ๆ ของสัมประสิทธิ์สหสัมพันธ์ในเมทริกซ์ระหว่างกัน (ดูตารางที่ 2.2)

ในทางปฏิบัติ เรามักจะเผชิญกับสถานการณ์ที่มีปัจจัยอิสระจำนวนมากพอที่จะนำมาพิจารณาในการแก้ปัญหาไม่ว่าจะจากมุมมองทางเทคนิคหรือทางเศรษฐกิจ มีหลายวิธีในการจำกัดจำนวนปัจจัย สิ่งที่มีชื่อเสียงที่สุดคือการวิเคราะห์พาเรโต ในกรณีนี้ ปัจจัยเหล่านั้นจะถูกเลือก (เมื่อนัยสำคัญลดลง) ซึ่งอยู่ภายในขีดจำกัด 80-85% ของนัยสำคัญทั้งหมด

การวิเคราะห์ปัจจัยสามารถใช้เพื่อใช้วิธีการจัดโครงสร้างฟังก์ชันคุณภาพ (QFD) ซึ่งใช้กันอย่างแพร่หลายในต่างประเทศในการสร้างข้อกำหนดทางเทคนิคสำหรับผลิตภัณฑ์ใหม่