Download PDFOpen PDF in browserการคัดเลือกตัวแปรและแก้ปัญหาข้อมูลไม่สมดุลสำหรับจำแนกประเภทลูกค้า กรณีศึกษา : การป้องกันการทุจริตในธนาคารEasyChair Preprint 87765 pages•Date: September 3, 2022Abstractการคัดเลือกตัวแปรและแก้ปัญหาข้อมูลไม่สมดุล เป็นปัญหาสำคัญสำหรับเทคนิควิธีการจำแนกประเภท ดังนั้นงานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการคัดเลือกตัวแปรและการแก้ปัญหาข้อมูลไม่สมดุลสำหรับจำแนกประเภทลูกค้า จากกรณีศึกษาการป้องกันการทุจริตในธนาคาร โดยการคัดเลือกตัวแปร จากวิธีการหาความสัมพันธ์ระหว่างตัวแปรอิสระแต่ละตัวกับตัวแปรตาม โดยให้ค่าน้ำหนักของตัวแปรอิสระ ที่เรียกว่า Weight Of Evidence (WOE) เพื่อจัดอันดับความสำคัญของตัวแปรอิสระที่มีผลกับตัวแปรตาม โดยพิจารณาจากค่า Information Value (IV) ซึ่งเป็นเทคนิคที่สำคัญในการเลือกตัวแปร เพื่อเปรียบเทียบประสิทธิภาพเทคนิควิธีการแก้ปัญหาข้อมูลไม่สมดุล 4 วิธี คือ 1. Random Undersampling 2. SMOTE 3. Borderline-SMOTE และ 4. SMOTE-ENN และเปรียบเทียบประสิทธิภาพเทคนิควิธีการจำแนกประเภทลักษณะของลูกค้าที่มีแนวโน้มทุจริต 2 วิธี คือการวิเคราะห์ถดถอยโลจิสติก (Logistic Regression) และต้นไม้ตัดสินใจ (Decision Tree) จากผลการทดลองแสดงว่าการคัดเลือกตัวแปร โดยให้ค่าน้ำหนักของตัวแปรอิสระ (WOE) กับเทคนิควิธีการสุ่มตัวอย่างแบบ RUS + SMOTE สำหรับการจำแนกประเภทลูกค้าทุจริตด้วยเทคนิค Logistic Regression จะให้ประสิทธิภาพในการจำแนกประเภทกลุ่มลูกค้าทุจริตได้ดีที่สุด Keyphrases: Banking, Classification, feature selection, fraud, imbalance
|