[go: up one dir, main page]

Academia.eduAcademia.edu
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00208 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ TRỰC CẢM Trần Thanh Đại1, Nguyễn Long Giang2, Hoàng Thị Minh Châu3, Trần Thị Ngân4 1 Trường Đại học Kinh tế Kỹ thuật Công nghiệp 2 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam 3 Trường Đại học Kinh tế - Kỹ thuật Công nghiệp 4 Trường Đại học Thủy lợi ttdaiuneti@gmail.com, nlgiang@ioit.ac.vn, htmchau@uneti.edu.vn, ngantt@tlu.edu.vn TÓM TẮT: Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu của quá trình khai phá dữ liệu và khám phá tri thức. Trong mấy năm gần đây, các nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ (Fuzzy Rough Set - FRS) nhằm nâng cao độ chính xác mô hình phân lớp. Tuy nhiên, số lượng thuộc tính thu được theo tiếp cận FRS chưa tối ưu do ràng buộc giữa các đối tượng trong bảng quyết định chưa được xem xét đầy đủ. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định gốc theo tiếp cận tập thô mờ trực cảm (Intuitionistic Fuzzy Rough Set - IFRS) dựa trên các đề xuất mới về hàm thành viên và không thành viên. Kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính của tập rút gọn theo phương pháp đề xuất giảm đáng kể so với các phương pháp FRS và một số phương pháp IFRS khác. Từ khóa: Bảng quyết định, rút gọn thuộc tính, tập rút gọn, tập thô mờ, tập thô mờ trực cảm, khoảng cách. I. MỞ ĐẦU Lý thuyết tập thô truyền thống (Rough Set Theory - RST) [1] do Z. Pawlak đề xuất được chứng minh là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính trong các bảng quyết định có miền giá trị rời rạc [2]. Trong các bài toán thực tế, các bảng quyết định thường có miền giá trị số, liên tục. Để rút gọn thuộc tính theo tiếp cận RST, miền giá trị số của bảng quyết định cần được rời rạc hóa. Tuy nhiên, các phương pháp rời rạc hóa dữ liệu có thể làm giảm độ chính xác của mô hình phân lớp do thông tin bị mất mát trong quá trình rời rạc dữ liệu[3]. Do đó, các nhà nghiên cứu đã mở rộng mô hình RST để thực hiện rút gọn thuộc tính trực tiếp trên bảng quyết định gốc. Cho đến nay, có hai hướng tiếp cận mở rộng quan trọng được các nhà nghiên cứu quan tâm, thứ nhất là kết hợp giữa RST và tập mờ (Fuzzy Set - FS) thành tập thô mờ (Fuzzy Rough Set - FRS) [4], thứ hai là kết hợp giữa RST và tập mờ trực cảm (Intuitionistic Fuzzy Set - IFS) thành tập thô mờ trực cảm (Intuitionistic Fuzzy Rough Set - IFRS) [5]. Theo tiếp cận FRS, các nhà nghiên cứu sử dụng quan hệ tương đương mờ để tính toán các tập xấp xỉ mờ, từ đó đề xuất các độ đo khác nhau để tìm tập rút gọn như: miền dương mờ [6], ma trận phân biệt mờ [7], entropy thông tin mờ [8], khoảng cách mờ [9, 22]. Kết quả thực nghiệm trên một số bộ dữ liệu mẫu cho thấy, độ chính xác phân lớp của các tập rút gọn thu được tốt hơn so với tập thuộc tính ban đầu trên một số bộ dữ liệu. Tuy nhiên số lượng thuộc tính của các tập rút gọn vẫn còn khá lớn, đặc biệt trên các bộ dữ liệu có số chiều lớn. Trong những năm gần đây, tiếp cận IFRS được nhiều nhà nghiên cứu quan tâm do các tập xấp xỉ xây dựng theo tiếp cận này biểu diễn mối quan hệ của các đối tượng trong bảng quyết định chặt hơn so với tiếp cận FRS. Do đó, các phương pháp rút gọn thuộc tính theo tiếp cận IFRS có tiềm năng giảm thiểu số lượng thuộc tính tốt hơn so với tiếp cận FRS. Theo tiếp cận IFRS, các nhà nghiên cứu sử dụng quan hệ tương đương mờ trực cảm để tính toán các tập xấp xỉ mờ trực cảm, từ đó sử dụng các độ đo khác nhau để tìm tập rút gọn như: miền dương [10], ma trận phân biệt [11]. Tuy nhiên, hầu hết các phương pháp này đều trải qua bước chuyển đổi từ bảng quyết định gốc sang bảng quyết định mờ trực cảm, điều này gây phát sinh về chi phí chuyển đổi dữ liệu cũng như cần phải bổ sung các ràng buộc để đảm bảo tính toàn vẹn của dữ liệu trong quá trình chuyển đổi. Theo hướng tìm tập rút gọn trực tiếp trên bảng quyết định gốc, các nhà nghiên cứu sử dụng quan hệ dung sai mờ trực cảm với các ràng buộc mới nhằm làm chặt hơn nữa về mối quan hệ của các đối tượng trong bảng quyết định. A. Tan và các cộng sự [5] đã kết hợp toán tử Hausdorff với ràng buộc về phương sai của miền giá trị thuộc tính để xây dựng công thức tính độ tương tự (độ thành viên) của các đối tượng. Tuy nhiên công thức tính độ khác biệt (độ không thành viên) các tác giả đưa ra chỉ là phần bù của độ thành viên. Điều này dẫn tới sự suy biến của công thức tính lực lượng [12] mà các tác giả đã sử dụng, làm mất đi vai trò độ không thành viên của IFRS. Do đó, A. Tan và các cộng sự [13] tiếp tục xây dựng các công thức tính toán độ tương tự và độ khác biệt theo hướng độc lập nhau. Các tác giả vẫn dùng toán tử Hausdorff nhưng kết hợp với ràng buộc về lân cận của các đối tượng trong cùng một phân lớp để xây dựng công thức tính độ khác biệt giữa các đối tượng. Tuy nhiên, công thức này chiếm nhiều thời gian để tính toán các tập xấp xỉ mờ trực cảm. Để dung hòa ưu và nhược điểm của hai phương pháp tính toán bên trên, trong bài báo này chúng tôi đưa ra công thức tính toán độ tương tự và độ khác biệt theo tiếp cận kết hợp toán tử Hausdorff với ràng buộc về độ do dự có thể điều chỉnh. Trên cơ sở đó, chúng tôi xây dựng công thức tính khoảng cách giữa các phân hoạch mờ trực cảm và đề xuất thuật toán tìm tập rút gọn theo phương pháp lọc truyền thống. Các kết quả thử nghiệm trên các bộ dữ liệu mẫu cho thấy, số lượng thuộc tính tập rút gọn của phương pháp đề xuất giảm thiểu đáng kể so với các phương pháp tập thô mờ [9, 22] và một số phương pháp tập thô mờ trực cảm [5, 13], trong khi vẫn bảo toàn độ chính xác trên bảng quyết định ban đầu. Trần Thanh Đại, Nguyễn Long Giang, Hoàng Thị Minh Châu, Trần Thị Ngân 517 Phần tiếp theo của bài báo có cấu trúc như sau: phần II trình bày một số kiến thức cơ bản như bảng quyết định, khái niệm về tập mờ trực cảm, quan hệ mờ trực cảm và mô hình tập thô mờ trực cảm. Phần III trình bày công thức tính toán khoảng cách giữa các phân hoạch mờ trực cảm, định nghĩa tập rút gọn và độ quan trọng của thuộc tính, xây dựng thuật toán heuristic và trình bày ví dụ minh họa về các bước làm việc của thuật toán. Phần IV trình bày kết quả thực nghiệm của thuật toán đề xuất trên một số bộ dữ liệu mẫu từ kho dữ liệu của UCI [21]. Cuối cùng là một vài kết luận và hướng phát triển tiếp theo. II. MỘT SỐ KHÁI NIỆM LIÊN QUAN Phần này trình bày một số khái niệm cơ bản về tập mờ trực cảm, quan hệ mờ trực cảm và một số phép toán cơ bản trên tập mờ trực cảm được được sử dụng trong bài báo. Bảng quyết định là một cặp DS = (U , C ∪ D ) trong đó U là tập hữu hạn, khác rỗng các đối tượng; C là tập hữu hạn, khác rỗng các thuộc tính điều kiện; D là thuộc tính quyết định. Mỗi thuộc tính a ∈ C xác định một ánh xạ: a : U → Va với Va là tập giá trị của thuộc tính a ∈ C . Định nghĩa 2.1 [14]. Cho U là tập hữu hạn khác rỗng các đối tượng, tập mờ trực cảm A trên U có dạng: A = { x, µ A ( x ) ,ν A ( x ) | x ∈ U } với µ A U → [ 0, 1] , v A : U → [ 0, 1] thỏa mãn 0 ≤ µ A ( x ) + ν A ( x ) ≤ 1 . Trong đó µ A ( x ) và ν A ( x ) được gọi là độ thành viên và độ không thành viên của phần tử x ∈ U theo A . Khi đó: π ( x ) = 1 − µ ( x ) − ν ( x ) được gọi là độ do dự của phần tử x ∈ U theo A . A A A Cho hai tập mờ trực cảm A và B ,một số quan hệ và phép toán cơ bản giữa A và B được định nghĩa như sau: (1). A ⊆ B khi và chỉ khi ( iff ) µ A ( x ) ≤ µ B ( x ) và ν A ( x ) ≥ ν B ( x ) ∀ x ∈ U (2). A ⊇ B iff B ⊆ A (3). A = B iff A ⊆ B và B ⊆ A hay µ A ( x ) = µ B ( x ) và ν A ( x ) = ν B ( x ) ∀ x ∈ U (4). A ∩ B = (5). A ∪ B = { { } | x ∈ U} x, µ A ( x ) ∧ µ B ( x ) , ν A ( x ) ∨ ν B ( x ) | x ∈ U x, µ A ( x ) ∨ µ B ( x ) , ν A ( x ) ∧ ν B ( x ) Định nghĩa 2.2 [15]. Cho U là tập hữu hạn khác rỗng, quan hệ mờ trực cảm R trên U được định nghĩa: R = { ( x, y ) , µ R ( x, y ) , ν R ( x, y ) | ( x, y ) ∈ U × U } với µ R ,ν R : U × U → [ 0, 1] là độ thành viên và không thành viên của y với x , thỏa mãn 0 ≤ µ R ( x, y ) + ν R ( x, y ) ≤ 1 Nếu R thỏa mãn µ R ( x, x) = 1,ν R ( x, x) = 0 và µ R ( x, y ) = µ R ( y, x ),ν R ( x, y ) = ν R ( y, x ) thì R được gọi là quan hệ dung sai mờ trực cảm. Cho ℜ là tập các quan hệ mờ trực cảm R trên U : ℜ (U × U ) . Khi đó các quan hệ mờ trực cảm R có thể được ( ) biểu diễn bởi ma trận ℜ =  µ R ( xi , x j ) ,ν R ( xi , x j )  trong đó µ R ( xi , x j ) ,ν R ( xi , x j ) là độ tươn tự và độ khác biệt của đối tượng   n× n x j và xi được xác định bởi hàng i và cột j trong ma trận ℜ . Định nghĩa 2.3. Cho P, Q ∈ C , theo [14] ta có RP ∪Q = RP ∩ RQ , khi đó quan hệ của hai đối tượng xi , x j trên tập { ( ) ( ) ( thuộc tính P ∪ Q xác định bởi: RP ∪Q ( xi , x j ) = min µ R x , x , µ R x , x , max ν R x , x ,ν R x , x P( i j) Q( i j) P( i j) Q( i j) ( ) )} Giả sử ℜ P =  µ RP ( xi , x j ) ,ν RP ( xi , x j )  và ℜQ =  µ RQ ( xi , x j ) ,ν RQ ( xi , x j )  là hai ma trận quan hệ mờ trực cảm của các  n x n  n x n đối tượng trong U trên tập thuộc tính P ∪ Q . Khi đó ma trận dung sai mờ trực cảm ℜ P ∪Q được xác định như ( ( ) ) µ RS ( xi , x j ) = min µ RP ( xi , x j ) , µ RQ ( xi , x j ) sau: ℜ S = ℜ P ∪Q  µ RS ( xi , x j ) ,ν RS ( xi , x j )  với  n x n ν RS ( xi , x j ) = max ν RP ( xi , x j ) ,ν RQ ( xi , x j ) ( ) Định nghĩa 2.4 [5]. Cho ℜ là tập các quan hệ mờ trực cảm R trên U , với U ≠ ∅ . Khi đó với mọi X ∈ U , tập xấp xỉ trên và xấp xỉ dưới của X theo ℜ được định nghĩa như sau: { (x ,µ Cặp giá trị ( µ ℜ( X ) = i R (X ) R (X ) ( ( xi ) , ν R ( X ) ( xi ) ( xi ) , ν R ( X ) ( xi ) ) | x ∈U } , ℜ ( X ) = { ( x , µ i i R( X ) ( xi ) , ν R ( X ) ( xi ) ) | xi ∈ U } ) cho biết các đối tượng quan hệ với x chắc chắn thuộc về X ; i ) Cặp giá trị µ R ( X ) ( xi ) , ν R ( X ) ( xi ) cho biết các đối tượng quan hệ với xi có thể thuộc về X ; Nếu ℜ ( X ) = ℜ ( X ) ta nói X là tập chính xác, ngược lại ta nói X là tập thô. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ TRỰC CẢM 518 Định nghĩa 2.5 [16] Cho P ∈ C , U = { x1 , x2 ,..., xn } , quan hệ mờ trực cảm RP xác định xác định một phân hoạch mờ trực cảm K ( RP ) trên U với K ( RP ) = {[ xi ]P } = i =1 n pi1 pi 2 p + + ... + in là một lớp dung sai mờ trực cảm của xi trên P . x1 x2 xn Khi đó lực lượng lớp dung sai mờ trực cảm theo quan hệ R của xi trên tập thuộc tính P được tính theo công thức [ xi ]P = ∑ j =1 n 1 + µ ( pij ) −ν ( pij ) 2 . Trong đó phần tử số được cộng thêm 1 nhằm đảm bảo lực lượng của lớp dung sai luôn dương, phần mẫu số là 2 nhằm đảm bảo lực lượng luôn nằm trong khoảng giá trị [0,1] III. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ TRỰC CẢM Phần này trình bày một phương pháp mới tìm tập rút gọn trực tiếp trên bảng quyết định gốc theo tiếp cận tập mờ trực cảm sử dụng độ đo khoảng cách. Các bước chính của phương pháp này gồm có: (1) xây dựng công thức tính toán khảng cách giữa các phân hoạch mờ trực cảm; (2) định nghĩa tập rút gọn và độ quan trọng của thuộc tính; (3) đề xuất thuật toán heuristic theo tiếp cận tính toán độ đo giữa các phân hoạch mờ trực cảm. Cuối cùng là phần ví dụ minh họa thuật toán. Cho bảng quyết định DS = (U , C ∪ D ) với U = { x1 , x2 ,..., xn } , P, Q ∈ C và hai phân hoạch trên P và Q tương ứng: K ( P ) = {[ x ]P } , K ( Q ) = D ( K ( P ) , K (Q )) = 1 U U ∑ {[ x] } với x ∈ U , Liang và các cộng sự [19] đã chứng minh Q [ xi ]P ∪ [ xi ]P − [ xi ]P ∩ [ xi ]P là khoảng cách giữa hai phân hoạch K ( P ) và K ( Q ) . U i =1 Chúng tôi mở rộng khoảng cách này để tính toán khoảng cách cho các phân hoạch mờ trực cảm. 3.1. Độ đo khoảng cách giữa các tập mờ trực cảm Mệnh đề 3.1. Cho X , Y , Z là ba tập mờ trực cảm trên U , khi đó ta có các mệnh đề sau: 1). Nếu X ∈ Y thì Y − Y ∩ Z ≥ X − X ∩ Z 2). Nếu X ∈ Y thì Z − Z ∩ X ≥ Z − Z ∩ Y 3). X − X ∩ Y + Z − Z ∩ X ≥ Z − Z ∩ Y Chứng minh. Áp dụng phương pháp chứng minh trong [18], ta có điều phải chứng minh (đpcm) Mệnh đề 3.2. Cho hai tập mờ trực cảm X , Y trên tập đối tượng U . Khi đó d ( X , Y ) = X ∪ Y − X ∩ Y là một độ đo khoảng cách giữa X và Y . Chứng minh. Áp dụng các mệnh đề trong 3.1 và sử dụng phương pháp chứng minh trong [18], ta có đpcm 3.2. Độ đo khoảng cách giữa các phân hoạch mờ trực cảm Mệnh đề 3.3. Cho bảng quyết định DS = (U , C ∪ D ) với U = { x1 , x2 ,..., xn } và K ( RP ) , K ( RQ ) là hai phân hoạch mờ trực cảm sinh bởi hai quan hệ mờ trực cảm RP , RQ trên P, Q ⊆ C . Khi đó: ( ( ) ) = n12 ∑ ( xi P ∪ xi Q − xi P ∩ xi Q ) D K ( RP ) , K RQ n i =1 ( ) Là một khoảng cách giữa hai phân hoạch mờ trực cảm K ( RP ) và K RQ Chứng minh. Áp dụng mệnh đề 3.2 và sử dụng phương pháp chứng minh trong [18] ta có đpcm Mệnh đề 3.4. Cho bảng quyết định DS = (U , C ∪ D ) với U = { x1 , x2 ,..., xn } và R là quan hệ mờ trực cảm xác định trên miền giá trị tập thuộc tính C , khi đó khoảng cách giữa hai tập thuộc tính C và C ∪ D được xác định như sau: D ( K ( RC ) , K ( RC ∪ D ) ) = 1 n2 n ∑ ( x  i =1 i C −  xi C ∩  xi D ) Chứng minh. Áp dụng mệnh đề 3.3 và sử dụng phương pháp chứng minh trong [18] ta có đpcm Mệnh đề 3.5. Cho bảng quyết định DS = (U , C ∪ D ) với U = { x1 , x2 ,..., xn } , B ⊆ C và R là quan hệ dung sai mờ trực cảm xác định trên miền giá trị tập thuộc tính C . Khi đó D ( K ( RB ) , K ( RB ∪ D ) ) ≥ D ( K ( RC ) , K ( RC ∪ D ) ) Chứng minh. Áp dụng mệnh đề 3.4 và sử dụng phương pháp chứng minh trong [18] ta có đpcm Trần Thanh Đại, Nguyễn Long Giang, Hoàng Thị Minh Châu, Trần Thị Ngân 519 3.3. Thuật toán tìm tập rút gọn sử dụng độ đo khoảng cách phân hoạch mờ trực cảm Định nghĩa 3.1. Cho bảng quyết định DS = (U , C ∪ D ) với B ⊆ C và R là một quan hệ mờ trực cảm xác định trên miền giá trị thuộc tính C . Nếu 1) D ( K ( RB ) , K ( RB ∪ D ) ) = D ( K ( RC ) , K ( RC ∪ D ) ) ( ( ) ( 2) ∀b ∈ B, D K RB −{b} , K R{B −{b}}∪ D )) ≠ D (K ( R ) , K ( R C ∪D C )) thì B là một tập rút gọn của C dựa trên độ đo khoảng cách D Định nghĩa 3.2. Cho bảng quyết định DS = (U , C ∪ D ) với B ⊂ C và b ∈ C − B . Độ quan trọng của thuộc tính ( ( ( ) ) ( b đối với B được xác định bởi SIGB ( b ) = D K ( RB ) , K ( RB ∪ D ) − D K RB ∪{b} , K RB ∪{b}∪ D )) Từ Mệnh đề 3.5 ta có SIGB ( b ) ≥ 0 . Độ quan trọng SIGB ( b ) đặc trưng cho chất lượng phân lớp của thuộc tính b đối với thuộc tính quyết định D và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính của thuật toán tìm tập rút gọn. Như đã trình bày trong Phần 1 của bài báo. Các công thức quan hệ trong [5, 13] còn những hạn chế nhất định như tính độc lập của các công thức tính độ tương tự và độ khác biệt, cũng như thời gian xây dựng các tập xấp xỉ mờ trực cảm còn cao. Để khắc phục các nhược điểm đó, chúng tôi đề xuất sử dụng công thức tính toán theo Định nghĩa 3.3 để xây dựng các tập mờ trực cảm. Định nghĩa 3.3. Xét bảng quyết định DS = (U , C ∪ D ) và quan hệ R . Khi đó độ thành viên µ R và độ không thành viên ν R của hai đối tượng xi , x j ∈ U theo quan hệ R được định nghĩa như sau:  a ( xi ) − a ( x j )  µ (Rα , β ) ( xi , x j ) = max(1 − , 0) *(1 − β )  a α (1) else  a ( xi ) − a ( x j )  (α , β ) ,1) *(1 − β ) ν Ra ( xi , x j ) = min( α  Trong đó σ là độ lệch chuẩn trong miền dữ liệu của thuộc tính a được tính theo công thức [17]: β ∈ [ 0,1] là  µ (α , β ) ( xi , x j ) = 1.0  Ra if a ( xi ) = a ( x j ) then  (α , β ) ν Ra ( xi , x j ) = 0.0 tham số điều chỉnh độ do dự về mức độ thuộc và không thuộc của a ( x j ) với a ( xi ) khi a ( xi ) ≠ a ( x j ) . Công thức trên hàm ý, khi độ do dự là β thì độ thuộc và độ không thuộc chỉ còn chiếm 1 − β so với giá trị ban đầu. Ví dụ 1: Xét Bảng quyết định DS = (U , C ∪ D ) cho ở Bảng 1 như sau: Bảng 1. Bảng quyết định a b c d e f x1 0,8 0,2 0,6 0,4 1 0 No x2 0,8 0,2 0 0,6 0,2 0,8 Yes x3 0,6 0,4 0,8 0,2 0,6 0,4 No x4 0 0,4 0,6 0,4 0 1 Yes x5 0 0,6 0,6 0,4 0 1 Yes x6 0 0,6 0 1 0 1 No Q Với độ lệch chuẩn trong miền dữ liệu của thuộc tính a là: σ = 0.37 và độ do dự về mức độ thuộc hay không thuộc của hai đối tượng xi và x j trong U trên thuộc tính a là: β = 0.4 . Áp dụng công thức (3.1) ta có ma trận quan hệ mờ trực cảm của các đối tượng theo thuộc tính a như sau: (1.00, 0.00 )  (1.00, 0.00 ) ( 0.28, 0.32 ) ℜa =  ( 0.00, 0.60 ) ( 0.00, 0.60 )  ( 0.00, 0.60 ) Khi đó: [ x1 ]a = (1.00, 0.00 ) (1.00, 0.00 ) ( 0.28, 0.32 ) ( 0.00, 0.60 ) ( 0.00, 0.60 ) ( 0.00, 0.60 ) ( 0.28, 0.32 ) ( 0.28, 0.32 ) (1.00, 0.00 ) ( 0.00, 0.60 ) ( 0.00, 0.60 ) ( 0.00, 0.60 ) 2 2 0.96 0.4 0.4 0.4 + + + + + 2 2 2 2 2 2 ( 0.00, 0.60 ) ( 0.00, 0.60 ) ( 0.00, 0.60 ) (1.00, 0.00 ) (1.00, 0.00 ) (1.00, 0.00 ) [ x3 ]a ( 0.00, 0.60 ) ( 0.00, 0.60 ) ( 0.00, 0.60 ) (1.00, 0.00 ) (1.00, 0.00 ) (1.00, 0.00 ) = ( 0.00, 0.60 ) ( 0.00, 0.60 ) ( 0.00, 0.60 )  (1.00, 0.00 )  (1.00, 0.00 )  (1.00, 0.00 )  0.96 0.96 2 0.4 0.4 0.4 + + + + + 2 2 2 2 2 2 Thuật toán F_IFDAR (Filter - Intuition Fuzzy Distance based Attribute Reduction): Thuật toán filter theo tiếp cận mờ trực cảm tìm tập rút gọn sử dụng độ đo khoảng cách giữa các phân hoạch mờ trực cảm. Đầu vào: Bảng quyết định DS = (U , C ∪ D ) , quan hệ R , tham số điều chỉnh β RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ TRỰC CẢM 520 Đầu ra: Một tập rút gọn B B ← ∅ ; D ( K ( RB ) , K ( RB ∪ D ) ) = 1 ; 1. // Tính khoảng cách phân hoạch mờ trực cảm 2. D ( K ( RC ) , K ( RC ∪ D ) ) ; // Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất 3. While D ( K ( RB ) , K ( RB ∪ D ) ) ≠ D ( K ( RC ) , K ( RC ∪ D ) ) do 4. 5. Begin Với mỗi a ∈ C − B tính ( ( ) ( SIGB ( a ) = D ( K ( RB ) , K ( RB ∪ D ) ) − D K RB ∪{a} , K RB ∪{a}∪ D 6. Chọn am ∈ C − B sao cho SIGB ( am ) = Max {SIGB ( a )} ; 7. B = B ∪ {am } ; )) a∈C − B 8. End; Return B ; Tiếp theo, chúng tôi đánh giá độ phức tạp thời gian của thuật toán F_IFDAR, gọi tắt là độ phức tạp. Giả sử D = {d } và ký hiệu C , U tương ứng là số thuộc tính điều kiện và số đối tượng. Độ phức tạp tính ma trận dung sai mờ ) , do đó độ phức tạp tính khoảng cách phân hoạch mờ trực cảm trong câu lệnh 2 là O ( C U ) . Xét vòng lặp While từ câu lệnh 3 đến 8, để tính SIG ( a ) ta phải tính D ( K ( R { } ) , K ( R { } ) ) vì D ( K ( R ) , K ( R ) ) đã được tính ở bước trước. Độ phức tạp tính D ( K ( R { } ) , K ( R { } ) ) bằng độ phức tạp tính ma trận tương đương mờ trực cảm của thuộc tính a, nghĩa là O ( U ) . Do có hai vòng lặp lồng nhau theo C nên độ phức tạp của vòng lặp While là O ( C U ) . Do đó, độ phức tạp của thuật toán F_IFDAR là O ( C U ) ( trực cảm ℜC là O C U 2 2 B B∪D B B∪ a B∪ a B∪ a ∪D B∪ a ∪D 2 2 2 2 Ví dụ 3.1. Xét bảng quyết định 2 cho ở Bảng 1 với U = { x1 , x2 , x3 , x4 , x5 , x6 } , DS = (U , C ∪ D ) C = {a, b, c, d , e, f } , D = {Q} . Khi đó, áp dụng các bước của thuật toán F_IFDAR ta có: Khởi tạo B ← ∅ ; D ( K ( RB ) , K ( RB ∪ D ) ) = 1 . Tính các ma trận quan hệ mờ trực cảm cho các thuộc tính điều ( ( kiện ℜa , ℜb , ℜc , ℜd , ℜe , ℜ f theo công thức (1). Từ đó ta có: D K ( RC ) , K RC ∪Q ) ) = 0.1 ( ) ) = 0.25 ; D ( K ( R ) , K ( R ) ) = 0.23 ; D ( K ( R ) , K ( R ) ) = 0.26 ( D (K ( R ) , K ( R ) ) = 0.21 ; D ( K ( R ) , K ( R ) ) = 0.2 ; D ( K ( R ) , K ( R )) = 0.2 D K ( Ra ) , K Ra ∪Q b b ∪Q d ∪Q e e ∪Q d Chọn c ∪Q c f f ∪Q e do e có độ quan trọng SIG∅ ( e ) = 0.8 lớn nhất, khi đó B = {e} . ( ( ) ( Do D K R{e} , K R{e}∪Q )) > D (K ( R C ) , K ( RC ∪Q ) ) nên tiếp tục vòng lặp While ta có: SIG{e} ( a ) = 0.01 , SIG{e} ( b ) = 0.06 , SIG{e} ( c ) = 0.08 , SIG{e} ( d ) = 0.1 , SIG{e} ( f ) = 0 . Chọn d do d có độ quan trọng SIG{e} ( d ) = 0.1 lớn nhất, khi đó B = {e, d } ( ( ) ( Do D K R{e, d } , K R{e, d }∪Q )) = D (K ( R C ) , K ( RC ∪Q ) ) = 0.1 nên thuật toán dừng và B = {e, d } là tập rút gọn tìm được của thuật toán. IV. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Các kết quả thực nghiệm được thực hiện trên môi trường Window 7, CPU Intel (R) Core (TM) i5- 3.10GHz, Ram 4G. Thuật toán tìm tập rút gọn được cài đặt trên môi trường Visual Studio 2010 với ngôn ngữ lập trình C#. Quá trình đánh giá độ chính xác phân lớp của tập thuộc tính rút gọn được cài đặt trên môi trường Spyder-Anacoda 3 với ngôn ngữ lập trình Python. Các thuật toán thử nghiệm được thực hiện trên 8 bộ dữ liệu mẫu lấy từ kho dữ liệu UCI [21] Trần Thanh Đại, Nguyễn Long Giang, Hoàng Thị Minh Châu, Trần Thị Ngân 521 như mô tả ở Bảng 2. Đây là các tập dữ liệu có miền giá trị thuộc tính kiểu số nguyên và kiểu số thực, trước khi thực nghiệm, các giá trị này được chuẩn hóa về đoạn [0, 1] theo công thức trong [20]. Bảng 2. Mô tả dữ liệu thực nghiệm No. 1 2 3 4 5 6 7 8 Data sets Wine Heart Australia Hepatits Horse wdbc wpdc iono Samples 178 270 690 155 300 569 198 351 Attributes 13 13 14 19 26 30 33 34 Classes 3 2 2 2 2 2 2 2 Mục tiêu của việc thực nghiệm là so sánh số lượng thuộc tính tập rút gọn của thuật toán đề xuất F_IFDAR với các thuật toán F_FDAR [22] và thuật toán IFPR [5]. Trong đó, F_FDAR là thuật toán lọc theo tiếp cận mờ truyền thống sử dụng độ đo khoảng cách, còn IFPR là thuật toán tìm tập rút gọn dựa trên miền dương với các phân hoạch được cấu trúc dưới dạng các hạt thông tin. Khi áp dụng thuật toán F_IFDAR, tham số do dự ( β ) được lựa chọn là các giá trị từ 0.1 đến 0.9 với bước nhảy là 0.1. Với mỗi lần điều chỉnh, tập rút gọn thu được sẽ có số lượng và/hoặc thành phần khác nhau. Tham số được lựa chọn cho thuật toán để so sánh với hai thuật toán IFPR và F_FDAR là tham số cho ra tập rút gọn có số lượng và chất lượng phân lớp tốt nhất. Số lượng thuộc tính các tập rút gọn nhận được khi áp dụng F-IFDAR (theo β ), F_FDAR và IFPR được trình bày trong Bảng 3 dưới đây. Các bộ dữ liệu tương ứng được đánh số thứ tự từ 1 đến 8 như trong Bảng 2. Bảng 3. Bảng so sánh số lượng thuộc tính các tập rút gọn No. 1 2 3 4 5 6 7 8 F_IFDAR, β ∈ [ 0.1, 0.9] 0,1 4 9 12 4 11 7 4 10 0,2 3 4 4 6 14 3 4 3 0,3 3 6 7 4 5 3 11 4 0,4 3 4 4 3 6 4 7 7 0,5 6 5 6 4 9 2 4 3 0,6 2 3 3 3 10 3 3 3 0,7 3 4 5 8 16 4 3 4 0,8 3 2 2 3 3 2 11 8 0,9 2 3 3 1 4 1 3 2 IFPR F_FDAR Raw-Data 6 8 8 8 9 17 10 28 11 6 5 6 16 18 18 28 13 13 14 19 26 30 33 34 Thời gian tìm tập rút gọn của các thuật toán được trình bày ở Bảng 4. Tất cả các thuật toán được thực nghiệm trên cùng 8 bộ dữ liệu đã chọn với số lượng thuộc tính của tập rút gọn trong Bảng 3. Thời gian thực hiện các thuật toán được tính theo đơn vị giây. Bảng 4. Bảng so sánh thời gian thực hiện của các thuật toán tìm tập rút gọn (giây) Data set No. 1 2 3 4 5 6 7 8 0,1 0,19 0,84 7,01 0,22 2,50 7,11 0,56 4,14 0,2 0,15 0,45 3,60 0,29 2,90 3,30 0,57 1,50 0,3 0,16 0,65 5,18 0,22 1,36 3,26 1,38 1,92 F_IFDAR, β ϵ [0,1; 0,9] 0,5 0,6 0,7 0,4 0,15 0,24 0,11 0,17 0,46 0,54 0,36 0,45 3,50 4,64 2,87 3,98 0,15 0,22 0,15 0,36 1,54 2,15 2,37 3,15 4,26 2,32 3,15 4,25 0,90 0,57 0,46 0,45 3,06 1,57 1,50 1,93 0,8 0,15 0,28 2,00 0,16 0,85 2,33 1,35 3,21 0,9 0,12 0,36 2,86 0,06 1,05 1,18 0,43 0,95 IFPR F_FDAR Raw-Data 0,11 0,34 2,61 0,17 1,33 6,12 0,67 0,39 0,22 0,36 2,18 0,17 2,03 9,08 1,28 5,02 - Biểu đồ so sánh số lượng thuộc tính tập rút gọn trên các bộ dữ liệu khi áp dụng các thuật toán F-IFDAR (trong trường hợp tốt nhất với β =0,4), F_FDAR và IFPR được thể hiện trong biểu đồ trên Hình 1. Thời gian thực hiện thuật toán tương ứng được thể hiện trong Hình 2. Để đánh giá chất lượng phân lớp của các tập rút gọn so với tập dữu liệu gốc, kĩ thuật đánh giá chéo 10-fold trên hai mô hình phân lớp dữ liệu là cây CART và phương pháp láng giềng gần KNN (K=10) được sử dụng. Độ chính xác phân lớp được tính theo giá trị trung bình của 10 lần chạy đồng thời cho cả 8 bộ dữ liệu trên các tập rút gọn của các thuật toán F_IFDAR, IFPR, F_FDAR và của tập dữ liệu ban đầu (Raw-Data). Độ chính xác phân lớp của mô hình cây quyết định CART được trình bày trong Bảng 5. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ TRỰC CẢM 522 Hình 1. Biểu đồ so sánh số lượng thuộc tính của các tập rút gọn Data set 1 2 3 4 5 6 7 8 Hình 2. Biểu đồ so sánh sánh thời gian thực hiện của các thuật toán Bảng 5. Bảng so sánh về độ chính xác phân lớp của các tập rút gọn trên mô hình CART F_IFDAR, β ϵ [0,1; 0,9] No. IFPR F_FDAR 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,92 0,92 0,91 0,92 0,93 0,89 0,91 0,91 0,72 0,92 0,906 0,69 0,69 0,67 0,68 0,70 0,67 0,69 0,67 0,67 0,74 0,754 0,82 0,80 0,82 0,77 0,79 0,77 0,79 0,85 0,84 0,83 0,828 0,73 0,73 0,73 0,72 0,75 0,70 0,76 0,70 0,82 0,92 0,725 0,66 0,69 0,59 0,65 0,65 0,67 0,69 0,63 0,58 0,95 0,588 0,94 0,94 0,93 0,93 0,91 0,91 0,92 0,85 0,88 0,93 0,925 0,66 0,64 0,70 0,66 0,66 0,65 0,66 0,69 0,69 0,74 0,672 0,92 0,89 0,90 0,90 0,87 0,84 0,86 0,91 0,84 0,91 0,885 Raw-Data 0,90 0,73 0,83 0,75 0,65 0,93 0,69 0,88 Độ chính xác phân lớp của mô hình KNN được trình bày ở Bảng 6. Bảng 6. Bảng so sánh về độ chính xác phân lớp của các tập rút gọn trên mô hình KNN F_IFDAR, β ϵ [0,1; 0,9] Data set No. IFPR F_FDAR 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1 0,81 0,89 0,89 0,82 0,78 0,86 0,89 0,89 0,73 0,97 0,718 2 0,63 0,62 0,60 0,59 0,63 0,58 0,63 0,65 0,68 0,85 0,729 3 0,75 0,69 0,72 0,72 0,69 0,73 0,69 0,77 0,76 0,81 0,807 4 0,72 0,71 0,71 0,72 0,76 0,68 0,78 0,70 0,72 0,86 0,675 5 0,59 0,59 0,57 0,63 0,62 0,61 0,58 0,53 0,58 0,89 0,521 6 0,87 0,88 0,88 0,89 0,76 0,88 0,89 0,87 0,88 0,96 0,885 7 0,77 0,78 0,78 0,75 0,76 0,77 0,77 0,77 0,77 0,77 0,752 8 0,92 0,85 0,88 0,91 0,89 0,84 0,84 0,91 0,81 0,84 0,917 Raw-Data 0,75 0,66 0,69 0,78 0,59 0,93 0,77 0,90 Từ kết quả trong các bảng từ Bảng 3 đến Bảng 6 ta có thể thấy độ do dự 0.4 cho số lượng thuộc tính ít hơn gần 1/3 so với thuật toán IFPR với độ chính xác phân lớp không chênh lệch đáng kể và gần như bảo toàn so với bộ dữ liệu gốc. Hình 3. Biểu đồ so sánh độ chính xác phân lớp Trên mô hình CART Hình 4. Biểu đồ so sánh sánh độ chính xác phân lớp Trên mô hình KNN V. KẾT LUẬN Trong bài báo này, chúng tôi xây dựng thuật toán tìm tập rút gọn của bảng quyết định theo hướng tiếp cận tập thô mờ trực cảm nhằm giảm số lượng thuộc tính của tập rút gọn, từ đó nâng cao hiệu quả của mô hình phân lớp. Trước hết, chúng tôi đưa ra công thức tính toán độ tương tự và độ khác biệt với ràng buộc về độ do dự có thể điều chỉnh. Tiếp theo, chúng tôi xây dựng khoảng cách giữa các phân hoạch mờ trực cảm dựa trên công thức tính toán độ tương tự mới. Dựa trên độ đo khoảng cách được xây dựng, chúng tôi đề xuất thuật toán heuristic tìm tập rút gọn của bảng quyết định. Kết quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI cho thấy, số lượng thuộc tính tập rút gọn của thuật toán đề xuất nhỏ hơn đáng kể so với hai thuật toán IFPR và F_FDAR, trong khi đó độ chính xác phân lớp được bảo toàn so với bảng quyết định ban đầu. Tuy nhiên, do việc điều chỉnh tham số bằng tay nên thuật toán phát sinh chi phí về thời gian cho việc lựa chọn tham số tối ưu. Hướng phát triển tiếp theo là nghiên cứu các phương pháp tối ưu tập luật theo tiếp cận tập thô mờ trực cảm. Trần Thanh Đại, Nguyễn Long Giang, Hoàng Thị Minh Châu, Trần Thị Ngân 523 LỜI CẢM ƠN “Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa học và công nghệ Quốc gia (NAFOSTED) trong Đề tài mã số 102.05-2018.02” TÀI LIỆU THAM KHẢO [1] Z. Pawlak, “Rough sets”, Int. J. Comput. Inf. Sci., Vol. 11, No. 5, pp. 341-356, 1982. [2] Wang, C., Wu, C., & Chen, D. (2008). “A systematic study on attribute reduction with rough sets based on general binary relations”. Information Sciences, 178(9), 2237-2261. [3] Q. H. Hu, D. R. Yu, Z. X. Xie, “Information-preserving hybrid data reduction based on fuzzy-rough techniques”, Pattern Recognition Letters, Vol. 27, No. 5, pp. 414-423, 2006. [4] D. Dubois and H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International Journal of General Systems, Vol. 17, pp. 191-208, 1990. [5] A. Tan, W. Wu, Y. Qian, J. Liang, J. Chen and J. Li, “Intuitionistic Fuzzy Rough Set-Based Granular Structures and Attribute Subset Selection”, in IEEE Transactions on Fuzzy Systems, Vol. 27, No. 3, pp. 527-539, March 2019, doi: 10.1109/TFUZZ.2018.2862870. [6] R. Jensen, Q. Shen, “New approaches to fuzzy-rough feature selection”, IEEE Trans. Fuzzy Syst. 17(4), pp. 824838, 2009. [7] G.C.Y. Tsang, D.G. Chen, E.C.C. Tsang, J.W.T. Lee, D.S. Yeung, “On attributes reduction with fuzzy rough sets”, IEEE International Conference on Systems, Man and Cybernetics, 2005. [8] J.H. Dai, Q. Xu, “Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification”, Applied Soft Computing 13, pp. 211-221, 2013. [9] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi, “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28, 2016. [10] Anoop Kumar Tiwari , Shivam Shreevastava, Tanmoy Som, K.K. Shukla, “Tolerance-based intuitionistic fuzzyrough set approach for attribute reduction”, Expert Systems With Applications 101, pp. 205-212, 2018. [11] Feng, Qinrong & Li, Rui. (2013). Discernibility Matrix Based Attribute Reduction in Intuitionistic Fuzzy Decision Systems. 8170. 147-156. 10.1007/978-3-642-41218-9_16. [12] E. Szmidt and J. Kacprzyk, “Entropy for intuitionistic fuzzy sets”, Fuzzy Sets Syst., Vol. 118, No. 3, pp. 467-477, 2001. [13] A. Tan, S. Shi, W. Wu, J. Li and W. Pedrycz, “Granularity and Entropy of Intuitionistic Fuzzy Information and Their Applications,” in IEEE Transactions on Cybernetics, doi: 10.1109/TCYB.2020.2973379. [14] K. Atanassov, Intuitionistic Fuzzy Sets: Theory and Applications. New York, NY, USA: Physica-Verlag, 1999. [15] H. Bustince and P. Burillo, “Structures on intuitionistic fuzzy relations”, Fuzzy Sets Syst., Vol. 78, No. 78, pp. 293-303, 1996. [16] E. Szmidt and J. Kacprzyk, “Entropy for intuitionistic fuzzy sets”, Fuzzy Sets Syst., Vol. 118, No. 3, pp. 467-477, 2001. [17] D. Chen, L. Zhang, S. Zhao, Q. Hu, and P. Zhu, “A novel algorithm for finding reducts with fuzzy rough sets”, IEEE Trans. Fuzzy Syst., Vol. 20, No. 2, pp. 385-389, 2012. [18] N. L. Giang et al., “Novel Incremental Algorithms for Attribute Reduction From Dynamic Decision Tables Using Hybrid Filter-Wrapper With Fuzzy Partition Distance”, in IEEE Transactions on Fuzzy Systems, Vol. 28, No. 5, pp. 858-873, May 2020, doi: 10.1109/TFUZZ.2019.2948586. [19] Liang J. Y., K. S. Chin, C. Y. Dang, R. C. M. Yam. “A new method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems, 31 (2002), No. 4, 331-342. [20] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for feature selection based on fuzzy rough sets”, IEEE Transactions on Fuzzy Systems, Vol. 26, Issue 3, pp. 1257-1273, 2017. [21] C. Blake and C. Merz. (1998). UCI Repository of Machine Learning Databases. [Online]. Available: http://www.ics.uci. edu/mlearn/MLRepository.html. [22] Van Thien Nguyen, Long Giang Nguyen, Nhu Son Nguyen , “Fuzzy Partition Distance based Attribute Reduction in Decision Tables”, IJCRS 2018: International Joint Conference on Rough Sets 2018, LNCS, Vol. 11103, Springer Link, 2018, pp. 614-627. APPROACH FOR ATTRIBUTE SUBSET SELECTION BASED INTUITIONISTIC FUZZY-ROUGH SET Tran Thanh Dai, Nguyen Long Giang, Hoang Thi Minh Chau, Tran Thi Ngan ABSTRACT: Attribute reduction is an important problem in the preprocessing step of data mining and knowledge discovery. In recent years, researchers have proposed methods to reduce attributes directly on the original decision table according to the fuzzy rough set(Fuzzy Rough Set - FRS) approach to improve the classification model's accuracy. However, the number of attributes obtained by the fuzzy rough set methods is not optimal because the constraints between the objects in the decision table have not been fully considered. In this paper, we propose the method of reducing attribute directly on the original decision table according to the intuitiontic fuzzy rough set(Intuitionistic Fuzzy Rough Set - IFRS) approach using the new membership and nonmembership function. The Experimental results on the sample data sets show that the number of subset reduct of the proposed method is significantly reduced compared to the FRS methods and some other IFRS. Keywords: Decisions Table, attribute reduction, reduct set, fuzzy rough set, intuitive fuzzy rough set, distance.