Modelowanie przedziałowe w klasyfikacji niezbalansowanych zbiorów danych / Interval-valued modeling for classification of imbalanced datasets

 

Opis w języku polskim

Description in English

Dyscyplina / Discipline

Informatyka techniczna i telekomunikacja

Information and communication technology

Promotor / Supervisor

 

dr hab. Urszula Bentkowska, prof. UR

ubentkowska@ur.edu.pl

Associate Prof. Urszula Bentkowska

ubentkowska@ur.edu.pl

Tytuł tematu badawczego / Title of the research topic

Modelowanie przedziałowe w klasyfikacji niezbalansowanych zbiorów danych

Interval-valued modeling for classification of imbalanced datasets

Opis tematu badawczego / Description of the research topic

Klasyfikacja niezbalansowanych zbiorów danych jest nadal jednym z trudnych problemów eksploracji danych. Dysproporcja między liczbą obiektów w klasach decyzyjnych powoduje, że rozkład klas nie jest równomierny, a separacja między klasami jest często utrudniona. Celem badań będzie zaproponowanie metod preprocessingu danych, które mogą zmniejszyć stopień ich niezbalansowania, a także zaproponowanie algorytmów klasyfikacji wykorzystujących zbiory przedziałowo-rozmyte. Oczekiwane jest, że zastosowanie zbiorów przedziałowo-rozmytych (jedno z uogólnień zbiorów rozmytych) może zwiększyć wydajność modelowania rozmytego poprzez dodanie wyższego stopnia wiedzy.

Classification of imbalanced datasets is still one of the challenging problems in data mining. Disproportion between the number of objects in the decision classes means that the class distribution is not uniform and the separability between the classes is often difficult. The aim of the researach will be to propose preprocessing methods which may reduce the degree of imbalance as well as to propose classification algorithms using interval-valued fuzzy sets. Application of interval-valued fuzzy sets (one of the generalizations of fuzzy sets) is expectedly able to increase the performance of fuzzy modeling by adding a higher degree of knowledge.

Słowa klucze / Keywords

klasyfikacja, niezbalansowane zbiory danych, zbiory przedziałowo-rozmyte

classification, imbalanced datasets, interval-valued fuzzy sets

Oczekiwane kompetencje/umiejętności od kandydata na doktoranta / Expected competences/skills from the candidate for a PhD student

- bardzo dobra znajomość języka programowania Python

- znajomość podstaw wnioskowania rozmytego i rozmytych wersji podstawowych algorytmów klasyfikujących

- znajomość języka angielskiego na poziomie co najmniej B2

- umiejętność pracy w zespole

- very good knowledge of the Python programming language

- knowledge of the basics of fuzzy reasoning and fuzzy versions of basic classification algorithms

- knowledge of English at least at B2 level

- ability to work in a team