וואָס איז ק-מיטל קלאַסטערינג?

דאַטאַ מינינג מיט די ק-מיטל אַלגערידאַם

די ק- מיטל קלאַסטערינג אַלגערידאַם איז אַ דאַטן מיינינג און מאַשין וויסן געצייַג געניצט צו קנויל אַבזערוויישאַנז אין גרופּעס פון פֿאַרבונדענע אַבזערוויישאַנז אָן קיין פריערדיק וויסן פון די באציונגען. דורך מוסטערונג, די אַלגערידאַם פרוווט צו ווייַזן אין וואָס קאַטעגאָריע, אָדער קלאַסטער, די דאַטן געהערן, מיט די נומער פון קלאַסטערז זייַענדיק דיפיינד דורך די ווערט ק.

די ק- מיטל אַלגערידאַם איז איינער פון די סימפּלאַסט קלוסטערינג טעטשניקוועס און עס איז קאַמאַנלי געניצט אין מעדיציניש ימידזשינג, ביאָמעטריקס, און שייַכות פעלדער. די אַדוואַנטאַגעס פון ק- מיטל קלאַסטערינג איז אַז עס דערציילט וועגן דיין דאַטן (ניצן זייַן ונסופּערוויסעד פאָרעם), אָבער איר האָבן צו לערנען די אַלגערידאַם וועגן די דאַטן אין די אָנהייב (ניצן די סופּערווייזד פאָרעם פון די אַלגערידאַם).

עס איז מאל גערופן לויד אַלגאָריטהם, ספּעציעל אין קאָמפּיוטער וויסנשאַפֿט קרייזן ווייַל די נאָרמאַל אַלגערידאַם איז געווען ערשטער פארגעלייגט דורך סטואַרט לויד אין 1957. די טערמין "ק-מיטל" איז געווען קוינד אין 1967 דורך יעקב מאַקווין.

ווי די ק-מיטל אַלגאָריטהם פונקטיאָנס

די ק- מיטל אַלגערידאַם איז אַן עוואָלוטיאָנאַרי אַלגערידאַם אַז גיינז זייַן נאָמען פון זייַן אופֿן פון אָפּעראַציע. די אַלגערידאַם קלוסטערז אַבזעריישאַנז אין ק גרופּעס, ווו ק איז צוגעשטעלט ווי אַ אַרייַנשרייַב פּאַראַמעטער. עס דאַן אַסיינז יעדער אָבסערוואַציע צו קלאַסטערז באזירט אויף דער אָבסערוואַציע ס פּראַקסימאַטי צו די מינוס פון די קנויל. די גראַסטער ס מיטל איז דעמאָלט רעקאָמפּוטעד און דער פּראָצעס הייבט ווידער. דאָ ס ווי די אַלגערידאַם אַרבעט:

  1. דער אַלגערידאַם אַרביטראַראַלי סאַלעקץ ק ווייזט ווי די ערשט קלאסטערז סענטערס (די מיטל).
  2. יעדער פונט אין די דאַטאַסעט איז אַסיינד צו די פארמאכט קלאסטער, באזירט אויף די עוקלידעאַן ווייַטקייט צווישן יעדער פונט און יעדער קנויל צענטער.
  3. יעדער קנויל צענטער איז רעקאָמפּוטעד ווי די דורכשניטלעך פון די פונקטן אין אַז קנויל.
  4. טריט 2 און 3 איבערחזרן ביז די קלוסטערז קאַנווערדזש. קאָנווערדזשאַנס קען זיין דיפיינד דיפּענדינגלי דיפּענדינג אויף די ימפּלאַמענטיישאַן, אָבער עס נאָרמאַלי מיטל אַז אָדער קיין אַבזערוויישאַנז טוישן קלאַסטערז ווען טריט 2 און 3 זענען ריפּיטיד, אָדער אַז די ענדערונגען טאָן ניט מאַכן אַ מאַטעריאַל חילוק אין די דעפֿיניציע פון ​​די קלאַסטערז.

טשאָאָסינג די נומער פון קלאַסטערז

איינער פון די הויפּט דיסאַדוואַנטידזשיז צו ק- מיטל קלאַסטערינג איז די פאַקט אַז איר מוזן ספּעציפיצירן די נומער פון קלאַסטערז ווי אַ אַרייַנשרייַב צו די אַלגערידאַם. ווי דיזיינד, די אַלגערידאַם איז ניט טויגעוודיק צו באַשטימען די צונעמען נומער פון קלאַסטערז און דעפּענדס אויף די באַניצער צו ידענטיפיצירן דעם אין שטייַגן.

פֿאַר בייַשפּיל, אויב איר האט אַ גרופּע פון ​​מענטשן וואָס זענען צו זיין קלאַסטערד באזירט אויף ביינערי דזשענדער אידענטיטעט ווי זכר אָדער ווייַבלעך, רופן די ק- מיטל אַלגערידאַם ניצן די אַרייַנשרייַב ק = 3 וואָלט קראַפט די מענטשן אין דרייַ קלאַסטערז ווען בלויז צוויי, אָדער אַרייַנשרייַב פון ק = 2, וואָלט צושטעלן אַ מער נאַטירלעך פּאַסיק.

סימילאַרלי, אויב אַ גרופּע פון ​​מענטשן זענען לייכט קלאַסטערד באזירט אויף היים שטאַט און איר גערופן די ק- מיטל אַלגערידאַם מיט די אַרייַנשרייַב ק = 20, די רעזולטאַטן זאל זיין אויך דזשענעראַלייזד צו זיין עפעקטיוו.

דעריבער, עס איז אָפט אַ גוטע געדאַנק צו עקספּערימענט מיט פאַרשידענע וואַלועס פון ק צו ידענטיפיצירן די ווערט אַז בעסטער סוץ דיין דאַטן. איר אויך וויל צו דערוואַרטן די נוצן פון אנדערע דאַטן מיינינג אַלגערידאַמז אין דיין זוכן פֿאַר מאַשין-געלערנט וויסן.