קלאַססיפיקאַטיאָן אין דאַטאַ מינינג

קלאַסאַפאַקיישאַן איז אַ דאַטן מיינינג טעכניק וואָס אַסיינז קאַטעגאָריעס צו אַ זאַמלונג פון דאַטן אין סדר צו הילף אין מער פּינטלעך פֿאָרויסזאָגן און אַנאַליסיס. אויך גערופן מאל גערופן אַ דעסיסיאָן טרי , קלאַסאַפאַקיישאַן איז איינער פון עטלעכע מעטהאָדס בדעה צו מאַכן די אַנאַליסיס פון זייער גרויס דאַטאַסעץ עפעקטיוו.

פארוואס קלאַססיפיקאַטיאָן?

זייער גרויס דאַטאַבייסיז ווערן דער נאָרמאַל אין הייַנט ס וועלט פון "גרויס דאַטן." ימאַדזשאַן אַ דאַטאַבאַסע מיט קייפל טעראַביטעס פון דאַטן-אַ טעראַביטע איז 10000000000 ביטעס פון דאַטן.

פאַסעבאָאָק אַליין קראַנטשיז 600 טעראַביטעס פון נייַ דאַטן יעדער איין טאָג (ווי פון 2014, די לעצטע מאָל עס געמאלדן די ספּעקס). די ערשטע אַרויסרופן פון גרויס דאַטן איז ווי צו מאַכן דעם זינען.

און לויטער באַנד איז נישט דער בלויז פּראָבלעם: גרויס דאַטע אויך טענדז צו זייַן דייווערס, אַנסטראַקטשערד און שנעל טשאַנגינג. באַטראַכטן אַדיאָו און ווידעא דאַטן, געזעלשאַפטלעך מידיאַ הודעות, 3 ד דאַטן אָדער געאָספּאַטיאַל דאַטן. דעם סאָרט פון דאַטן איז ניט לייכט קאטיגארעזירט אָדער אָרגאַניזירט.

צו טרעפן דעם אַרויסרופן, אַ קייט פון אָטאַמאַטיק מעטהאָדס פֿאַר יקסטראַקטינג נוציק אינפֿאָרמאַציע איז דעוועלאָפּעד, צווישן זיי קלאַסאַפאַקיישאַן .

ווי קלאַססיפיקאַטיאָן אַרבעט

אין דער געפאַר פון מאַך צו ווייַט אין טעק-רעדן, לאָזן 'ס דיסקוטירן ווי קלאַסאַפאַקיישאַן אַרבעט. דער ציל איז צו שאַפֿן אַ סכום פון קלאַסיש כּללים וואָס וועט ענטפֿערן אַ קשיא, מאַכן אַ באַשלוס, אָדער פאָרויסזאָגן אָפּפירונג. אָנהייב, אַ גאַנג פון טריינינג דאַטן איז דעוועלאָפּעד אַז כּולל אַ זיכער שטעלן פון אַטריביוץ ווי געזונט ווי די מסתּמא אַוטקאַם.

די אַרבעט פון די אַלגערידאַם קלאַסאַפאַקיישאַן איז צו אַנטדעקן ווי אַז שטעלן פון אַטריביוץ ריטשאַז זייַן מסקנא.

סצענאַר : אפשר אַ קרעדיט קאַרטל פירמע איז טריינג צו באַשטימען וואָס פּראַספּעקץ זאָל באַקומען אַ קרעדיט קאָרט פאָרשלאָג.

דאָס קען זיין די סכום פון טריינינג דאַטן:

טראַינינג דאַטאַ
נאָמען עלטער דזשענדער Annual Income קרעדיט קאַרד אָפפער
יוחנן דאָו 25 M $ 39,500 ניין
Jane Doe 56 F $ 125,000 Yes

די "פּרידיקטער" שפאלטן אַגע , דזשענדער , און יערלעך ינקאָמע באַשטימען די ווערט פון די "פּרידיקטער אַטריביוט" קרעדיט קאַרד אָפפער . אין אַ טריינינג שטעלן, די פּרידיקטאָר אַטריביוט איז באקאנט. די אַלגערידאַם קלאַסאַפאַקיישאַן דעמאָלט פרוווט צו באַשליסן ווי די ווערט פון די פּרעדיקטאָר אַטריביוט איז ריטשט: וואָס שייכות צווישן די פּרעדיקטאָרס און די באַשלוס? עס וועט אַנטוויקלען אַ סכום פון פאָרויסזאָגן כּללים, יוזשאַוואַלי אַ אויב / טהען ויסזאָגונג, פֿאַר בייַשפּיל:

אויב (אַגע> 18 אָדער עלטער <75) און יערלעך האַכנאָסע> 40,000 THEN קרעדיט קאַרד פאָרשלאָג = יאָ

דאָך, דאָס איז אַ פּשוט בייַשפּיל, און די אַלגערידאַם וואָלט דאַרפֿן אַ ווייַט גרעסער דאַטן מוסטערונג ווי די צוויי רעקאָרדס געוויזן דאָ. ווייַטער, די פּראָגנאָז כּללים זענען מסתּמא צו זיין מער קאָמפּליצירט, אַרייַנגערעכנט סאַב-כּללים צו כאַפּן אַטריביוט פרטים.

ווייַטער, די אַלגערידאַם איז געגעבן אַ "פּראָגנאָז שטעלן" פון דאַטן צו פונאַנדערקלייַבן, אָבער דעם גאַנג לאַקס די פּראָגנאָז אַטריביוט (אָדער באַשלוס):

Predictor Data
נאָמען עלטער דזשענדער Annual Income קרעדיט קאַרד אָפפער
דזשאַק פראָסט 42 M $ 88,000
Mary Murray 16 F $ 0

דעם פּרעדיקטאָר דאַטע אַלאַוז אָפּשאַצן די אַקיעראַסי פון די פאָרויסזאָגן כּללים, און די כּללים זענען דעמאָלט טוויקט ביז די דעוועלאָפּער האלט די פאָרויסזאָגן עפעקטיוו און נוצלעך.

טאָג צו טאָג ביישפילן פון קלאַססיפיקאַטיאָן

קלאַסאַפאַקיישאַן, און אנדערע דאַטן מינינג טעקניקס, איז הינטער פיל פון אונדזער טאָג-צו-טאָג דערפאַרונג ווי קאָנסומערס.

וועטער פאָרויסזאָגן זאל מאַכן נוצן פון קלאַסאַפאַקיישאַן צו באַריכט צי דער טאָג וועט זיין רעגנדיק, זוניק אָדער פאַרוואָלקנט. די מעדיציניש פאַך קען פונאַנדערקלייַבן געזונט באדינגונגען צו פאָרויסזאָגן מעדיציניש רעזולטאטן. א טיפּ פון קלאַסאַפאַקיישאַן אופֿן, נאַיווע בייַעסיאַן, ניצט קאַנדישאַנאַל מאַשמאָעס צו קאַטאַגערייז ספּאַם ימיילז. פון פראָד דיטעקשאַן צו פּראָדוקט אָפפערס, קלאַסאַפאַקיישאַן איז הינטער די סינז יעדער טאָג פון די דאַטן אַנאַליסיס און פּראָדוסינג.