די שטאַט פון לינוקס קול רעקאָגניטיאָן

הקדמה

איך פאַרברענגען אַ פּלאַץ פון צייַט פאָרשונג פֿאַר אַרטיקלען און גאַנץ אָפט איך טראַכטן וועגן די ונטערטעניק ענין פֿאַר אַ אַרטיקל כאָטש גיין צו דער באַן סטאַנציע אָדער ווען אויס און וועגן אין אַלגעמיין.

איין אָוונט ווען איר גיין אַרום די 1.5 מייל צו דער סטאַנציע פון ​​מיין אַרבעט איך געדאַנק "וואָלט נישט זיין גוט אויב איך קען רעקאָרד וואָס איך געוואלט צו זאָגן און דעמאָלט עס טראַנסקריבעד אויטאָמאַטיש צו אַ טעקסט טעקע וואָס איך קען רעדאַגירן און פֿאָרמאַט שפּעטער אויף" .

איך האב פארבראכט פילע לאַנג שעה קוקן בייַ די פאַרשידענע אָפּציעס בנימצא פֿאַר קול דערקענונג און דיקטיישאַן אַרייַנגערעכנט רעקאָרדינג גלייַך דורך אַ מיקראָפאָן ניצן דיקטיישאַן ווייכווארג אין לינוקס, רעקאָרדינג די טעקע צו mp3 אָדער וואַוו פֿאָרמאַט און קאַנווערטינג עס דורך די באַפֿעל שורה, ווי געזונט ווי ניצן קראָום און אַנדרויד אַפּלאַקיישאַנז.

דער אַרטיקל כיילייץ מיין פיינדינגז נאָך טעג פון שווער אַרבעטן.

לינוקס אָפּציעס

טריינג צו געפֿינען דיקטיישאַן און קול דערקענונג סאָפטווער אין לינוקס איז ניט ווי גרינג ווי עס קען זיין און די אָפּציעס בנימצא זענען נישט אַז קלוג.

דעם wikipedia בלאַט האט אַ רשימה פון פּאָטענציעל אָפּציעס אַרייַנגערעכנט קמו ספינקס, דזשוליוס און שמעון.

איך נוצן ספּאַרקילינוקס וואָס איז באזירט אויף דעביאַן טעסטינג אין דעם מאָמענט, און איך קען זאָגן איר אַז די בלויז קול דערקענונג פּעקל בנימצא אין די ריפּאַזאַטאָריז איז ספּינקס.

די געבוירן לינוקס מגילה איך געפונען אַרויף צו פּאָסצספינקס וואָס איך געוויינט צו וווו טעקעס צו טעקסט און פרעעספּעעטש-וור וואָס איז אַ פּיטהאָן אַפּלאַקיישאַן אַז לעץ איר רעקאָרד גלייַך פון אַ מיקראָפאָן.

איך אויך געפרוווט אַ פּאָר פון קראָום אַפּפּס אַרייַנגערעכנט VoiceNote II and Dictanote.

סוף איך געפרוווט די "דיקטיישאַן און עמאַיל" און "רעדן און רעדן דיקטיישאַן" אַנדרויד אַפּפּס.

פרעעספּעטש-וור

פרעעספּעטש-וור איז ניט בנימצא אין די נאָרמאַל ריפּאַזאַטאָריז. איך דאַונלאָודיד די טעקעס פון דאָ.

נאָך דאַונלאָודינג און יקסטראַקטינג די אינהאַלט פון די פאַרשלעסלען טעקע איך געעפנט אַ וואָקזאַל און נאַוואַגייטיד צו דער טעקע ווו די טעקעס זענען יקסטראַקטאַד.

איך טייפּט די פאלגענדע באַפֿעל צו עפענען פריעספּעטש-וור.

sudo python freespeech-vr

איך האָבן אַ פּאָר פון כעדפאָונז מיט אַ פערלי לייַטיש מיקראָפאָן און אַ פערלי קלאָר דאָרעמדיק ענגליש אַקצענט.

די פאלגענדע טעקסט ארויס אין די פרעעספּעטש-וור פֿענצטער:

ברוכים הבאים צו די אַפּאַראַט הינט פון אַוטקאַם הייַנט האָבן ינשורינג ווי צו מאַנאַגעד טעסץ אַ האָבן צו פּרובירן ווען צו טעקסט ניצט אַ די סיסטעם וועג רעדן איך די צו איינער יעדער איז בלויז אין אַ צו האָפֿן פון סטייינג און די צו מיטל פון איין טשיקאַנז גאָלדען ווי סיסטעם די עאַ ווען עס מיין נאָמען דער ווייַטער סאַש רופט טעלעפאָנירן דאס טעקע באלד גענוג אַ קאַסעס טעלעפאָנירן צו הענט-ספעיס די ספינקס גייען וואָס איז ניט אַ פאָנעס וועט זיין שערד א טריינד און און מכשירים ניצן גערעדט ווען איר פאַרטיק זאָגן א געוויינט טעקע לעצטע אַ געשיכטע א און ניצן אַ דורך די ווען עס איז זייער ווי הצלחה דעם לינוקס איז ווי צי איר ויסמייַדן איז

איך וואָלט נאָר ווי צו זאָגן איצט אַז דאָס איז נישט די יוניט פון דאָגס וועבזייַטל און אין קיין פונט, איך טאָן עפּעס צו טאָן מיט גאָלדען טשיקאַנז. איך איז פאקטיש טריינג צו באַשרייַבן דעם פּראָצעס פון ניצן קול דערקענונג סאָפטווער.

איך געפרוווט די ווייכווארג אַ ביסל מאל אַרייַנגערעכנט וועריינג פּעך און גיכקייַט אָבער די אַקיעראַסי איז געווען נעבעך.

PocketSphinx

PocketSphinx איז ביכולת צו נעמען אַ וואַוו טעקע און גער עס צו טעקסט ניצן די באַפֿעל שורה.

PocketSphinx איז בנימצא דורך די דעביאַן ריפּאַזאַטאָריז און זאָל זיין בנימצא פֿאַר רובֿ דיסטריביושאַנז.

די הויפּט אַרויסגעבן איך געפונען מיט PocketSphinx איז אַז איר דאַרפֿן אַ גראַד אין די קאַנסעפּס פון קול דערקענונג, שפּראַך טעקעס, דיקשאַנעריז און ווי צו באַן די סיסטעם.

נאָך אינסטאַלירן PocketSphinx איר זאָל גיין צו די קמו ספינקס וועבזייַטל און לייענען ווי פיל אינפֿאָרמאַציע ווי מעגלעך. איר אויך דאַרפֿן צו אָפּלאָדירן די ווייַטערדיק מאָדעל טעקע.

(אויב איר זענט נישט אַ געבוירענער ענגליש רעדנער אויסקלייַבן די שפּראַך מאָדעל וואָס איז צונעמען פֿאַר איר).

די דאַקיומענטיישאַן פֿאַר פּאָקקעטספינקס און ספינקס אין אַלגעמיין איז שווער צו פֿאַרשטיין פֿאַר די לייגן מענטש אָבער פון וואָס איך קען מאַכן אויס ווערטערבוך טעקעס זענען געניצט צו צושטעלן אַ רשימה פון מעגלעך ווערטער און שפּראַך מאָדעלס האָבן אַ רשימה פון פּאָטענציעל פּראָנונסיאַטיאָנס.

צו פּרובירן פּאָססעססספינקס איך געוויינט אַ רעקאָרדינג פון מיין אייגן קול, אַ סניפּאַט פון על פּאַקינאָ אין "די דעווילס אַדוואָקאַטע" און אַ סניפּאַט פון "מאָרגאַן פרימאַן". די פונט פון דעם איז צו פּרובירן פאַרשידענע קולות און פֿאַר מיר עס איז קיינער וואס קענען דערציילן אַ געשיכטע ווי קלאר ווי מאָרגאַן פרימאַן און קיינער דיליווערז אַ שורה ווי על פּאַקינאָ.

פֿאַר פּאָססעסספינקס צו אַרבעט עס דאַרף אַ וואַוו טעקע און עס דאַרף זיין אין אַ זיכער פֿאָרמאַט. אויב די טעקע איז אין mp3 פֿאָרמאַט נוצן די פפמפּעג באַפֿעל צו בייַטן עס אין וואַוו פֿאָרמאַט:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

צו לויפן PocketSphinx נוצן די ווייַטערדיק באַפֿעל:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous נעמט אַ וואַוו טעקע און קאַנווערץ עס צו טעקסט.

אין די באַפֿעל אויבן pocketsphinx איז געזאָגט צו נוצן אַ ווערטערבוך טעקע גערופן "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" מיט די שפּראַך מאָדעל "קמוספינקס-5.0-ען-אונדז.לם". דער טעקע איז קאָנווערטעד צו טעקסט איז גערופן voice2.wav (וואָס איז אַ רעקאָרדינג איך געמאכט מיט מיין קול). סוף די 2> ערלויבט אַלע די ווערבאָוזע פּראָדוקציע אַז איר טאָן ניט דאַווקע דאַרפֿן אין אַ טעקע גערופן voice2.log. די פאַקטיש רעזולטאַטן פון די פּראָבע זענען געוויזן ין דער וואָקזאַל פֿענצטער.

די רעזולטאַטן ניצן מיין קול זענען ווי גייט:

באַגריסן צו דער ווייַטער וועגן געזונט ניט דעם וואָך ונטערטעניק וועגן וואָס דערקענונג סאָפטווער אין אַ מינוט

די רעזולטאַטן זענען נישט ווי כאָרנדאַס ווי מיט פרעעספּעטש-וור אָבער נאָך ניט טאַקע וסעאַבלע. איך געפרוווט ניצן פּאָססעסספינקס מיט Al Pacino, אָבער דאָס איז ניט אַלע רעזולטאַטן.

סוף איך געפרואווט ניצן Morgan Freeman's קול פון די פֿילם "Bruce Almighty" און דאָ זענען די רעזולטאַטן:

000000000: מיר וועט אויף איר
000000001: ביסט אַלע אַז האַרט יאָ דער טאָג אַז רעכט איצט יאָ דעם איז די מערסט מיר ווע געווארן לעבעדיק איך בין טייל דורך די הייס
000000002: אין די ליפט וואס איז דער שליסל אויס פון אַ ביסל פון בייסבאָל אָדער וויסן וואָס צו טאָן צו אין לעבן
000000003: וואָס זענען די וואָס וועט צוריקקריגן
000000004: זיי האבן נישט שרייַבן עס
000000005: זיי האָבן אויף מיר רעכט אויס
000000006: איר מוזן זיין כּללים
000000007: איך'ווע געווען יקספּעקטינג איר
000000008: און ער געלערנט דאָ וואָס איז געווען אַ געמעל איז געווען די קיללער ניטל פּאַרטיי
000000009: עס טורנס אויס איינער פון די וועג צו שרייַבן אָ. טאָכעס איך געדאַנק ביסל שטענדיק טראָגן איינער
000000010: ווי די פּראָבלעם אמעריקאנער וועט ניט געבן ער די גוט איך בין די עסטימאַטעד זיי בייַ אַז מאָמענט ווען מיר האבן ניט אַלע וואָס איר טראַכטן איך בין אין די וועלט וועט האָמעס און איך האָבן געזען אַז
000000011: אַ פאטער וואס האט עס
000000012: וואָס אַ פּלאַץ וועגן דעם
000000013: טוט אַז געגעבן
000000014: אַלץ איר יענע וואס טאָן נישט פאַלן פֿאַר אַ פּלאַץ
000000015: רעכט אין דעם פאַל
000000016: געזונט האַלטן נאָר פֿאַר מיר
000000017: עס אַ ומגליקלעך אויב איך טראַכטן אויך אַז זיי זענען געגאנגען צו האָבן אַ וואָס די וואָס וועט אַלע פון ​​וואָס באהעפט אויף אַ איז געווען ניט מיר טאָן איך ווי די ניט ענלעך דעם וועג

מיין טעסט קענען זיין געהאלטן וויסנשאפטלעכע און די דעוועלאָפּערס פון PocketSphinx קען זאָגן אַז איך בין נישט ניצן די ווייכווארג ריכטיק. עס איז אויך אַ טעכניק גערופן קול טריינינג אַז קענען ווערן גענוצט צו שאַפֿן בעסער דיקשאַנעריז און שפּראַך טעקעס.

מייַן אָווועררייייד מיינונג כאָטש עס איז נאָר צו שווער פֿאַר נאָרמאַל וואָכעדיק נוצן.

VoiceNote II

VoiceNote II איז אַ קראָום אַפּ וואָס ניצט די גוגל ווויס דערקענונג אַפּי.

אויב איר זענען ניצן די קראָום אָדער טשראָמיום בראַוזערז איר קענען ינסטאַלירן ווויסנאָטע וו דורך די וועב סטאָר .

די ייסאַנז אויף VoiceNote II זענען אויסגעלייגט אין אַ מאָדנע מאָדע ווי איר דאַרפֿן צו שטעלן די שפּראַך אין די דנאָ פון די פֿענצטער, און די רעדאַגירן קנעפּל איז אויך בייַ די דנאָ, אָבער די רעקאָרדינג קנעפּל איז אין די שפּיץ רעכט שטעלע.

דער ערשטער זאַך וואָס איר דאַרפֿן צו טאָן איז אויסקלייַבן אַ שפּראַך און דעם קענען זיין אַטשיווד דורך געבן אַ קליק אויף דעם וועלט ייקאַן.

צו אָנהייבן רעקאָרדינג, גיט די מיקראָפאָן ייקאַן און אָנהייב גערעדט אין דיין מיקראָפאָן. פֿאַר די בעסטער רעזולטאטן איך געפונען גערעדט סלאָולי איז געווען שליסל אַזוי אַז די ווייכווארג וואָלט האָבן אַ געלעגנהייַט צו האַלטן אַרויף.

די רעזולטאַטן זענען נישט גרויס ווי קענען זיין געזען אונטן:

העלא און באַגריסן צו פאַרבינדן. About.com הייַנט ס אַרטיקלען וועגן קול צו טעקסט קאַנווערזשאַן טונעל פעררעל ריסעשאַן 2008 ווי קאַנווערזשאַנז און עס האט געזונט געשטיצט די בעסטער וועג איך געפונען קול טעקסט אַדדאָן צו ווייַזן 2014 דעביאַן אָדער רפּם פּעקל עפענען עס קול טיפּ צו רייד צו טעקסט עפענען עס אויב איר ווילן צו קלייַבן ווס אויסדערוויילט אין עדינבורגה פראנצויזיש דייַטש באַקומען איר די צייט אין פאַרייניקטע מלכות סטאַרט בייַ ים מייקראָופאָונווהאַט איר פאַרטיק שרייבן דיין טעקסט ווי אַ טעקסט טעקע צו זייַןאַקסעסס גוט אַז ס 'זייער נאָרמאַל ענגליש אַקצענט פון דרום פון ענגלאַנד בעסטער פֿאַר עס אָבער איך בין געגאנגען צו די טעקסטוויאַ דעם טאָראַלאַלאָנג מיט די פאַקטיש דאָקומענט און איר קענען זען פֿאַר די מיסטייקס אַז מאַקעטהאַנק איר פֿאַר ליסטענעדפענדז

Dictanote

Dictanote איז אן אנדער קראָום אַפּ וואָס קענען זיין געניצט פֿאַר דיקטיישאַן צוועקן און געקומען אַריבער ווי עס איז מער ינטואַטיוו אָבער די רעזולטאַטן זענען נישט בעסער ווי ווויסנאָטע וו.

איך געניצט די דעמאָ ווערסיע פון ​​דיקטיאָנאָט וואָס פּריווענץ איר פון שאפן נייע דאקומענטן, אָבער דאָס קען רעדן איבער טעקסט וואָס איז שוין אין דער רעדאַקטאָר. איך איז געווען ביכולת צו פּרובירן די קול דערקענונג אָבער די רעזולטאַטן זענען נישט בעסער ווי VoiceNote II און אַזוי איך האט נישט צייכן אַרויף פֿאַר די פּראָ ווערסיע.

דיקטיישאַן און מעיל

"דיקטיישאַן און מעיל" איז אַ אַנדרויד אַפּלאַקיישאַן וואָס ניצט די געבוירן Google קול דערקענונג אַפּי.

די רעזולטאַטן פון "דיקטיישאַן און מעיל" זענען פיל בעסער ווי קיין פון די אנדערע פּראָגראַם געפרוווט אַרויף צו דעם פונט.

העלא באַגריסן צו לינוקס וועגן., הייַנט מיר גערעדט וועגן קאַנווערטינג געזונט צו טעקסט

דער קונץ מיט "דיקטיישאַן און מעיל" איז צו רעדן סלאָולי און פּראָונאַנסיייט און אויך מיט אַן אַפֿילו אַקסענט.

נאָך איר האָט פאַרענדיקט גערעדט, איר קענען שיקן די רעזולטאטן צו זיך.

רעדן און רעדן דיקטאַטיאָן

די אנדערע אַנדרויד אַפּפּליקאַטיאָן וואָס איך געפרואווט איז "Talk And Talk Dictation".

די צובינד פֿאַר דעם אַפּ איז געווען דער בעסטער פון די בינטל און דער קול דערקענונג איז טאַקע זייער גוט. נאָך רעקאָרדינג די דיקטיישאַן איך איז געווען ביכולת צו טיילן די רעזולטאַטן אין פארשיידענע וועגן אַרייַנגערעכנט דורך בליצפּאָסט.

באַגריסן צו לינוקס וועגן.com הייַנט מיר זענען גערעדט וועגן קאַנווערטינג רייד צו טעקסט

ווי איר קענען זען די טעקסט אויבן איז וועגן ווי קלאָר ווי איר קענען עפשער דערוואַרטן צו באַקומען. רעדן סלאָולי איז דער שליסל.

Summary

געבוירן לינוקס האט עטלעכע וועג צו גיין מיט גרוס צו קול דערקענונג און ספּאַסיפיקלי דיקטיישאַן. עס זענען עטלעכע אַפּלאַקיישאַנז אַז נוצן די Google Voice API אָבער זיי זענען נישט ליסטעד אין ריפּאַזאַטאָריז.

קראָוםאָס אַפּלאַקיישאַנז זענען אַ קליין ביסל בעסער אָבער ביי ווייַט די בעסטער רעזולטאַטן זענען אַטשיווד ניצן מיין אַנדרויד טעלעפאָנירן. אפֿשר דער טעלעפאָן האט אַ בעסער מיקראָפאָן און דעריבער דער קול דערקענונג ווייכווארג שטייט אַ בעסער געלעגנהייַט פון קאַנווערזשאַן.

פֿאַר קול דערקענונג צו ווערן טאַקע וסאַבלע עס דארף צו זיין מער ינטואַטיוו מיט ווייניקער סעטאַפּ פארלאנגט. איר זאָל ניט דאַרפֿן צו מאַך אַרום מיט שפּראַך מאָדעלס און דיקשאַנעריז צו מאַכן עס ינטעלאַדזשאַבאַל.

איך בין דערשינען אָבער, אז די גאנצע קונסט פון קול דערקענונג איז זייער טשאַלאַנדזשינג, ווייַל יעדער האט אַ אַנדערש קול און עס זענען אַזוי פילע דייאַלעקץ פון געגנט צו געגנט אין איין לאַנד קיינמאָל זאָרג וועגן די הונדערטער פון שפּראַכן געניצט איבער די וועלט.

מייַן אַנאַליסיס, דעריבער, איז אַז קול דערקענונג ווייכווארג איז נאָך אַרבעט אין פּראָגרעס.