תמלול קבצי אודיו קול ווידאו בידי מנועי החיפוש לעומת אנשים

המלץ אודות עמוד לינק תגובות הדפס מאמרשתף קישור זה הזמן בפייסבוקשתף מאמר זה בטוויטרשתף מאמר זה הזמן ב-Linkedinשתף מאמר הגיע ב-Deliciousשתף קישור הגיע ב- Diggשתף עמוד הגיע ב-Redditשתף עמוד זה הזמן ב-Pinterest


במשך שבוע הראשון בקרב מאי, 2010 גוגל הכריזה המתארת את שחרור ענק בקרב יישום תמלול קבצי אודיו הווידאו שלה ביוטיוב. למרות שפורסמה בראש 2009, גרסת הבטא בקרב תמלול קבצי אודיו סרטוני YouTube הינה נוכחת למס’ מוסד לימודים נבחרות, שדרני חדשות וסוכנויות ממשלתיות.


ההיסטוריה על ידי טכנולוגיית זיהוי הדיבור מתבצעת מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו מכשיר פרימיטיבי שמסוגל לגלות דיבור. החוקרים ידעו כיצד שהשימוש הנרחב בזיהוי דיבור ישמש עלול ביכולת לקלוט אם וכאשר נאמן ועקבי קלט מילולי פגיע ומורכב. אבל מכיוון שטכנולוגיית המחשוב אינן נודעה דיו בעלת רמה, הפיתוח על ידי זיהוי שיחה התבצע בקצב חילזון.

50 שנה להבא, הפוטנציאל של מכונות אלקטרונים דיגיטליים רב גוניים עלו באופן כללי המתארת את הטכנולוגיות הכדאיות והיקרות עד מאוד בקרב שנות ה-30. הגיע התאפשר בשל פריצות הדרכים שנעשו בייצור שבבים ומוליכים למחצה. המחסומים העצומים עד מאוד למהירות ולדיוק על ידי זיהוי שיחה – מהירות המחשב והכוח – כבר לא שימשו בעיה.

עם עוצמה מחשוב גדול שנתיים (נמדד ביחידות בקרב FLOPS) ממה שמדעני המחשב בקרב שנות ה-30 שלך יכלו לתכנן, מתכנתים יש להם זכאות עתה להעצים אלגוריתמים לקוד ולפענוח בידי מספר גבוה על ידי דפוסי קול. מעשית הנם יכלו היום לבחור מסד אלמנטים של אלפים רבים של דפוסי קול ייחודיים, להמיר ש לגלי סינוס דיגיטליים ולנתח תווים הכול על סמך המתמטיקה על ידי אותות דפוסי קול. במשך כמה זמן מוגדרת, כאשר מיכשורים הדיבור לכתב הפכו לשימושיות; חברות רבות החלו לספק זיהוי קולי למעוניינים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיה נוספות.


יאללה עתה נשאלת השאלה – עד הרגע מספר הטכנולוגיות הנוספים מקצועיות, באופן יחסי התמלול יוטיוב אצל גוגל וכמו כן אם אלו יתחרו אחת אחרת יעלו המתארת את דיוק תמלול האנושי?

מיהו האוהב לראות בסרטוני יוטיוב במחיר כיתובים מופעלים, אולי תהיה שהדיוק של הכתוביות גדל בכמות קיפולים בזמן החודשים האחרונים. הדיוק מתעורר מעת ליום והוא רק מתגלגל להשתפר ככל שיותר אנשים משתמשים בצבא. כפי שאריק שמידט, מנכ”ל אינטרנט בע”מ אומר -‘ התמלילים של החברה שלכם ב-YouTube בקרב Google ישתפרו לתקופה של זמן מסויים, ככל שיותר ויותר משתמשים יעשו שימוש אותם, שכן זאת פיתוח אצל למידה עצמית”

אמנם הנו יש מספר פגמים חשובים שכדאי שיש מתחילה אפילו זאת שיטה של הדרכת עצמית –

1. כיתוב נאמן אפשרי רק במקרה שבו הדובר מדבר מהיבט של עד מאוד ברור וברורה.

2. תמלול הקלטות מוכרחה לשאת חלופית מכל נדמה לנו שהוא הפרעה

3. https://bbs.pku.edu.cn/v2/jump-to.php?url=https://omyguide.co.il/article11/ מתגנבות מחמת סמלים שנשמעות דומות למשל – שמיים וגבוהים – שעינינו בפרק זמן קצר, המערכת הן לא יתכן ותהיה להבחין בין השניים.

4. קריאות ביניים – לעתים קרובות אנשים עוצרים אם משמיעים צלילי חזות במהלך נאומים – כדוגמת אלו מכילים בתוכם אה, המממ, אהה ועוד. תוכנת הזיהוי ישמח לעשות פעילות לתמלל וגם אחר אלו, ולעתים מספיקה השפעות מצחיקות. (חפש ביוטיוב בעבור תמלול קולי גורם חיוך בידי גוגל)

ולבסוף עובר להתגורר החיסרון העיקרי המשמעותי יותר מכולם

5. שביעות עיניין פסיכולוגית – כעבור שהכתוביות בוצעו בידי הרובוטים אצל מנועי החיפוש, במקרה ש מאמיר הסרטון יכול להיות בטוח יותר במידת הדיוק? ברורה בעצם אשר כדאי לאמת את אותם תמלול הקלטות . זה אומר לחדש המתאימים לכל הסרטון פעמים, לשפץ את אותם המילים במידה ידני, לתקן את אותו החלק הדקדוק כולל פסיקים, מקפים, מרכאות וכיוצא בזה ולהעלות אותם. תהליך שלוקח זמן ניכר.

לאחר מכן מה הפתרון המוצלח לתמלול קבצים אחרת טכנולוגיית זיהוי קול לטקסט?

המענה הנו קטנה, ההליכים בה קבצים דיגיטליים ואנלוגיים תומללו ב-50 הזמן האחרון – קליינטים.

ארבעת הכול על בעלי חברת תמלול קבצי אודיו ותמלול מסה ב-Etranscriber Transcriptions.