תמלול קבצי אודיו קול ווידאו בקרב גוגל כל עוד קליינטים

תמלול קבצי אודיו קול ווידאו בקרב גוגל כל עוד קליינטים

המלץ בדבר לינק לינק תגובות הדפס מאמרשתף קישור זה בפייסבוקשתף לינק זה הזמן בטוויטרשתף לינק זה הזמן ב-Linkedinשתף לינק זה הזמן ב-שתף עמוד זה הזמן בשנת שתף מאמר זה הזמן ב-Redditשתף קישור זה ב-
בשבעה ימים ההתחלתי על ידי מאי, 2010 מנועי החיפוש הכריזה אודות שחרור עולמי בידי עשיית התמלול הווידאו שלה ביוטיוב. על אף שפורסמה באמצע  תמלול עלויות , גרסת הבטא בקרב התמלול סרטוני YouTube הינה זמינה למספר בית ספר נבחרות, שדרני חדישות וסוכנויות ממשלתיות.

ההיסטוריה אצל טכנולוגיית זיהוי הדיבור מתחילה מסוף שנות ה-30, אם וכאשר מעבדות AT&T Bell פיתחו מספר טלפון פרימיטיבי שיהיה יכול לאתר דיבור. החוקרים יוכלו שהשימוש הנרחב בזיהוי דיבור יהווה מותנה ביכולת לקלוט במידה נאמן ועקבי קלט מילולי שברירי נעשה. מקום מכיוון שטכנולוגיית המחשוב אינם הינה יספיק טובה, הפיתוח בידי זיהוי שיחה נסגר בזמן חילזון.

50 שנים מעתה והלאה, הפוטנציאל בקרב מכונות חשמליים דיגיטליים מקיפים עלו אפילו אודות הטכנולוגיות הטובות והיקרות מאד בידי שנות ה-30. הגיע התאפשר עקב חדירות הדרך שנערכו בייצור שבבים ומוליכים למחצה. המחסומים הרציניים מאוד למהירות ולדיוק בקרב זיהוי שיחה - מהירות המחשב והכוח - באופן מיידי לא היו מקרה.

עם כוח מחשוב מצויין 2 שנים (נמדד ביחידות של FLOPS) מהיכן שמדעני רשת האינטרנט בידי שנות ה-30 של העבודה יכלו להניח, מתכנתים יכולים עתה למרב אלגוריתמים לקוד ולפענוח של חמש גדול אצל דפוסי קול. מעשית הם יכלו כעת להרכיב מסד תוספים אצל אלפים רבים דפוסי קול מיוחדים, להמיר ש לגלי סינוס דיגיטליים ולנתח סימנים המתארת את סמך המתמטיקה של אותות דפוסי קול. לאורך כמה זמן מיוחדת, כשיקרה שיטות הדיבור לקובץ טקסט הפכו לשימושיות; בתי חרושת נוספות החלו למכור זיהוי קולי לקליינטים שלה - Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיצת גבס אחרות.

לאחר מכן מעכשיו נשאלת השאלה - עד כמה הטכנולוגיות האלה מיומנות, בהשוואה תמלול יוטיוב בידי מנועי החיפוש והאם העוזרות יתחרו פעם נוספת יעלו המתארת את דיוק התמלול האנושי?

מי שאוהב לעיין בסרטוני יוטיוב בעלויות כיתובים מופעלים, או שלא תהיה שהדיוק בקרב הכתוביות גדל במספר קיפולים תוך כדי הזמן החודשים האחרונים. הדיוק צץ מזמן עבור יום והוא רק מתעתד להשתפר ככל שיותר אנשים משתמשים בשירות. לפי שאריק שמידט, מנכ"ל גוגל בע"מ מציין שוב ושוב -' התמלילים שלנו ב-YouTube אצל Google ישתפרו במהלך זמן מסויים, ככל שיותר ויותר משתמשים ישתמשו בו, זוהי פיתוח אצל הוראת עצמית"



אולם אירועים עומד על מותקן כמה פגמים מהותיים שאפשר שישנם מבעוד ועד למרות מכיוון שזאת שיטה של לימודים עצמית -

1. כיתוב אמין ומקצועי הולם היגויני במקרה שבו הדובר מסביר מהסתכלות בצורה משמעותית ברור וברורה.



2. האזור וכרחה להביא נקייה מכול תהליך ניתוחי הפרעה

3. שגיאות מתגנבות מפאת מילים שנשמעות דומות דוגמת - שמיים וגבוהים - שמדובר באופן מהיר, המערכת לא מסוגלת להבחין מצד השניים.

4. קריאות ביניים - לפרקים קרובות כמו זה עוצרים או לחילופין משמיעים צלילי בהצצה בעת נאומים - אלו כוללים אה, המממ, אהה  וכיוצא בזה. תוכנת הזיהוי ישמח לבצע פעילות לתמלל והן אחר הנ"ל, ולעתים מספקת השפעה מצחיקות. (חפש ביוטיוב עבור תמלול קולי מעורר גיחוך בידי גוגל)

ולבסוף מגיע המינוס הגדול מכולם

5. שביעות חשק פסיכולוגית - אחרי שהכתוביות בוצעו בידי הרובוטים בקרב גוגל, במידה ש מייקר הסרטון אפשרי וודאי במידת הדיוק? ברור ברוב המקרים שחשוב לבדוק היטב אחר הכתוביות המתומללות למציאת שגיאות ולהגהה מקרים. זה ללא הפסקה לעבור על מירב הסרטון מספר פעמים, לתקן את המילים והיה אם ידני, לשפץ את אותם החלק הדקדוק בסיסי פסיקים, מקפים, מרכאות  וכיוצא בזה ולהעלות וש. תהליך שלוקח ימים.

אם כן מה הוא התשובה המתאים לתמלול קבצים שונה טכנולוגיית זיהוי קול לטקסט?

המענה היא בינונית, הדרך בתוכה קבצים דיגיטליים ואנלוגיים תומללו ב-50 השנים האחרונות - בני אדם.

ארבעת הכול על אגודת תמלול ותמלול מסה ב-Etranscriber Transcriptions.