جوجل وأبل، ومايكروسوفت، وحتى الأمازون بنشاط تطوير الخدمات صوتهم. الطازج على دائرة الرقابة الداخلية 7 هو نفس سيري، فقط وظائف جديدة و... صوت. هل كنت أتساءل كيف يكون هذا العملية؟ كما يتم تدريس الحاسوب الكلام؟ هذا الفن الحقيقي.
لكل من اصوات سيري - الممثل الخاص بك. وبمجرد الانتهاء من ذلك دورها في صياغة، بدأت العمل للتو... صوت الرجل يواصل رحلته. قصة هذه الرحلة، سواء للإنسان وإنسان - واحدة من أكثر العمليات التكنولوجية المعقدة، والتي لا يمكن تنفيذها قبل عشر سنوات.
واسمحوا تعرف على مدير تصميم وتطوير صوت فارق بسيط، هو واحدة من أكبر الشركات المستقلة في العالم التعامل مع التعرف على الكلام والنص إلى خطاب. برانت وارد (J. برانت وارد) تستخدم ليكون ملحن، يؤلف الحزب لرباعيات سلسلة لتخليق، والآن هو يؤلف ذلك باستخدام الأصوات الاصطناعية. وهو يعمل في صناعة الخطاب التوليف في وادي السليكون لأكثر من عقد من الزمان.
النص إلى كلام - صناعة تنافسية للغاية، وموظفيها هو سري للغاية. على الرغم من أن العالم، ويعتقد أن فارق بسيط يخلق صوت سيري ل، وارد وزميله ديفيد فاسكيز (ديفيد فاسكويز) تجنب الإجابة المباشرة. ومع ذلك، فإنها وافقت على شرح، على الأقل بشكل عام، وكيف أن عملية إنشاء الأصوات آلة مدهشة.
وغني عن القول، لا حاجة لتوضيح وكتابة كل كلمة من القاموس. ولكن عندما يتعلق الأمر إلى التطبيق، التي ينبغي أن تقرأ أي صحفي في الرسائل الإخبارية الخاصة بك، أو العثور على شيء بالنسبة لك على شبكة الإنترنت، وتلتزم ببساطة أن يتكلم كل كلمة في القاموس.
ويتم اختيار معظم المقترحات على "علم الأصوات الثروة" - وهذا هو، أنها تحتوي على العديد من مجموعات مختلفة من الفونيمات. "والحقيقة هي، والمزيد من البيانات التي لدينا، وأكثر واقعية تكون النتيجة"، - يقول وارد.
بعد أن يتم تسجيل النص صوت الممثل الحية (وهي عملية شاقة قد تستغرق عدة أشهر)، ويبدأ العمل الشاق للغاية. ويتم تحليل الكلمات والجمل، مقسمة حسب الفئات والمسجلة في قاعدة بيانات كبيرة. في هذا العمل المعقد يشارك فريق من اللغويين مخصص، وكذلك استخدام البرمجيات اللغوية الخاصة بها.
وعندما يتم كل هذا، وحدة فارق بسيط لترجمة النص إلى خطاب يخلق الكلمات قليلا والعبارات التي قد الفاعل لم أكن قالها فعلا، ولكن يبدو مشابهة جدا لخطاب الفاعل، لأنه من الناحية الفنية هو صوت الممثل.
تحدث عملية فاقد الوعي. ونحن نفعل ذلك من دون التفكير في كيفية حدوث هذه العملية: الوضع الذي هو لغتنا، التي تبنى العلاقات بين الفونيمات، وهلم جرا - بسهولة وفعالية التعبير عن الأفكار المعقدة و العواطف. ولكن من أجل أن الكمبيوتر التقطت صوت من الأصوات البشرية، ويجب أن تؤخذ جميع هذه العوامل بعين الاعتبار. استاذ واحد من اللسانيات، هو مهمة "تايتانيك".
يجب أن لا يفكر: "أنا أتحدث إلى جهاز كمبيوتر." كنت عادة لا تحتاج إلى التفكير في الامر.
"أطفالي التفاعل مع سيري، كما لو كانت الكائنات الحية... انهم لا يشعرون الفرق" - يقول وارد.
وحتى الآن، والصداقة بين البشر والروبوتات - مثل البشر. كثير من الناس يحبون ذلك إذا سيري يمكن التعرف على الحالة العاطفية للمتكلم، ويتفاعل بطريقة ما (على سبيل المثال، تشمل وضع صوت تلطف). تخيل - التحدث إلى الروبوت، الذي بات أخلاقيا لك على رأسه. ربما، فارق بسيط يفكر بالفعل حول هذا الموضوع ...