تحويل النص إلى كلام بين الواقع والمخاطر والتحديات

تحويل النص إلى كلام بين الواقع والمخاطر والتحديات - د. أحمد راغب أحمد (*) 
 
تتمتع اللغة العربية بقدرات صوتية هائلة تفوق ما تحمله اللغات الأخرى، مما يتطلب وضع أنظمة برمجية قادرة على استيعاب النص العربي وإمكانية تحويله إلى صوت منطوق, والنظام الصوت في أية لغة يحتفظ عادة بلائحة بالشكل الصوتي للفونيمات والألوفونات التي تستخدمها الجماعة اللغوية، أي قائمة لمواضع مخارج الحروف وصفاتها، تعتمد عليها التقنية وتتم مقارنة الترددات الصوتية الصادرة عن المستعمل لهذه الترددات وتلك القائمة التي ترتكز على نموذج عام للكلام كان من الضروري تدريب النظام على صوت مستعمله وطريقة كلامه.

ولكون اللغة العربية تتمتع بهذه القدرات الصوتية الهائلة فلا بد من استخدام الوسيط الرياضي كي نستطيع دراسة العلاقات بين منظومة اللسانيات العربية والنظام المعلوماتي؛ فوجود هذا الوسيط الرياضي لعناصر لغتنا البشرية الذي يسمى بالنمذجة الرياضية يساعد على حل مشاكلها التقنية، وإخضاع اللغة للعمليات الرياضية ليست جديدة على لغتنا العربية وإنما هي قديمة قدم معرفة علمائنا بالرياضيات والعلاقات الرياضية.

تدور تقنية تحويل النص إلى كلام حول إمكانية توليد لفظ الكلمات من النصوص المكتوبة، وقد ساهمت عدة شركات حاسوبية في إعداد البنية الأساسية لهذا المشروع والذي ارتبط كثيرا بمقابله التطبيقي - أعني: التعرف على الصوت المنطوق Speech Recognition - وذلك على النحو التالي:

كانت شركة آي بي إم www.ibm.com أول من وفر إمكانية التعرف على الكلام باللغة العربية عندما أصدرت نظاما إملائيّا جاهزًا للعمل على نظام التشغيل المندثر OS/2، ثم أتبعت ذلك بإصدارتين لنظام التشغيل ويندوز، ومازالت منذ عام تطور عبر مركز أبحاثها في القاهرة تقنية التعرف على الكلام العربي، إضافة إلى أنها بدأت بتطوير تقنية تحويل النص إلى كلام، وتزمع الشركة طرح إصدارة جديدة منه ستسميها ViaVoice mulineum، وستتضمن أيضاً، محولا للنص العربي إلى كلام منطوق، وتبعتها شركة صخر www.sakhr.com، فنفذت وطورت تقنيات مماثلة مدعومة بنماذج مخبرية جاهزة، وطورت صخر في هذا المجال أيضاً تقنية النص العربي المنطوق TTS، التي تنبني في الأساس على تقنيات معالجة النصوص العربية وتشكيلها آليًّا، ثم تحويلها إلى كلام مقروء بصوت مخلَّق، وترتكز هذه التقنية على ثلاث وحدات: لغوية، وصوتية، وسمعية. تشكل الوحدة اللغوية أولا النص العربي، ثم تحول الكلمات إلى التوصيف الصوتي الخاص بكل كلمة، وتقوم الوحدة الصوتية على حساب المعايير الصوتية المطلوبة لنطق الأصوات وفق الوصف الصوتي الذي تقدمه الوحدة اللغوية، بينما تولد الوحدة السمعية الكلام وفق هذه المعايير المحددة، وتعمد الآلة القارئة على مقدمات هذه الآليات الفائتة، وكانت جهود شركة صخر قريبة ومواكبة لما قامت به الشركة الهندسية لتطوير نظم الحاسبات (RDI)، والتي اعتمدت على معالجات نصية تمثلت في (Arabic Morphological Analyzer, Arabic Part-of-Speech Tagger, Arabic Lexical Dictionaries, Arabic Lexical Semantic Analyzer)ثم نظام آلي لتوليد الصوت العربي قائم على الجمع بين النظم القاعدة اللغوية (Statistics Model) والنمذجة الإحصائية (Rule Based)، أما الشركات الأخرى التي تحاول جاهدة أن تلحق بركب سابقتها فتتمثل في L AND H Apptek وكولتك www.coltec.net، التي تقول إنها ستطرح في نهاية العام نظام تعرف على الكلام يرتكز على نموذج لغوي (Rule Based).

التحديات :

أما المشكلات التي واجهت تطوير مثل هذه التقنية فمنها ما هو عام متعلق بطبيعة الكلام الطبيعي، كعدم وجود علامات تحدد بدء وانتهاء الكلمة، وتغير صوت المتكلم حسب حالته النفسية والجسدية، بينما كانت المشكلات الخاصة باللغة العربية تتمثل في الحاجة إلى مونتاج وتحليل عدد كبير التنوعات الفونولوجية لأصوات اللغة، فلا يكتفى بوجود الصوت اللغوي في قاعدة البيانات الأساسية ولو آلاف المرات بل يشترط أن يأتي هذا الصوت وفق كل التنوعات اللغوية التوقعة، فتأتي الباء مثلا قبل وبعد الحركات جميعًا وقبل وبعد باقي الصوامت المتوقع تواجدها معها في السياق اللغوي العربي.

المخاطر :

أما مخاطر تلك التقنية فلا تخفي على أحد، وذلك لارتباطها الوثيق بتقنية التعرف على الصوت المنطوق، والذي ينصب الاهتمام عليه في الجانب الأغلب لأسباب أمنية ودواعي سياسية ليست على المستوى المحلي فحسب، بل إن الأمر يتعدى ذلك إلى جانب رحب تلعب فيه الأنظمة التخابرية الكبرى دورا في غاية الخطورة، إضافة إلى ما يحمله من اختراق للخصوصية الفردية، ومهما كانت لوائح القانون تسير في ركاب المستخدم حتى الآن إلا أن هناك من يستطيع استغلال ثغراتها من أجل تحقيق مآربه فضلا عن تلك الجهات والتكتلات التي تضرب بمثل هذه القوانين عرض الحائط، غير أننا مع كل تلك المخاطر لا يمكننا أن نسير بمنأى عن التطور التقني لما يمثله من خطورة ثقافية ولغوية لا تساعد كثيرًا في تبؤ لغتنا مكانتها الطبيعية بين اللغات العالمية.

 ------------------- 
(*) مدير الأبحاث بمركز الإنسان - الرياض
تم نشر هذه المقالة في مجلة الاتصالات والعالم الرقمي بتاريخ 27 شوال 1429هـ
http://www.al-jazirah.com/digimag/2008/26102008/writt10.htm

Nike Air Force 1 Shadow Pale Ivory Digital Pink CU3012-164 – Buy Best Price Adidas&Nike Sport Sneakers

التصنيف الفرعي: 
شارك: