يطرح هذا المقترح فكرتين لمشروع التخرج، يهدفان إلى الخروج عن المألوف في استخدام التقنيات الجاهزة، والتركيز على الابتكار الهندسي العميق لمعالجة قصور الأنظمة الحالية.
يتحدى هيمنة الذكاء الاصطناعي الثقيل في معالجة الصوت، ويقترح بناء نظام "فلترة لحظية" يعتمد على الرياضيات البحتة والفيزياء لضمان أداء فائق الخفة (Bare-metal) بدون تأخير زمني.
يتحدى سطحية روبوتات الدردشة الحالية (Stateless)، ويقترح معمارية لـ "وكلاء أذكياء" يمتلكون محركات مشاعر برمجية، ذاكرة مستمرة، وقدرة على المبادرة التلقائية لخلق وهم حقيقي بالحياة.
التقنيات الحالية لتغيير الأصوات واستنساخها تعتمد بشكل شبه كلي على نماذج التعلم العميق (Deep Learning). رغم دقتها، إلا أنها تعاني من عيوب هندسية قاتلة للاستخدام المباشر:
مشمول: معالجة الصوت الحي، الفلاتر التحليلية، واجهة بسيطة لتعديل أبعاد المجرى الافتراضي.
غير مشمول: الاستنساخ الإحصائي بدقة 100% (Voice Cloning) من تسجيل، الهدف هو الفلترة اللحظية.
بناء نظام رياضي يحاكي فيزيائياً الأنابيب والتجاويف الصوتية (Digital Waveguides). تمرير الإشارة عبر هذا "المجرى الصوتي الرقمي" بعد تغيير أبعاده.
استخدام دوال معقدة مثل "سلاسل فولتيرا" (Volterra Series) لتمثيل دالة التحويل بين صوتين كنظام غير خطي، واشتقاق المعاملات برمجياً.
استخدام (Cepstral Analysis) لفصل الإشارة لـ "مصدر الاهتزاز" و "رنين الفم"، تعديلهما مستقلين، ثم دمجهما بخوارزميات تحفظ الطور.
مكتبات PortAudio أو RtAudio (C/C++) للـ I/O. Python (SciPy) للنماذج المبدئية فقط.
أنوية المعالجة غير الخطية (Non-linear DSP Kernels) لعدم وجود مكتبات خفيفة لتغيير المجرى الصوتي لحظياً.
تجنب مكتبات مثل GNURadio الثقيلة، وبناء الفلاتر بلغة C/C++ باستخدام (SIMD/AVX) لأداء أقصى.
تخفيف: التركيز على استرجاع الطور (Phase) وتجنب FFT المباشر.
تخفيف: البدء بنموذج Source-Filter قبل تعقيد Waveguides.
تخفيف: إدارة يدوية صارمة للذاكرة بلغة C (بدون Garbage Collector).
النواة: Llama-3/Mistral (عبر Groq). الذاكرة: ChromaDB (طويلة)، Redis (قصيرة). الواجهات: whatsapp-web.js.
محرك المشاعر (Decay Functions)، مدير المبادرة (Heartbeat)، وفلتر الأنسنة (Humanization).
تجنب إطارات عمل الوكلاء "المنتفخة" (مثل LangChain) وبناء خلاط السياق (Prompt Builder) ومعمارية الوكيل من الصفر بـ Python.
تخفيف: برمجة "فترات نوم"، تجنب APIs الرسمية الصارمة، واستخدام محاكاة المتصفح.
تخفيف: نماذج مفتوحة المصدر، APIs رخيصة، تقليل نافذة السياق بالاعتماد على الـ Vector DB.
تخفيف: حقن ذكريات دقيقة جداً (RAG) لضبط الردود.
كل روبوتات المحادثة الحالية (LLMs) صُممت كأنظمة "عديمة الحالة" (Stateless). هي أدوات نفعية تنتظر أوامر المستخدم للرد. هذه النماذج تفتقر إلى:
هذا يجعل التفاعل آلياً تماماً ويكسر تجربة محاكاة التفاعل البشري الطبيعي.
مشمول: محرك مشاعر، خوارزمية بحث ذكريات، حلقة أحداث خلفية، فلتر أنسنة، ربط بمنصات المراسلة.
غير مشمول: تدريب نموذج LLM من الصفر، واجهات رسومية معقدة (التركيز على الـ Backend).
تقسيم النظام لعدة خدمات تعمل بشكل متزامن كالتالي:
سكريبت (CRON Job) يقرأ حالة النظام كل 10 دقائق لتحديد المبادرة بحدث.
معادلات رياضية (Decay Functions) ترفع/تخفض قيم المشاعر بناءً على الوقت والمحفزات.
وحدة تجمع (التاريخ + الطقس + المشاعر + الذكريات) لبناء System Prompt سري يوجّه النموذج.
خطة تنفيذ مشتركة تصلح لأي من المشروعين على مدار فصلين دراسيين.
مراجعة الأوراق العلمية (DSP أو LLM Architectures)، تحديد الأدوات وتجهيز بيئات العمل.
م1: بناء نموذج رياضي مبدئي بـ Python.
م2: بناء محرك المشاعر المصغر وربطه بـ LLM بسيط.
م1: كتابة الفلاتر بلغة C++ وإدارة الذاكرة.
م2: دمج قاعدة البيانات (Vector DB) وتطوير حلقة المبادرة.
ربط الواجهات، اختبار أداء النظام (Stress Testing)، والتأكد من زمن الاستجابة والتعامل مع الأخطاء.
كتابة التقرير، تصوير فيديو توضيحي (Demo)، والتحضير لمناقشة المشروع.