تحدي المألوف والعودة إلى
المبادئ الهندسية الأولى

يطرح هذا المقترح فكرتين لمشروع التخرج، يهدفان إلى الخروج عن المألوف في استخدام التقنيات الجاهزة، والتركيز على الابتكار الهندسي العميق لمعالجة قصور الأنظمة الحالية.

معالجة الصوت (DSP)

يتحدى هيمنة الذكاء الاصطناعي الثقيل في معالجة الصوت، ويقترح بناء نظام "فلترة لحظية" يعتمد على الرياضيات البحتة والفيزياء لضمان أداء فائق الخفة (Bare-metal) بدون تأخير زمني.

التفاصيل الهندسية

الوكلاء المستقلون (Agents)

يتحدى سطحية روبوتات الدردشة الحالية (Stateless)، ويقترح معمارية لـ "وكلاء أذكياء" يمتلكون محركات مشاعر برمجية، ذاكرة مستمرة، وقدرة على المبادرة التلقائية لخلق وهم حقيقي بالحياة.

التفاصيل الهندسية

المشروع الأول: نظام فلترة الصوت اللحظي (Bare-metal DSP)

مقدمة ووصف المشكلة

التقنيات الحالية لتغيير الأصوات واستنساخها تعتمد بشكل شبه كلي على نماذج التعلم العميق (Deep Learning). رغم دقتها، إلا أنها تعاني من عيوب هندسية قاتلة للاستخدام المباشر:

  • الاستهلاك المفرط للموارد: تتطلب بطاقات رسومية (GPUs) وذاكرة عالية.
  • التأخير الزمني (Latency): المعالجة عبر الشبكات العصبية تخلق تأخيراً يمنع استخدامها بسلاسة في المكالمات الحية.
  • قصور الفلاتر الكلاسيكية: الفلاتر الخطية البسيطة (مثل تغيير الطبقة) تفشل في نمذجة "الصيغ" (Formants) الناتجة عن أشكال المجرى الصوتي، مما ينتج صوتاً "معدنياً".

أهداف ونطاق المشروع

الأهداف:

  • نظام يعمل في الزمن الفعلي (Real-time).
  • الاستغناء عن الذكاء الاصطناعي الثقيل.
  • بناء أداة (Bare-metal) للأجهزة الضعيفة.
  • الحفاظ على دقة "الطور" (Phase).

النطاق (Scope):

مشمول: معالجة الصوت الحي، الفلاتر التحليلية، واجهة بسيطة لتعديل أبعاد المجرى الافتراضي.

غير مشمول: الاستنساخ الإحصائي بدقة 100% (Voice Cloning) من تسجيل، الهدف هو الفلترة اللحظية.

المنهجية ومسارات التنفيذ (DSP Engineering)

1. النمذجة الفيزيائية (Physical Articulatory Modeling)

بناء نظام رياضي يحاكي فيزيائياً الأنابيب والتجاويف الصوتية (Digital Waveguides). تمرير الإشارة عبر هذا "المجرى الصوتي الرقمي" بعد تغيير أبعاده.

2. الفلاتر غير الخطية (Analytical Non-Linear Filters)

استخدام دوال معقدة مثل "سلاسل فولتيرا" (Volterra Series) لتمثيل دالة التحويل بين صوتين كنظام غير خطي، واشتقاق المعاملات برمجياً.

3. نموذج المصدر-الفلتر (Advanced Source-Filter Model)

استخدام (Cepstral Analysis) لفصل الإشارة لـ "مصدر الاهتزاز" و "رنين الفم"، تعديلهما مستقلين، ثم دمجهما بخوارزميات تحفظ الطور.

التقنيات والأدوات

متاحة وجاهزة:

مكتبات PortAudio أو RtAudio (C/C++) للـ I/O. Python (SciPy) للنماذج المبدئية فقط.

يجب ابتكارها من الصفر:

أنوية المعالجة غير الخطية (Non-linear DSP Kernels) لعدم وجود مكتبات خفيفة لتغيير المجرى الصوتي لحظياً.

يفضل تخصيصها (Custom):

تجنب مكتبات مثل GNURadio الثقيلة، وبناء الفلاتر بلغة C/C++ باستخدام (SIMD/AVX) لأداء أقصى.

إدارة المخاطر

الصوت المعدني (Robotic)

تخفيف: التركيز على استرجاع الطور (Phase) وتجنب FFT المباشر.

تعقيد المعادلات

تخفيف: البدء بنموذج Source-Filter قبل تعقيد Waveguides.

تأخير زمني (Latency)

تخفيف: إدارة يدوية صارمة للذاكرة بلغة C (بدون Garbage Collector).

المشروع الثاني: نظام الوكلاء المستقلين (Stateful Agents)

التقنيات والأدوات

متاحة وجاهزة:

النواة: Llama-3/Mistral (عبر Groq). الذاكرة: ChromaDB (طويلة)، Redis (قصيرة). الواجهات: whatsapp-web.js.

يجب ابتكارها من الصفر:

محرك المشاعر (Decay Functions)، مدير المبادرة (Heartbeat)، وفلتر الأنسنة (Humanization).

يفضل تخصيصها (Custom):

تجنب إطارات عمل الوكلاء "المنتفخة" (مثل LangChain) وبناء خلاط السياق (Prompt Builder) ومعمارية الوكيل من الصفر بـ Python.

إدارة المخاطر

حظر المنصات (Ban Risk)

تخفيف: برمجة "فترات نوم"، تجنب APIs الرسمية الصارمة، واستخدام محاكاة المتصفح.

تكلفة الـ Tokens

تخفيف: نماذج مفتوحة المصدر، APIs رخيصة، تقليل نافذة السياق بالاعتماد على الـ Vector DB.

هذيان النموذج (Hallucination)

تخفيف: حقن ذكريات دقيقة جداً (RAG) لضبط الردود.

مقدمة ووصف المشكلة

كل روبوتات المحادثة الحالية (LLMs) صُممت كأنظمة "عديمة الحالة" (Stateless). هي أدوات نفعية تنتظر أوامر المستخدم للرد. هذه النماذج تفتقر إلى:

  • الذاكرة المستمرة: لا تستطيع استدعاء مواضيع قديمة من تلقاء نفسها.
  • الديناميكية العاطفية: لا تملك محفزات داخلية (مثل الملل، الغضب).
  • المبادرة (Proactivity): لا تبدأ محادثة بناءً على حالة العالم الخارجي أو حالتها.

هذا يجعل التفاعل آلياً تماماً ويكسر تجربة محاكاة التفاعل البشري الطبيعي.

أهداف ونطاق المشروع

الأهداف:

  • بناء (Agentic OS) يحول الـ LLM الجامد لكائن.
  • بناء "محرك مشاعر" رياضي يتحكم بالتصرفات.
  • دمج ذاكرة طويلة الأمد (Vector DB) خفية.
  • برمجة "مدير مبادرة" للتفاعل التلقائي (واتساب/X).

النطاق (Scope):

مشمول: محرك مشاعر، خوارزمية بحث ذكريات، حلقة أحداث خلفية، فلتر أنسنة، ربط بمنصات المراسلة.

غير مشمول: تدريب نموذج LLM من الصفر، واجهات رسومية معقدة (التركيز على الـ Backend).

المنهجية (Event-Driven Microservices)

تقسيم النظام لعدة خدمات تعمل بشكل متزامن كالتالي:

1. النبض الخلفي (Proactivity Daemon)

سكريبت (CRON Job) يقرأ حالة النظام كل 10 دقائق لتحديد المبادرة بحدث.

2. محرك المشاعر (Emotion Engine)

معادلات رياضية (Decay Functions) ترفع/تخفض قيم المشاعر بناءً على الوقت والمحفزات.

3. خلاط السياق (Dynamic Prompt Builder)

وحدة تجمع (التاريخ + الطقس + المشاعر + الذكريات) لبناء System Prompt سري يوجّه النموذج.

الجدول الزمني المبدئي (Agile Sprints)

خطة تنفيذ مشتركة تصلح لأي من المشروعين على مدار فصلين دراسيين.

أسابيع 1 - 3: البحث والمتطلبات

مراجعة الأوراق العلمية (DSP أو LLM Architectures)، تحديد الأدوات وتجهيز بيئات العمل.

أسابيع 4 - 7: تصميم الهيكلة وإثبات المفهوم (PoC)

م1: بناء نموذج رياضي مبدئي بـ Python.
م2: بناء محرك المشاعر المصغر وربطه بـ LLM بسيط.

أسابيع 8 - 12: التطوير الأساسي (Core Dev)

م1: كتابة الفلاتر بلغة C++ وإدارة الذاكرة.
م2: دمج قاعدة البيانات (Vector DB) وتطوير حلقة المبادرة.

أسابيع 13 - 15: الاختبار والتكامل

ربط الواجهات، اختبار أداء النظام (Stress Testing)، والتأكد من زمن الاستجابة والتعامل مع الأخطاء.

الأسبوع 16: التوثيق والعرض النهائي

كتابة التقرير، تصوير فيديو توضيحي (Demo)، والتحضير لمناقشة المشروع.

المخرجات المتوقعة (Deliverables)

كود مصدري موثق ورقة بحثية / تقرير هندسي نموذج أولي قابل للعمل (MVP)