Skip to content

Latest commit

 

History

History
130 lines (103 loc) · 9.29 KB

File metadata and controls

130 lines (103 loc) · 9.29 KB

ARK — المهام والمشكلات المعروفة

المُنجز حديثاً (v0.2)

[x] عزل بيئة conda لكل مشروع

  • كل مشروع يحصل على بيئة conda خاصة في .env/، مُستنسخة من بيئة أساسية
  • HOME معزول، PYTHONNOUSERSITE=1، PYTHONPATH معزول
  • كل من CLI (ark run) وبوابة الويب يكتشفان ويستخدمان بيئة المشروع تلقائياً
  • تمهيد خط الأنابيب (مرحلة Research الخطوة ٢) يوفّرها تلقائياً عند الحاجة

[x] خط أنابيب Research من ٤ خطوات

  • Deep Research → المُهيّئ → المخطط → المُجرِّب
  • وكيل المُهيّئ يُمهّد البيئة والمهارات والاستشهادات

[x] نظام المهارات مع ٥ مهارات مدمجة

  • research-integrity، human-intervention، env-isolation، figure-integrity، page-adjustment
  • تُثبّت تلقائياً أثناء تمهيد خط الأنابيب

[x] فرض مضاد للمحاكاة / مضاد للاختصارات

  • الموجّهات تمنع الوكلاء من اختلاق نتائج التجارب
  • مُعزّز عبر وكلاء المُجرِّب والمخطط والكاتب

[x] بروتوكول التدخل البشري

  • الوكلاء يصعّدون القرارات للمستخدم عبر Telegram قبل الإجراءات غير القابلة للعكس

[x] قاعدة البيانات كمصدر وحيد للحقيقة

  • SQLite يخزّن إعدادات المشروع والحالة والدرجات والتكاليف
  • CLI و webapp موحّدان على نفس قاعدة البيانات
  • YAML مخصص للحالة التشغيلية للوكلاء فقط

[x] إشعارات Telegram غنية + SSL لـ HPC

  • رسائل منسقة مع تغيرات التقييم وانتقالات المراحل ونشاط الوكلاء
  • دعم شهادات SSL الموقّعة ذاتياً لشبكات المؤسسات/HPC

[x] شارات مراحل بوابة الويب + تتبع التكلفة

  • شارات Research / Dev / Review مباشرة
  • عرض حالة بيئة conda لكل مشروع
  • لوحة تتبع الرموز والتكلفة في الوقت الحقيقي

التكامل والنظام البيئي

[ ] دمج claude-scientific-skills

  • المستودع: https://github.com/K-Dense-AI/claude-scientific-skills
  • +١٧٠ مهارة في مجالات متنوعة (المعلوماتية الحيوية، الكيمياء، الجغرافيا المكانية، المالية، الكم، إلخ.)
  • تكامل بدون كود: انسخ المهارات إلى ~/.claude/skills/، وكلاء ARK يكتشفونها تلقائياً
  • الاستراتيجية: لا تثبّت كل ١٧٠+، اختر حزماً لكل مجال لتجنب تضخم الرموز
  • أضف قسم توصية مهارات المجال إلى وثائق ARK
  • اختبار: تحقق من تحميل المهارات بشكل صحيح عند تشغيل الوكيل عبر claude -p مع --no-session-persistence

[ ] خلفية Codex — تكافؤ كامل للميزات

  • الاستدعاء الأساسي يعمل (codex exec)، لكن لم يُختبر من طرف إلى طرف على مشاريع حقيقية
  • مفقود: حقن سياق البحث العميق (Codex ليس لديه معادل لـ Gemini Deep Research)
  • مفقود: التحقق من تكامل خلفية الحوسبة (Slurm، السحابة)
  • يحتاج اختبار نموذج الأذونات (--dangerously-bypass-approvals-and-sandbox وتداعياته)

[ ] خلفية Gemini — تكافؤ كامل للميزات

  • تكامل Deep Research يعمل، لكن توفر أدوات الوكيل يختلف عن Claude
  • WebSearch/WebFetch قد يتصرفان بشكل مختلف في Gemini CLI
  • يحتاج التحقق: هل يحترم Gemini CLI مجلد ~/.claude/skills/؟ (على الأرجح لا — المهارات خاصة بـ Claude Code)
  • قد يحتاج آلية حقن مهارات أصلية لـ Gemini

السحابة والحوسبة

[ ] AWS حوسبة سحابية — تحقق من طرف إلى طرف

  • كود خلفية الحوسبة موجود (توفير EC2، rsync، تنفيذ SSH) لكن لم يُتحقق منه على AWS حقيقي
  • يحتاج اختبار: توفير المثيلات، إعداد مجموعة الأمان، أنواع مثيلات GPU، عند الطلب مقابل المزايدة
  • يحتاج اختبار: دقة تتبع التكلفة لساعات الحوسبة السحابية
  • يحتاج اختبار: التنظيف/الإنهاء بعد اكتمال التجربة

[ ] GCP / Azure حوسبة سحابية — تحقق

  • مثل AWS — الكود موجود، غير مُختبر في الإنتاج
  • GCP: التحقق من تكامل gcloud CLI، التعامل مع حصص GPU
  • Azure: التحقق من تكامل az CLI، توفير VM

[ ] دعم أجهزة الحافة والبيئات المخصصة

  • الافتراض الحالي: الوكلاء يعملون على جهاز مع إنترنت كامل، pip/conda، ووصول GPU
  • سيناريوهات الحافة: Jetson، Raspberry Pi، مختبرات محدودة الاتصال، HPC معزول
  • يحتاج: كشف قدرات البيئة (ما المتوفر؟ GPU؟ إنترنت؟ مدير حزم؟)
  • يحتاج: تدهور سلس عند عدم توفر الأدوات/الحزم
  • يحتاج: مواصفات بيئة conda مُعدّة مسبقاً أو صور Docker لإمكانية الاستنساخ
  • اعتبار: وضع غير متصل حيث يُنزّل الباحث الحزم والبيانات مسبقاً

جودة الورقة

[ ] تخطيط الأشكال البصري — مشكلات معروفة

  • الأشكال أحياناً تتجاوز عرض العمود أو تُقصّ تسمياتها
  • أحجام الخطوط في الأشكال قد لا تتطابق مع نص قالب المؤتمر
  • محاذاة الأشكال متعددة اللوحات قد تكون منحرفة (تباعد الرسوم الفرعية)
  • وكيل المُصوّر يشخّص المشكلات لكن الإصلاحات أحياناً سطحية (مثل تعديل figsize فقط دون إصلاح التخطيط الأساسي)
  • يحتاج: فحوصات بصرية أكثر صرامة بعد التجميع — مقارنة منطقة PDF المُعالجة مع مواصفات القالب
  • اعتبار: كشف التداخل على مستوى البكسل لتصادمات النص/الأشكال

[x] أصالة الاستشهادات ومكافحة الهلوسة

  • تم تنفيذ نظام استشهادات بأولوية API (ark/citation.py)
  • LLM لا يكتب BibTeX أبداً — كل المدخلات تُجلب من واجهات DBLP / CrossRef الرسمية
  • سلسلة البحث: DBLP → CrossRef → arXiv → Semantic Scholar
  • وكيل الباحث يختار الأوراق من قائمة مرشحين مُتحقق منها عبر API فقط
  • تحقق لكل تكرار: كل دورة مراجعة تُعيد التحقق من references.bib
  • تأكيد متبادل من مصدرين (DBLP + CrossRef)
  • ترقية تلقائية من النسخة الأولية إلى النسخة المنشورة
  • تنظيف الاستشهادات غير المُستخدمة (إزالة المدخلات غير المُستشهد بها من .bib)
  • أدوات CLI: ark cite-check، ark cite-search، ark cite-debug

[ ] تنسيق الجداول

  • الجداول قد تتجاوز عرض العمود/الصفحة في المؤتمرات ذات العمودين
  • اختيار tabular مقابل tabular* مقابل tabulary ليس دائماً صحيحاً
  • يحتاج: التحقق من عرض الجدول في مرحلة المُصوّر

متانة الوكلاء

[ ] تحسينات كشف الركود

  • المُصحّح الفوقي يلتقط بعض أنماط الركود لكن يفوته البعض الآخر
  • فجوة معروفة: وكيل يُنتج مخرجات لكن لا يحرز تقدماً ذا معنى (مُسهب لكن فارغ)
  • يحتاج: فرق دلالي للورقة بين التكرارات — إذا كان التغيير تافهاً، يُصعَّد

[ ] دعم الأوراق متعددة اللغات

  • يفترض حالياً أوراقاً باللغة الإنجليزية
  • بعض المؤتمرات تقبل لغات أخرى (مثل مؤتمرات CS الصينية)
  • أولوية منخفضة لكن جدير بالذكر

تجربة المطور

[ ] فجوات تغطية الاختبارات

  • ١١٥ اختباراً موجوداً لكن معظمها على مستوى الوحدة
  • لا يوجد اختبار تكامل يُشغّل خط أنابيب مصغّر من طرف إلى طرف
  • يحتاج: مشروع اصطناعي صغير يُشغّل تخطيط → تجربة → كتابة → مراجعة في < ٥ دقائق

[ ] التحقق من الإعدادات

  • أخطاء config.yaml (أخطاء إملائية، حقول مفقودة) أحياناً تسبب إخفاقات غامضة عميقاً في خط الأنابيب
  • يحتاج: التحقق المسبق من المخطط مع رسائل خطأ واضحة عند البدء