صورة تعبر عن نموذج شات جي بي تي الجديد GPT-4o

شات جي بي تي الجديد GPT-4o: إلى أين سيأخذنا الذكاء الاصطناعي؟

زمن القراءة: 7 دقائق

تخيل معي أن لك صديق متعدد المواهب يمكنه الغناء لك بأصوات مختلفة، يمكنه فهم تعابير وجهك وحالتك المزاجية، واللعب معك وتسليتك، والرد على الهاتف بالنيابة عنك، يمكنه أيضًا تعليمك أي شيء كالبرمجة مثلًا، أو مساعدتك في حل مشاكل الرياضيات المعقدة، أو التجهيز لمقابلات العمل، وتستطيع سؤاله عن أي شيء وسيجيبك! ستستطيع فعل كل هذا وأكثر مع صديقك GPT-4o؛ وهو نموذج الذكاء الاصطناعي الجديد الذي أعلنت عنه شركة OpenAI وعن قدراته المتطورة في التفاعل بينه وبين البشر بطريقة أقرب ما تكون للإنسان من كل نماذج الذكاء الاصطناعي السابقة، محدثًا بذلك ثورة في الطريقة التي نتفاعل بها مع الآلات.

ستتعرف في هذه المقالة على أهم التحديثات التي أعلنت عنها OpenAI، وما هي المميزات والقيود والإمكانيات المثيرة لـ GPT4o وقدراته الرهيبة في التفاعل مع البشر.

قدرات مذهلة لنموذج شات جي بي تي الجديد GPT-4o

ما هو نموذج شات جي بي تي الجديد GPT-4o؟

GPT هو اختصار لـ Generative Pre-Trained Transformers وهي تقنية ذكاء اصطناعي تم تدريبها مسبقًا لتحويل مدخلات معينة كالنصوص والأصوات إلى نوع آخر من المخرجات استجابةً لمدخلات المستخدم، أما 4o فهو النموذج الجديد (Model) من شركة OpenAI والذي يتفاعل بصورة أكثر طبيعية بين الإنسان والحاسوب؛ حيث يقبل أي مجموعة مدخلات من النصوص والصوت والصور ويولد مجموعة مخرجات أخرى مفيدة من النصوص والصوت والصور، ويمكنه الاستجابة للمدخلات الصوتية بمتوسط 320 مللي ثانية، وهو ما يشبه وقت الاستجابة البشرية في محادثة عادية. 

يتطابق أداء GPT-4o مع GPT-4 Turbo من حيث فهم النصوص والأكواد البرمجية باللغة الإنجليزية، مع تحسينات كبيرة في فهم وتحليل النصوص باللغات غير الإنجليزية، هذا مع سرعة أكبر بكثير وتكلفة أرخص، ودعم أكثر من 50 لغة. 

وبشكل عام، يُعد نموذج GPT 4o أفضل بكثير في فهم مدخلات الصور والفيديوهات والصوت مقارنةً بالنماذج الحالية.

قدرات نموذج GPT 4o ومميزاته الجديدة

في النماذج القديمة قبل GPT-4o، كان بإمكانك استخدام الوضع الصوتي (Voice Mode) للتحدث إلى ChatGPT عبر سلسلة من ثلاثة نماذج منفصلة: نموذج يحول صوتك إلى نص، ونموذج ثاني مثل GPT-3.5 أو GPT-4 يستقبل النص ويخرج نص آخر، ويقوم نموذج ثالث بتحويل هذا النص مرة أخرى إلى صوت، ولكن كانت هذه العملية تفقد الكثير من المعلومات، ولا يمكن للنموذج ملاحظة نغمة (tone) أو عدد المتحدثين بشكل مباشر، ولا الضوضاء الموجودة في الخلفية، ولا يمكن للنموذج إخراج الضحك أو الغناء أو التعبير عن المشاعر.

أما في النموذج الجديد GPT 4o، فقد قامت OpenAI بتدريبه على النصوص والرؤية والصوت، مما يعني أن جميع المدخلات والمخرجات تتم معالجتها بواسطة نفس الشبكة العصبية، كما ووضحت الشركة أنها لا تزال في مرحلة استكشاف ما يمكن أن يفعله هذا النموذج وما هي حدوده؛ نظرًا لأن هذا النموذج هو الأول من نوعه الذي يقوم بكل ذلك.

وباستخدام هذه الإمكانيات الجديدة، من المتوقع استخدام GPT-4o في مهام حياتية مثل:

  • الترجمة الصوتية الفورية بين شخصين يتحدثان لغتين مختلفتين مثل العربية والإسبانية مثلًا.
  • تلخيص أي مقطع فيديو أو محاضرة طويلة، سواء كانت أونلاين أو فيديو مسجل.
  • تعلم أي لغة أجنبية بمهاراتها الأربع: التحدث، والاستماع، والقراءة، والكتابة.
  •  تصوير مبني أو معلم سياحي أو مكان ما سواء فيديو أو صورة وسؤال GPT 4o عن أي شيء عن هذا المكان.
  • خدمة العملاء والرد على المتصلين نيابة عنك.
  • الاستعداد لمقابلات العمل والتمرن عليها كأنك مع شخص آخر.
  • تحليل الصور والبيانات وإنشاء رسوم بيانية (charts).
  • حفظ معلومات معينة عنك في الذاكرة (Memory) واستدعائها عند الحاجة، مثل اسمك، عمرك، أسماء اخوتك أو عددهم، وظيفتك وهكذا.
  • فهم تعابير وجهك مثل الضحك، والغضب، والحزن وإعطائك نصائح بناءً على حالتك، وكذلك يمكنه التحدث معك بأكثر من طبقة صوت وأن يغير طريقة كلامه معك بطريقة فكاهية أو حزينة حسب توجيهك له.

السلامة والقيود لنموذج جي بي تي فور أو GPT-4o

يتمتع نموذج GPT 4o بإجراءات أمان مدمجة (built-in) من خلال تقنيات مثل تصفية بيانات التدريب (filtering training data) وتحسين سلوك النموذج بعد التدريب. كما تم إنشاء أنظمة أمان جديدة لتوفير ضوابط للأصوات الصادرة عن النموذج.

قامت OpenAI أيضًا بتقييم GPT-4o في الأمن السيبراني (Cybersecurity)، وCBRN واستقلالية النموذج، والإقناع، وأظهرت التقييمات أنه لا يتجاوز مستوى الخطر المتوسط في أي من هذه التقييمات. شمل هذا التقييم مجموعة من التقييمات الآلية والبشرية خلال عملية تدريب النموذج، وقامت الشركة باختبار إصدارات النموذج قبل وبعد تطبيق إجراءات الأمان باستخدام ضوابط مخصصة للتدريب والأوامر (prompts)، لاستخراج قدرات النموذج بشكل أفضل.

كما خضع GPT-4o أيضًا لعملية اختبار خارجية مكثفة عن طريق “red teaming” وبمشاركة أكثر من 70 خبيرًا خارجيًا في مجالات مثل علم النفس الاجتماعي، والمعلومات المضللة، لتحديد المخاطر التي قد يتم تقديمها أو تضخيمها من قبل النموذج نتيجة للمميزات الجديدة المضافة. وأعربت OpenAI عن استمرارها في معالجة المخاطر الجديدة عند اكتشافها.

وخلال عملية الاختبار والتكرار مع النموذج، لوحظ عدة قيود (limitations) موجودة عبر جميع وسائط النموذج (model’s modalities) مثل المخرجات الصوتية غير المفهومة، وغيرها.

تقييم نموذج GPT 4o

1. تقييم النصوص (Text Evaluation)

صورة تعبر عن تقييم نموذج شات جي بي تي الجديد GPT-4o للنصوص (Text Evaluation).
مصدر الصوة: Open AI

حقق نموذج GPT 4o درجات عالية جديدة في اختبارات تحسين الاستدلال، حيث حصل على نسبة 88.7% في اختبار الأسئلة العامة.

2. تقييم الصوت والتعرف التلقائي على الكلام (Automatic Speech Recognition-ASR performance)

صورة تعبر عن تقييم نموذج شات جي بي تي الجديد GPT-4o للصوت والتعرف التلقائي على الكلام (Automatic Speech Recognition-ASR performance)
مصدر الصوة: Open AI

يُحسِّن نموذج GPT-4o بشكل كبير أداء التعرف على الكلام مقارنةً بنموذج Whisper-v3 في جميع اللغات.

يعمل النموذج على مبدأ تعلم الآلة العميق (Deep Learning)، بجانب تدريبه على بيانات لغوية ضخمة ليكون قادرًا على توليد نصوص متقنة بشكل ذاتي.

3. تقييم أداء الترجمة الصوتية (Audio translation performance)

صورة تعبر عن تقييم نموذج شات جي بي تي GPT-4o الجديد لأداء الترجمة الصوتية (Audio translation performance)
مصدر الصوة: Open AI

من بين هذه النماذج الابتكارية يبرز GPT-4o كنموذج يحقق مستوى جديدًا من التميز في ترجمة الكلام، ويعتبر تطورًا مهمًا عن الإصدارات السابقة في تحسين جودة ودقة الترجمة.

 

4. تقييمات فهم الرؤية (Vision understanding evals)

صورة تعبر عن تقييم نموذج شات جي بي تي الجديد GPT-4o لفهم الرؤية (Vision understanding evals).
مصدر الصوة: Open AI

يتميز نموذج GPT-4o بقدرته على تحقيق أداء متقدم لمعايير الإدراك البصري في تقييمات الصور والمعلومات البصرية. يتم إجراء جميع التقييمات البصرية بدون تدريب مسبق، وقد أظهر النموذج أداء مذهلًا في هذه التقييمات.

كيفية استخدام نموذج GPT4o وموعد انطلاقه

تم بالفعل تفعيل إمكانيات النص والصورة لنموذج GPT4o وظهورها في ChatGPT في النسخة المجانية، وبالنسبة لمستخدمي النظام المدفوع (Plus users)، سيكون لهم 5 أضعاف الحد المسموح به من الرسائل مقارنةً بالنسخة المجانية. 

سيتمكن مستخدمي النسخة المجانية (ChatGPT Free) خلال الأسابيع المقبلة من الوصول إلى ميزات مثل:

  • تجربة ChatGPT4.
  • الحصول على النتائج من النموذج والويب.
  • تحليل البيانات (Data Analysis) بالإضافة إلى إنشاء رسوم بيانية (Charts).
  • التعامل مع الصور (سيكون بإمكانك إدراج الصور للنموذج).
  • رفع الملفات والبدء في عمليات (التلخيص، الكتابة والتحليل).
  • إمكانية إستخدام GPTs بالإضافة إلى GPT Store.
  • ميزة Memory، حيث سيتذكر النموذج معلومات سابقة عنك ويستخدمها لتقديم تجربة أفضل.

سيتم طرح الإصدار الجديد من الوضع الصوتي (Voice Mode) مع GPT4o في مرحلة ألفا (Alpha Version) لمستخدمي ChatGPT Plus في الأسابيع المقبلة.

يمكن للمطورين الآن أيضًا الوصول إلى GPT4o عن طريق واجهة برمجة التطبيقات (API) بإمكانيات النص والصورة، علمًا بأنه أسرع مرتين، وبنصف السعر، وحد استخدامه أعلى 5 مرات مقارنة بـ GPT-4 Turbo.

كما وتخطط Open Ai إطلاق الدعم لإمكانيات الصوت والفيديو الجديدة لـ GPT4o لمجموعة صغيرة من شركائها الموثوقين في واجهة برمجة التطبيقات (API) في الأسابيع المقبلة.

 GPT-4o ليس نهاية القدرات المذهلة لما يمكن أن يفعله الذكاء الاصطناعي، بل هو تطور طبيعي للأبحاث التي يجريها العلماء، وظهوره الآن يمثل نقطة محورية في تطور الذكاء الاصطناعي، حيث تصبح العلاقة بين الذكاء البشري والآلي أكثر غموضًا وإثارة. ويجب أن نعترف -شئنا أم أبينا- أننا نعيش الآن في عالم أصبح استخدام الذكاء الاصطناعي فيه ليس مجرد أداة ولكن شريكًا وكيانًا يعزز قدراتنا ويدفع حدود ما يمكننا تحقيقه إلى ما لا نهاية. هل تتفق معي؟ 

شاركني رأيك في التعليقات👇 وشارك المقال مع غيرك لتعم الفائدة.

المصادر: 1   2 

No Courses Found!

 نموذج شات جي بي تي الجديد أو ما يعرف بإسم GPT-4o هو النموذج الجديد (Model) من شركة OpenAI والذي يتفاعل بصورة أكثر طبيعية بين الإنسان والحاسوب؛ حيث يقبل أي مجموعة مدخلات من النصوص والصوت والصور ويولد مجموعة مخرجات أخرى مفيدة من النصوص والصوت والصور، ويمكنه الاستجابة للمدخلات الصوتية بمتوسط 320 مللي ثانية، وهو ما يشبه وقت الاستجابة البشرية في محادثة عادية، هذا مع قدرته الفائقة في فهم مدخلات الصور والفيديوهات والصوت مقارنةً بالنماذج الحالية.

أعلنت شركة Open Ai في مؤتمرها الآخير للإعلان عن GPT 4o، أن مستخدمي النسخة المجانية لشات جي بي تي (ChatGPT Free) سيتمكنون خلال الأسابيع المقبلة من الوصول إلى مميزات مثل:

  • تجربة ChatGPT4.
  • الحصول على النتائج من النموذج والويب.
  • تحليل البيانات (Data Analysis) بالإضافة إلى إنشاء رسوم بيانية (Charts).
  • التعامل مع الصور (سيكون بإمكانك إدراج الصور للنموذج).
  • رفع الملفات والبدء في عمليات (التلخيص، الكتابة والتحليل).
  • إمكانية إستخدام GPTs بالإضافة إلى GPT Store.
  • ميزة Memory، حيث سيتذكر النموذج معلومات سابقة عنك ويستخدمها لتقديم تجربة أفضل.

من خلال القدرات والإمكانيات الجديدة لنموذج شات جي بي تي الجديد GPT4o، من المتوقع استخدامه في مهام حياتية مثل:

  • الترجمة الصوتية الفورية بين شخصين يتحدثان لغتين مختلفتين مثل العربية والإسبانية مثلًا.
  • تلخيص أي مقطع فيديو أو محاضرة طويلة، سواء كانت أونلاين أو فيديو مسجل.
  • تعلم أي لغة أجنبية بمهاراتها الأربع: التحدث، والاستماع، والقراءة، والكتابة.
  •  تصوير مبني أو معلم سياحي أو مكان ما سواء فيديو أو صورة وسؤال GPT4o عن أي شيء عن هذا المكان.
  • حفظ معلومات معينة عنك في الذاكرة (Memory) واستدعائها عند الحاجة، مثل اسمك، عمرك، أسماء اخوتك أو عددهم، وظيفتك وهكذا.
  • فهم تعابير وجهك مثل الضحك، والغضب، والحزن وإعطائك نصائح بناءً على حالتك، وكذلك يمكنه التحدث معك بأكثر من طبقة صوت وأن يغير طريقة كلامه معك بطريقة فكاهية أو حزينة حسب توجيهك له.

يتميز نموذج GPT 4o بقدرته على تحقيق أداء متقدم لمعايير الإدراك البصري في تقييمات الصور والمعلومات البصرية. يتم إجراء جميع التقييمات البصرية بدون تدريب مسبق، وقد أظهر النموذج أداء مذهلًا في هذه التقييمات.

يُحسِّن نموذج GPT 4o بشكل كبير أداء التعرف على الكلام مقارنةً بنموذج Whisper-v3 في جميع اللغات؛ حيث يعمل النموذج على مبدأ تعلم الآلة العميق (Deep Learning)، بجانب تدريبه على بيانات لغوية ضخمة ليكون قادرًا على توليد نصوص متقنة بشكل ذاتي.

مقالات ذات صلة

5 تحديات يواجهها المبرمج المبتدئ في الحصول على وظيفته الأولى

زمن القراءة: 8 دقائق بصفتك مبرمجًا مبتدئًا، قد تواجه العديد من التحديات والصعوبات عند محاولة العثور على وظيفتك الأولى. فقلة الخبرة، وعدم امتلاك المهارات اللازمة، وغيرها من العوامل الأخرى…

اشترك
نبّهني عن
0 تعليقات
Inline Feedbacks
عرض جميع التعليقات