اكتشاف صادم يكشف أسرار جديدة حول نماذج الذكاء الاصطناعي من OpenAI

دراسة حديثة تكشف: نماذج “OpenAI” قد تكون دُرّبت على محتوى محمي بحقوق النشر.

by فريق التحرير السبت 5 أبريل 2025السبت 5 أبريل 2025

كشفت دراسة أكاديمية حديثة عن دلائل جديدة تُعزز مزاعم سابقة بأن شركة “OpenAI” استخدمت محتوى محميًا بحقوق الطبع والنشر في تدريب نماذج الذكاء الاصطناعي الخاصة بها، مثل “GPT-4″ و”GPT-3.5”.

وتأتي هذه النتائج في وقت تواجه فيه الشركة دعاوى قضائية من مؤلفين ومبرمجين وناشرين، يتهمونها باستخدام أعمالهم دون إذن قانوني.

اتهامات قانونية وموقف OpenAI

تخوض “OpenAI” عدة معارك قانونية أمام القضاء الأميركي، بعد أن رفع مؤلفون ومبرمجون دعاوى يتهمون فيها الشركة باستخدام كتبهم وقواعد بياناتهم البرمجية وغيرها من المحتوى المحمي لتدريب نماذج الذكاء الاصطناعي.

ورغم استناد “OpenAI” إلى مبدأ “الاستخدام العادل” كدفاع رئيسي، يرى المدعون أن قانون حقوق النشر الأميركي لا ينص على استثناء واضح يتيح استخدام هذه البيانات لأغراض التدريب.

ووفقا لتقرير لموقع “TechCrunch” المتخصص في أخبار التكنولوجيا، اقترحت دراسة، شارك فيها باحثون من جامعة واشنطن وجامعة كوبنهاغن وجامعة ستانفورد، طريقة جديدة لتحديد بيانات التدريب التي “تتذكرها” نماذج تعتمد على واجهة برمجة تطبيقات، مثل نماذج “OpenAI”.

وتعتمد هذه المنهجية على ما يُعرف بالكلمات “ذات المفاجأة العالية” (high-surprisal)، وهي كلمات غير شائعة ضمن السياق وتساعد على قياس احتمالية أن تكون النماذج قد حفظت النصوص.

فعلى سبيل المثال، تُعد كلمة “رادار” في جملة مثل “جلستُ أنا وجاك ساكنين تمامًا مع صوت أزيز الرادار” ذات مفاجأة عالية، مقارنة بكلمات أكثر شيوعًا مثل “محرك” أو “راديو”.
واستخدم الباحثون هذه التقنية لإخفاء كلمات معينة من مقاطع نصوص مأخوذة من روايات خيالية ومقالات لصحيفة نيويورك تايمز، ودفع النماذج لتخمين الكلمات الناقصة.

نتائج الدراسة.. حفظ محتوى محمي من كتب ومقالات

وفقًا لنتائج الدراسة، نجح نموذج “GPT-4” في تخمين العديد من الكلمات المحذوفة بدقة، مما يشير إلى أنه قد يكون حفظ بعض المقتطفات خلال مرحلة التدريب.

وتبيّن أن النموذج أظهر علامات حفظ لنصوص من كتب خيال شهيرة، تندرج ضمن مجموعات بيانات تحتوي على كتب إلكترونية محمية بحقوق النشر. كما وجد أن النموذج حفظ أجزاء من مقالات صحيفة نيويورك تايمز، وإن بنسبة أقل.

أعربت أبيلاشا رافيشاندر، طالبة الدكتوراه في جامعة واشنطن والمؤلفة المشاركة في الدراسة، عن قلقها من طبيعة البيانات المستخدمة في تدريب هذه النماذج.

وقالت لموقع “TechCrunch”: “عملنا يهدف إلى توفير أداة لفحص النماذج اللغوية الكبيرة، لكن هناك حاجة حقيقية إلى مزيد من الشفافية في هذا النظام البيئي”.

يُذكر أن “OpenAI” لطالما دعت إلى تخفيف القيود القانونية المفروضة على استخدام البيانات المحمية في تطوير تقنيات الذكاء الاصطناعي، معتبرة أن هذه القيود قد تُعيق الابتكار.

فريق التحرير

للاطلاع على أحدث الأخبار و أخبار الشركات من السعودية والإمارات ودول الخليج تابعنا عبر تويتر و لينكد إن وسجل اعجابك على فيسبوك واشترك بقناتنا على يوتيوب والتي يتم تحديثها يوميا