توضح وزارة النقل كيف يتجنب نظام الذكاء الاصطناعي الخاص بها التحيز

عملت وزارة النقل في المملكة المتحدة (DfT) مع Google Cloud ومعهد آلان تورينج لإنشاء أداة تحليل الاستشارة (CAT) لتحليل تعليقات المواطنين من المشاورات العامة.
يشير تقرير نشره معهد آلان تورينج في ديسمبر 2025، إلى أن المشروع جزء من هدف DfT لاستخدام أدوات الذكاء الاصطناعي (AI) لتحقيق كفاءة أكبر في القسم. توفر أداة CAT تحليلاً موضوعيًا لتعليقات المشاورة العامة، حيث يتم تعيين النص الحر من تقديمات المواطنين على موضوعات معينة باستخدام نماذج اللغة الكبيرة (LLMs).
يشير مؤلفو التقرير إلى أنه على الرغم من أنه من السهل نسبيًا استخدام ماجستير إدارة الأعمال لإجراء التحليل الموضوعي، فإن “تصميم الأنظمة التي تتوافق مع التفضيلات البشرية، والتي تتمتع بمستوى مناسب من الإشراف البشري، ولديها إطار قوي لتقييم الأداء، هو أمر أكثر تعقيدًا”.
ومن بين المجالات التي ركز عليها الفريق التحيز الديموغرافي. يشير التقرير إلى أنه في حين أن CAT لا تستخدم بشكل صريح المتغيرات الديموغرافية في أي من مطالبات LLM، “قد يكون أداء LLM أسوأ في الإجابات المكتوبة باللغة الإنجليزية الضعيفة أو التي تستخدم لغة اجتماعية وثقافية محددة مثل الإسهاب أو اللغة العامية”.
وبالنظر إلى أن المواطنين يختارون بأنفسهم المشاركة في المشاورات العامة، قال مؤلفو التقرير: “لقد قررنا أنه من المهم بشكل خاص استثمار الموارد البشرية النادرة لضمان دقة وجودة خطوة توليد الموضوع”.
وقالوا إن وجود إنسان في الحلقة يضمن تحديد أخطاء الذكاء الاصطناعي المحتملة أو التفسيرات الخاطئة، ويبقي الحكم البشري محوريًا لفهم المدخلات العامة. وأضافوا: “يدمج نهجنا رسميًا الإشراف البشري في خطوة مراجعة الموضوع وفي مرحلة التحليل وكتابة التقرير، حيث يقوم المستخدمون باستجواب التحليل المدعوم بتقنية CAT واختيار الاقتباسات التمثيلية”.
يستخدم CAT خط أنابيب LLM لتعيين كل استجابة فردية مقدمة في استشارة عامة لموضوع تم التحقق من صحته من قبل الإنسان. تستخدم عملية رسم الخرائط ما يعرف بنظام تصويت الأغلبية، حيث يُطلب من حاملي الماجستير المختلفين تصنيف استجابة معينة في الاستشارة العامة المقدمة حول موضوع ما. يتم تصنيف الموضوع للإجابة فقط إذا وافقت أغلبية LLMs على نفس التصنيف. غالبًا ما يشار إلى هذا باسم LLM-as-a-قاضي. ووفقا لمؤلفي التقرير، فإن هذه التقنية تخلق خريطة شاملة بين الاستجابات والموضوعات.
في حين يذكر التقرير أن CAT كانت أقل دقة بشكل منهجي في رسم خرائط المواضيع للاستجابات لمجموعات ديموغرافية محددة، فقد أشار أيضًا إلى أن تصميم CAT يتضمن عدة ضمانات للتخفيف من التحيز، بما في ذلك استبعاد المتغيرات الديموغرافية من المطالبات والمراجعة البشرية لجميع المواضيع التي تم إنشاؤها بواسطة CAT.
قال مؤلفو التقرير: “تضمن عملية مراجعة المواضيع البشرية في الحلقة أن احتمالية استخراج جميع المواضيع الرئيسية “الحقيقية” ضمن مجموعة البيانات تقترب من 100٪ مع المراجعة البشرية، وهي الطريقة التي يتم بها استخدام CAT في الممارسة العملية.”
تم تصميم CAT على منصة Vertex AI من Google وتستخدم نماذج Gemini. ووفقا لـ DfT، فهو قادر على تحديد وتصنيف المواضيع من ردود الفعل العامة في غضون ساعات قليلة – وهي عملية كانت تستغرق في كثير من الأحيان أشهرا. وقد تم استخدامه بالفعل لدعم تحليل الاستجابات العامة لاستراتيجية النقل الوطنية المتكاملة وتحسين قواعد الحجز لاختبار القيادة.

رئيس تحرير يمني وصحفي محترف حاصل على درجة في الإعلام. عمل في عدة صحف ومواقع إخبارية وتدرّج من محرر إلى رئيس تحرير. يشرف على المحتوى الإخباري ويقود فريقًا صحفيًا مع الالتزام بالمصداقية والمهنية.



