
جمع وتجهيز البيانات. تقول جوجل أن هناك نحو ٤٠ ألف عملية بحث تتم كل ثانية على محرك البحث الخاص بها. أي نحو ٣.٥ مليار عملية بحث كل يوم . كم المعلومات التي يتم إنتاجها وتحليلها يوميا لا يمكن حصره أبدا. والسؤال إذا كيف يتم جمع البيانات؟ بداية يجب أن نؤكد على ان عملية جمع البيانات يجب أن تتم في إطار أخلاقي يحافظ على حقوق وخصوصية الناس. أما طرق جمع البيانات فهي كثيرة. ومن أشهرها: النماذج والاستبيانات، والمقابلات، والملاحظات، وملفات الارتباط (الكوكيز) التي تجمع بيانات عنك أثناء تصفحك الإنترنت. ولك أن تتخيل كم البيانات التي تواجهها أثناء عملية جمع البيانات، فكيف تسيطر على هذا الكم؟
معايير جمع البيانات
السيطرة على البيانات تبدأ بتحديد نوع البيانات التي يجب جمعها واستخدامها لكل مشروع. ولكي تسيطر على كم البيانات التي ستواجهها عليك مراعاة المعايير التالية
حدد مصادر جمع البيانات: قد تحتاج إلى جمع البيانات بنفسك بأحد الطرق السابقة الذكر. أو ربما هناك جهة ما تجمع هذه البيانات مباشرة من الجمهور ثم تبيعها، فيمكنك شراء البيانات منهم. أو ربما من مصادر خارجية بمعنى أن البيانات قد تكون أتت من عدد من المصادر المختلفة. عموما أيا كان المصدر ستحتاج إلى فحص البيانات والتأكد من دقتها وموثوقيتها
قرر نوع البيانات التي تحتاجها. عليك أن تحدد البيانات التي تريد استخدامها. والتي ستساعدك في العثور على إجابات وحل المشكلات، ومن ثم لا تشتت انتباهك ببيانات أخرى لا فائدة منها
حدد مقدار البيانات التي ستجمعها. في بعض الأحيان قد يكون جمع البيانات عن المجتمع أمر مستحيل، لذا نلجأ للعينات التي تمثل ذلك المجتمع. فمثلا إذا كنت تجمع بيانات عن مدينة، سيكون من المستحيل جمع البيانات من كل السكان. لذا نلجأ إلى سحب عينة عشوائية ونجمع منها البيانات. اختيارك للعينة يتوقف على طبيعة مشروعك
ضع الإطار الزمني للبيانات: غالبا ما تستخدم بيانات تاريخية، لذا حدد من تاريخ كذا إلى تاريخ كذا. ولاحظ أنه كلما ازدادت الفترة اختلفت نتائج التحليل مما ينعكس على القرارات المبنية على هذا التحليل
ولكي نقترب أكثر من البيانات التي سنجمعها علينا أن نصنفها شكليا، وهو ما يطلق عليه نسق البيانات.
نسق البيانات
هناك تصنيفات عديدة للبيانات. البعض يصنفها إلى بينات نوعية (مثل عناوين الأفلام، الأسماء، الوصف، ونحو ذلك). وبيانات كيفية (مثل ميزانية الأفلام، إيرادات شباك التذاكر، عدد السيارات، وهكذا) وتلك يمكن إجراء عمليات حسابية عليها
أيضا بعض المتخصصين يصنفها إلى بينات داخلية (وهي التي تعيش داخل أنظمة المؤسسة، مثل بيانات خاصة بأفلام أنتجتها شركة إنتاج). وبيانات خارجية (وهي التي يتم جمعها من مصادر خارجية عن القطاع بأسره. مثل بيانات تتعلق بجميع الأفلام التي تم إنتاجها في بلد ما من جميع شركات الإنتاج)
فريق ثالث يفضل تصنيف البيانات حسب طريقة جمعها إلى بيانات أولية (يجمعها الباحث بنفسه). وبيانات ثانوية (يتم جمعها من قبل أشخاص آخرين)
فريق رابع يفضل تصنيف البيانات حسب بنيتها التنظيمية، على بيانات هيكلية (وهي التي يمكن وضعها داخل قواعد بيانات). وبيانات غير هيكلية (وهي التي لا يمكن تنظيمها داخل قواعد البيانات مثل ملفات الفيديو والصوت ورسائل الإيميل)
وايا كانت الطريقة التي يتم بها تصنيف البيانات، فعليك أن تعرف أن البيانات لها خصائص. ومعرفتك بهذا الخصائص مهم جدا في تعاملك مع هذه البيانات، وهذا ما سنتناوله في الفقرة التالية .. الميتاداتا
الميتاداتا
كل جزئية من البيانات يكون لها خصائص محددة. فمثلا إذا كان لدينا جدول به بيانات الموظفين. وهذا الجدول يتضمن أعمدة، العمود الأول أسم الموظف، العمود الثاني راتب الموظف، العمود الثالث تاريخ تعيين الموظف، وهكذا. وبالطبع يتضمن كل صف بيانات موظف، كما هو مبين بالجدول التالي.
الرقم الموحد | اسم الموظف | راتب الموظف | تاريخ التعيين | .. |
١ | أحمد | ١٠٠٠ $ | ٢٢ أغسطس ٢٠١٠ | … |
٢ | سارة | ١١٠٠ $ | ١٩ سبتمبر ٢٠٠٨ | … |
٣ | فؤاد | ٩٠٠ $ | ١٠ يناير ٢٠٢٠ | … |
… | … | …. | … | … |
كل عمود يحمل نوع محدد من البيانات، ومن ثم له خصائص محددة. فمثلا عمود الرقم الموحد خصائصه (يحمل رقم ثابت لا يسمح فيه بالفاصلة العشرية، ولا بالتكرار. ولا يسمح فيه بعمل أي عمليات حسابية وهكذا). أما عمود اسم الموظف فخصائصه هي (يحمل هذا العمود حروف والأرقام. عدد الحروف يصل إلى ٢٥٥ حرف، اللغة المكتوب بها العربية، يسمح فيه بالتكرار). أما عمود راتب الموظف فمن خصائصه (يحمل الأرقام فقط. يحمل في نهايته رمز العملة. يمكن إجراء عمليات حسابية عليها. يمكن أن يتضمن قيم عشرية، وهكذا). أما عمود تاريخ التعيين فمن خصائصه (يحمل قيم التاريخ فقط. ويمكن إجراء عمليات حسابية عليه تتعلق بالتاريخ. ويحمل شكل محدد يوم | شهر | سنة )
هذه الأوصاف التي تحدثنا عنها هي بيانات تصف البيانات، وهذا ما يطلق عليه الميتاداتا. وأهميتها تزداد عندما نتعامل مع بيانات غير هيكلية. مثل الصور والفيديو وملفات الصوت، لأنها تتضمن تفاصيل أكثر بكثير تتعلق بهذه الملفات. وهي مهمة جدا في التعامل مع تلك الملفات
مثال
لنفترض أن لديك قاعدة بيانات لمقاطع الفيديو إخبارية. كل مقطع فيديو يتضمن الملف نفسه وما يشتمل عليه من محتوى إخباري، ووصف للمقطع في قاعدة البيانات. والكلمات المفتاحية المتعلقة بالخبر، واسم المراسل، واسم المصور، ومعلومات عن الخبر، وهكذا)، هذه هي البيانات.
أما الميتاداتا المتعلقة بهذا المقطع فيمكن تصنيفها إلى ثلاثة أقسام على النحو التالي. البيانات الوصفية (مثل عنوان الفيديو، ومصدره من أي وكالة). والبيانات البنائية (مثل الرقم الموحد للفيديو). والبيانات الإدارية (مثل مدة الفيلم، والصيغة المحفوظ بها، والكودكس الخاص به، وتاريخ الإنشاء، وتاريخ التحديث، إلخ).
وترجع أهمية الميتاداتا إلى أنها تساعدنا في فهم السياق العام للبيانات، والتحقق من دقة ومصداقية البيانات. خصوصا وأن هذه البيانات غالبا ما يتم إنشاؤها من خلال النظام مباشرة، ومن ثم احتمال التلاعب فيها صعب. وبالتالي فهي أحد المؤشرات التي تساعدك على التأكد من صدق ودقة البيانات التي تتعامل معها.
وهذا يجرنا للحديث عن موضوع غاية في الأهمية، ألا وهو كشف التحيز وأخلاقيات التعامل مع البيانات. وهذا هو موضوع مقال أخلاقيات جمع البيانات
معلومات جميلة ومفيدة