تصور البيانات في عمل المحلل: أنواع الرسوم البيانية وأيها تختار. معالجة قواعد البيانات التشغيلية والتخزين متعدد الأبعاد

22.04.2019

أصبحت أدوات تصور البيانات المتقدمة جزءًا لا يتجزأ من منصات ذكاء الأعمال للشركات. بعض البائعين، مثل Tableau، جعلوا التصور حجر الزاوية في أنظمتهم التحليلية. يتغلغل هذا الاتجاه في سوق أنظمة التحليلات بالكامل: اليوم، حتى أبسط الأدوات التحليلية للمستخدمين النهائيين تعتمد غالبًا على التمثيل المرئي للبيانات.

تصور البيانات الكبيرة

يعد العرض المرئي لنتائج التحليل ذا أهمية أساسية لتفسيرها. ليس سرا أن الإدراك البشري محدود، ويواصل العلماء إجراء البحوث لتحسين الأساليب الحديثة لعرض البيانات في شكل صور أو رسوم بيانية أو رسوم متحركة. يبدو أنه من المستحيل التوصل إلى أي شيء جديد هنا، ولكن في الواقع ليس هذا هو الحال. على سبيل المثال، إليك العديد من أساليب التصور المتقدمة التي أصبحت منتشرة على نطاق واسع مؤخرًا نسبيًا.

  • علامة السحابة

يتم تعيين وزن محدد لكل عنصر في سحابة العلامات يرتبط بحجم الخط. وفي حالة تحليل النص، تعتمد قيمة معامل الترجيح بشكل مباشر على تكرار الاستخدام (الاقتباس) لكلمة أو عبارة معينة. يتيح للقارئ الحصول بسرعة على فكرة عن النقاط الرئيسية لأي نص كبير أو مجموعة من النصوص.

  • مخطط عنقودي

طريقة التصور المستخدمة في التحليل العنقودي. يوضح كيفية ارتباط العناصر الفردية لمجموعة البيانات بالمجموعات مع تغير عددها. يعد اختيار العدد الأمثل للمجموعات عنصرًا مهمًا في تحليل المجموعات.

  • تيار تاريخي

يساعد على متابعة تطور الوثيقة التي يعمل عليها عدد كبير من المؤلفين في وقت واحد. على وجه الخصوص، يعد هذا الوضع نموذجيًا لخدمات الويكي وموقع tadviser أيضًا. يتم رسم الوقت على طول المحور الأفقي، ويتم رسم مساهمة كل مؤلف مشارك على طول المحور الرأسي، أي. حجم النص المدخل. يتم تعيين لون محدد لكل مؤلف فريد على المخطط. الرسم البياني أدناه هو نتيجة تحليل لكلمة "الإسلام" على ويكيبيديا. من الواضح كيف زاد نشاط المؤلفين بمرور الوقت.

  • التدفق المكاني

يتيح لك هذا المخطط تتبع التوزيع المكاني للمعلومات. تم إنشاء مخطط المثال باستخدام خدمة New York Talk Exchange. إنه يصور كثافة تبادل حركة مرور IP بين نيويورك والمدن الأخرى حول العالم. كلما كان الخط أكثر سطوعًا، تم نقل المزيد من البيانات لكل وحدة زمنية. ومن السهل جدًا وليس الصعب تحديد المناطق الأقرب إلى نيويورك في سياق تبادل المعلومات.

معالجة قواعد البيانات التشغيلية والتخزين متعدد الأبعاد

  • قواعد بيانات المعاملات الثقيلة
  • التخزين العلائقي ومتعدد الأبعاد
  • مكالمات مباشرة إلى واجهات برمجة تطبيقات النظام
  • العمل مع الموصلات
  • معالجة الملفات المسطحة (CSV، Excel، XML، وما إلى ذلك)

بناء النماذج التحليلية في الذاكرة

تم إنشاء أجهزة الكمبيوتر لأتمتة العمليات الحسابية، ولكن سرعان ما تم اكتشاف أن الأمر لا يقتصر على العد ويمكن استخدامها كجهاز عالمي للتعامل مع البيانات. ثم كانت هناك محاولات لجعل الكمبيوتر يفكر، ولكن هناك محاولات أقل شهرة لتحويله إلى مساعد فكري لا يدعي ذكاءه الخاص، ولكنه يسهل النشاط العقلي البشري. كان فانيفار بوش أول من وضع هذه الفكرة في شكل آلة ميمكس افتراضية، وتم تجسيد خطط دوغ إنجلبارت المشابهة إيديولوجياً في نظام الإنترنت (NLS). في أوائل ستينيات القرن العشرين، كتب عالم الرياضيات والفيلسوف ريتشارد هامينج: «الغرض من الكمبيوتر هو الإدراك، وليس الحساب». ومع ذلك، ظلت هذه النوايا الطيبة العظيمة غير محققة، حيث أن الإمكانية العملية لإنشاء أنظمة تجمع بسلاسة بين القدرات التحليلية للإنسان والآلة لم تظهر إلا اليوم.

معًا، يعطي العقل الإبداعي للشخص وقدرة الآلة على طحن كميات هائلة من البيانات تأثيرًا تآزريًا، يمكن تقييمه من خلال تحليل عواقب خسارة غاري كاسباروف في عام 1997 للكمبيوتر العملاق IBM Deep Blue PowerParallel SP2 المزود بـ 32 عقدة ، بما في ذلك لوحات خاصة مكونة من 8 معالجات خاصة بالشطرنج. بعد هذه المباراة، قرر الأستاذ الكبير أنه بحاجة إلى موازنة الاحتمالات وللقيام بذلك، يجب عليه السماح للاعبين بتوسيع قدراتهم التحليلية من خلال برامج الشطرنج التي تعمل على جهاز الكمبيوتر. لم يلتق كاسباروف مع Deep Blue مرة أخرى، ولكن قبل تفكيك Deep Blue، لعب معه اثنان من الهواة، "مسلحين" بأجهزة كمبيوتر عادية. نظرًا لعدم كونهما أستاذين كبيرين وليس لديهما مؤهلات جدية في لعبة الشطرنج، فقد تبين أن هذين الاثنين أكثر نجاحًا من بطل العالم في مواجهة الوحش. يعد هذا مثالًا ممتازًا لكيفية أن تكون الأنظمة التي يتم فيها تقاسم الوظائف بشكل متناغم بين الإنسان والآلة أكثر كفاءة من النظام الآلي بالكامل. يمكننا ملاحظة العلامات الأولى لذلك في تحليلات الأعمال، فهنا يعتمد الخط الفاصل بين القديم والجديد في تحليلات الأعمال على طريقة تفاعل الشخص مع الآلة، وليس على تقسيم البيانات إلى أنواع تم تحليلها (منظم أو غير منظم).

أدت الفرصة الجديدة للتفاعل المثمر بين الإنسان والآلة إلى ارتفاع نشط في مجال تحليلات الأعمال وإنشاء تقنيات جديدة. منصات تحليلية. عادةً ما تكون أي فترة انتعاش مصحوبة بتغييرات ملحوظة داخل قطاع السوق المقابل. في هذه الحالة، يتحول التركيز من التقنيات الراسخة والمعروفة التي تدعمها الشركات المصنعة الكبرى إلى مجموعة فرعية من تقنيات اكتشاف البيانات (DD) غير المعروفة تقريبًا - والتي تسمى أيضًا التحليلات المرئية (VA) أو اكتشاف البيانات المرئية (VDD) - التي طورتها الشركات الصغيرة بشكل أساسي وتتميز بقدرات التفاعل المتقدمة بين الإنسان والآلة. هناك مؤشرات أخرى للتغيير؛ بالتوازي مع DD و VA، هناك مجموعتان أخريان من التقنيات التحليلية تتطور بنشاط: المحتوى والتنبؤ، أو التحليلات التنبؤية(التحليلات التنبؤية، PA).

نطاق التحليلات المرئية كبير للغاية (الشكل 1)، لكننا سنركز هنا فقط على القطاعات المتعلقة بتحليلات الأعمال.

طوال التاريخ القصير لتحليلات الأعمال، احتلت أنظمة الاستعلام والتقارير المكان الأكثر أهمية بين الأساليب المستخدمة، والتي يتمثل جوهرها في صياغة الاستعلامات الموجهة إلى مصادر بيانات معينة ثم تجميع التقارير عن نتائجها. تنقسم جميع حلول الاستعلام وإعداد التقارير إلى مسارين كبيرين: أحدهما يُنشئ تقارير الإنتاج - تقارير تصدر بشكل دوري تحتوي على معلومات حول الإنتاج، وينتج الثاني استعلامات الأعمال وإعداد التقارير - تقارير تشغيلية مصممة لمتطلبات إدارة المؤسسة. في أوائل التسعينيات، بالإضافة إلى ذلك، ظهرت أنظمة المعالجة التحليلية عبر الإنترنت (OnLine Analytical Processing، OLAP). ثمن التحليل السريع هو إجراء تحضيري طويل - تُستخدم هذه الفئة من التقنيات لتحليل فقط تلك البيانات التي تم تجميعها مسبقًا في مكعبات OLAP متعددة الأبعاد. يحتوي كل مكعب على كافة المعلومات التي قد تكون مطلوبة للإجابة على الاستفسارات المقصودة. إن الحاجة إلى إعداد المكعب تلغي أي مزامنة مع دفق بيانات الإدخال. ومع ذلك، بناءً على OLAP والتقنيات ذات الصلة، بدأت أدوات التحليل الأكثر سرعة في التطور - على سبيل المثال، "لوحات معلومات الإدارة"، المجهزة بمجموعة متنوعة من لوحات المعلومات التي تشبه جسر القبطان. وقد ترسخ أيضًا مفهوم "المؤسسة في الوقت الحقيقي" (RTE).

بالتوازي مع كل هذه الأدوات، كانت المجالات النظرية مثل استخراج البيانات (DM) والتحليلات التنبؤية تتطور في تحليلات الأعمال. في الآونة الأخيرة، بدا أن DM وPA يحتويان على المورد الرئيسي لتطوير ذكاء الأعمال، ولكن في الممارسة العملية تبين أن الأساليب التفاعلية لـ DD وVA وVDD أكثر طلبًا. ويتم تصنيفها الآن على أنها الأكثر واعدة، على الرغم من أن القوى التي تخلقها هي أقل قوة من اللاعبين التقليديين في حلول ذكاء الأعمال.

المتطلبات الأساسية للتغييرات في التحليلات

هناك تفسيرات وأسباب كثيرة لما يحدث في التحليلات بحيث يتبادر إلى الأذهان قول دان براون من رواية “ملائكة وشياطين”: “البعض يصلي للمسيح، والبعض الآخر يذهب إلى مكة، والبعض الآخر يدرس سلوك الجسيمات الأولية”. . وفي النهاية الجميع يبحث عن الحقيقة." لذلك، وبالقياس، سنقسم وجهات النظر حول تطور تحليلات الأعمال إلى ثلاث مجموعات.

الأكثر شعبية وانتشارا على نطاق واسع هي وجهة النظر "الإدارية"، المرتبطة بالتأملات حول مواضيع عصرية مثل البيانات الضخمة، "الثورة الصناعية القادمة"، الصناعة 4.0، وما إلى ذلك. في أغلب الأحيان يتحدثون عن "ثلاثة مقابل" للشركات الكبرى. محللو البيانات: المجلد "); التنوع ("التنوع")؛ السرعة ("التنقل").

يتم تشكيل المجموعة الثانية من وجهات النظر حول التغيير من قبل أتباع نظرية إدارة المعرفة (إدارة المعرفة، KM). إنهم يربطون ما يحدث بـ "ثورة المعلومات"، ويقسمونها إلى خمس مراحل من الصعود من البيانات إلى المعلومات، ومن المعلومات إلى المعرفة، ومن المعرفة إلى الفهم والاستخبارات: يتم تحليل البيانات التشغيلية المجزأة من قبل محللين فرديين؛ موحدة - يتم تحليل كميات كبيرة من البيانات من قبل مجموعات عمل من المحللين؛ التكامل - يتم إنشاء بنية أساسية مؤسسية تدعم إدارة التغيير؛ التحسين - لتحسين الكفاءة، يتم تحليل معلومات الشركة ككل؛ مبتكر - الجمع بين ذكاء الشركات والتحليلات يخلق قيمة جديدة.

وبحسب وجهة النظر الثالثة فإن نتيجة العملية التطورية هي الانتقال من الأفكار العامة حول المؤسسة إلى المعرفة الحقيقية.

ومن الجدير بالذكر أن وجهتي النظر الأولين أقرب إلى الطائفة، والثالثة بديلة، فهي كما في الاقتباس قريبة من الموقف العلمي الطبيعي، وهي في هذه الحالة وجهة نظر نظامية، وهي مفيدة عند النظر في مجموعة متنوعة من الظواهر، وخاصة تلك التي تحدث في التحليلات. ومع ذلك، من المهم الانتباه إلى ما يلي - جميع أنظمة التحكم لها قواسم مشتركة، بغض النظر عن طبيعتها. كتب عن هذا الأمر نوبرت وينر، وهو أول من عبر عن فكرة وحدة مبادئ الإدارة في الكائنات الحية والآلات والمنظمات. لم يتلق عمل وينر استمرارًا نظريًا جديرًا، وفي الممارسة العملية، سارت إدارة المرافق التقنية بطريقتها الخاصة، وكانت الأعمال بطريقتها الخاصة. لسنوات عديدة لم يكن هناك قواسم مشتركة بين فئتي أنظمة الإدارة - التقنية والشركات، علاوة على ذلك، نشأ حاجز يقسمهما إلى مجالين غير متداخلين. وهذه ليست سوء نية لشخص ما - فوجود تقسيم لفترة زمنية معينة أمر مبرر وطبيعي تمامًا، هذه هي متطلبات الحياة، والانقسام ناتج عن الحد الصارم لموارد الكمبيوتر التي كانت موجودة في الماضي والرغبة استخدام الأدوات المتاحة على النحو الأمثل، إلى أقصى حد يلبي متطلبات المهمة. نظرًا لوجود نوعين من المشكلات - الإدارة الفنية وإدارة الشركات، فقد نشأ نوعان من الحلول وفقًا لذلك.

في وقت لاحق، اتضح أن فكرة أتمتة الإدارة في الأعمال التجارية أفسحت المجال لمعالجة البيانات المبتذلة ودُفنت تحت وطأة أنواع مختلفة من التطبيقات الروتينية مثل ERP وCRM وما إلى ذلك، حيث يعتمد كل شيء على المحاسبة و السيطرة، وهذا هو، ببساطة على الحس السليم. تبين أن تقييم النتائج والحالة واتخاذ القرارات وكل شيء آخر يشكل ردود فعل خارج نطاق الأتمتة. ولكن في الحياة الواقعية، لا يمكن لأي أنظمة تحكم أن توجد بدون ردود فعل، وعلى المستوى الحالي من الأتمتة، يتم تنفيذ ردود الفعل في أذهان المديرين الذين يتلقون البيانات من الخارج ويتخذون القرارات.

وفي العقد الثاني من القرن الحادي والعشرين، تم رفع القيود المفروضة على الموارد المستخدمة عمليًا، وفتحت الفرصة لتقارب الأنظمة التقنية وأنظمة إدارة الأعمال، حيث لعبت الأنظمة التحليلية دورًا حاسمًا في هذه العملية الموحدة، التي أصبحت عقدة التشغيل من حلقة ردود الفعل. باستخدام الأنظمة التحليلية، يمكن لأي شخص إدارة كل من العمليات التجارية والتكنولوجية بنجاح متساوٍ. ولهذا السبب يُشار إلى العصر القادم باسم "الاقتصاد المرتد".

حتى قبل الانفجار الحالي في الاهتمام بالتحليلات، ظهر مفهوم المؤسسة في الوقت الفعلي (RTE) وأصبح حقيقة مع ظهور تقنيات تكامل التطبيقات الجديدة - معماريات الخدمة، وناقلات خدمة المؤسسات، وأنظمة معالجة الأحداث المعقدة. في حين كان من المتوقع في البداية أن تكون التحليلات في الوقت الفعلي عنصرًا حاسمًا في RTE، كان الدافع الرئيسي لاعتماد التحليلات هو الزيادة في أحجام البيانات.

مثال توضيحي للاستخدام العالمي للتحليلات هو أدوات أتمتة إنتاج النفط، حيث من الضروري الجمع بين إدارة معدات الحفر مع تقييم السوق والوضع الاقتصادي هنا، وتشكل الإدارة التكنولوجية وإدارة الأعمال كلاً واحدًا. لتبادل البيانات حول الآبار عبر الشبكة، تم إنشاء لغة الترميز القياسية لنقل معلومات مواقع الآبار (WITSML)، والتي تعمل كحلقة وصل بين نوعين من أنظمة التحكم، واليوم أصبحت إمكانية استخدامها في قطاع الطاقة والنقل والصناعات الأخرى متاحة يجري النظر فيها. الشرط الرئيسي لتطبيق مثل هذه الأنظمة هو استخدام المعايير المفتوحة لتبادل البيانات بين أنظمة البحث الجيولوجية والتكنولوجية، وأنظمة التحكم في عمليات الحفر، وأنظمة البحوث الجيوفيزيائية وحزم النمذجة وتحليل البيانات.

اكتشاف البيانات

حتى وقت قريب، تم بناء نظام تحليل الأعمال بالكامل على أساس البيانات المنظمة، ولكن مع ظهور مشكلة البيانات الضخمة، أصبحت الحاجة إلى العمل مع البيانات غير المنظمة، التي تشكل أكثر من 80٪ من جميع البيانات المخزنة، أكثر أهمية. حادة، ويتزايد عددها بمعدل أسرع مقارنة بالبيانات المنظمة. لكن النقطة ليست فقط أن البيانات التي تم تحليلها أصبحت أكثر تنوعًا - بعد التحول في التركيز على البيانات غير المنظمة للتحليلات، هناك احتمال مختلف تمامًا عن ذي قبل لاستخراج البيانات المفيدة، ولكن في الوقت الحالي البيانات المخفية في التدفق من المعلومات من مجموعة واسعة من المصادر. وبعبارة أخرى، فإن النموذج يتغير بشكل أساسي. في السابق كانت وظيفة التحليلات تقتصر على الحصول على عدد محدود من الإجابات على الأسئلة المحددة مسبقًا وإنشاء التقارير، أما الآن فقد تحولت التحليلات إلى عملية تفاعلية من تفاعل الإنسان مع كميات كبيرة من البيانات من خلال وسيلة تحويل البيانات الأولية إلى مفيدة معلومة. يشار إلى أن المعدات القوية والمكلفة ليست ضرورية لهذا الغرض.

في أغلب الأحيان، ترتبط التحليلات الحديثة بمجالين مرتبطين - اكتشاف البيانات والتحليلات المرئية، ولكن استخدام مصطلحين مختلفين لنفس الشيء تقريبًا يربك الصورة غير الواضحة والمشبعة بالأسماء التي تشكلتها التقنيات المتعلقة بالتحليلات بطريقة واحدة أو آخر. للإشارة إلى مكانها، من الضروري محاولة تصنيف تقنيات تحليل الأعمال، لتقسيمها، على سبيل المثال، إلى ثلاث مجموعات كبيرة متداخلة جزئيا:

  • تقنيات استخلاص المعلومات والمعرفة (المعلومات واكتشاف Kowledge): OLAP، واستخراج البيانات، واستخراج النصوص، واستخراج الويب، ومحركات البحث المختلفة؛
  • أنظمة دعم القرار والأنظمة الذكية (دعم القرار والأنظمة الذكية): أنظمة دعم القرار التقليدية والجماعية، الأساليب التطبيقية للذكاء الاصطناعي، الأنظمة المتخصصة، التحليلات التنبؤية؛
  • أدوات التصور: التحليلات المرئية، وأنواع مختلفة من "لوحات المعلومات" وأجهزة التحكم عن بعد.

رسميًا، يقع اكتشاف البيانات (اكتشاف المعنى الخفي) بوضوح ضمن المجموعة الأولى، والتحليلات المرئية في المجموعة الثالثة، لكن لديهم الكثير من القواسم المشتركة - ينصب التركيز على الإبداع البشري، بدعم من تكنولوجيا الكمبيوتر. يمكن الافتراض أن اكتشاف البيانات هو مفهوم أكثر عمومية، فهو عبارة عن مجموعة من الأساليب للعمل مع البيانات، والتحليلات المرئية هي أداة أكثر (الوحيدة حتى الآن). على ما يبدو، لهذا السبب، بدأ كلا الاتجاهين مؤخرا في التقارب، وظهر الاسم الشائع لاكتشاف البيانات المرئية. تتيح أنظمة هذه الفئة إمكانية تحويل الكمبيوتر إلى أداة تعزز الإمكانات الفكرية للمستخدم. يُطلق على VDD أيضًا اسم التحليلات الاستكشافية أو الاستقصائية. تم اقتراح الاسم الأول في عام 2007 من قبل متخصص تصور البيانات ستيفن فيو، الذي يفهم من خلال التحليلات المتقدمة البحث عن المعنى المخفي في البيانات. والثاني تمت صياغته في عام 2011 من قبل المحلل الشهير كورت موناش للإشارة إلى التحليل الذي تم إجراؤه للعثور على ما لم يكن معروفًا سابقًا في البيانات الموجودة: الأنماط والأنماط المخفية والمحتويات الأخرى التي يمكن استخدامها لاتخاذ القرارات.

أدوات DD أكثر ديمقراطية؛ فهي مصممة لتحسين كفاءة العمل مع البيانات للمستخدم العادي الذي يستهلك المعلومات، وليس لعالم البيانات الذي لديه إمكانية الوصول إلى الأنظمة التحليلية المعقدة والأساليب الرياضية. في وقت ما، كانت الحواسيب المركزية متاحة لاختيار المتخصصين، وأدى ظهور الكمبيوتر الشخصي إلى جعل أجهزة الكمبيوتر في متناول الجميع، ويمكن أن يسمى ظهور DD باستهلاك ذكاء الأعمال.

وكما هو الحال في فجر الكمبيوتر الشخصي، لم يكن قادة الاتجاه الجديد هم اللاعبين الرئيسيين في سوق تحليلات الأعمال، بل كانوا شركات غير معروفة نسبيًا: QlikTech، وSalient Management Company، وSiSence، وTableau، وTibco، تليها شركة تحاول مواكبةالعظماء المعترف بهم: قامت MicroStrategy بتحسين Visualبصيرة؛ أطلقت SAP وSAS وIBM منتجات جديدة مثل Visual Intelligence وVisual Analytics وCognos Insightعلى التوالى؛ وأكملت Microsoft PowerPivot بمنتج مزود بـ Power View.

لقد منح آرثر كونان دويل شيرلوك هولمز القدرة على استخلاص النتائج بناءً على عدد قليل من الملاحظات، ولكن إذا رغبت في ذلك، يمكن تفسير نفس الحقائق بشكل مختلف وستكون الاستنتاجات مختلفة - ضعف الطريقة الاستنتاجية التي استخدمها المحقق الكبير هو في حدودها. ولكن إذا كانت هناك بيانات كافية وتوافرت الأدوات الكافية، فمن الممكن اتخاذ قرارات موضوعية ومستنيرة - وتعتمد دقة اعتمادها على حجم البيانات وجودة الأداة. سر نجاح DD بسيط - تتيح لك هذه التقنيات اتخاذ القرارات بناءً على حجم أكبر من البيانات.

الهدف من أنظمة DD هو إنشاء أدوات موجهة للأشخاص، ودعمهم في عملهم، وفتح الفرصة للأشخاص لاستخدام حدسهم لاستخراج معلومات مفيدة وذات معنى من البيانات المتاحة. في هذه الحالة، تتطور الدورة التالية: أولاً، يتم صياغة الطلب، وغالبًا ما يتم تقديم الإجابة عليه في شكل رسومي، ولهذا السبب تكون تقنيات التصور ذات أهمية خاصة في DD، ثم يتم تقييم النتائج، وإذا لزم الأمر، تتكرر الدورة. يتمثل الاختلاف عن تحليل الأعمال التقليدي في وضوح العرض والسرعة - حيث يرغب الشخص في أن يكون وضع التشغيل قريبًا من الوقت الفعلي.

التحليلات البصرية

لنبدأ بتوضيح المصطلحات، حيث أن هناك ثلاثة مصطلحات متشابهة: التحليل المرئي، واستخراج البيانات المرئية، والتحليلات المرئية - ولكن لكل منها معنى خاص بها.

كان تعدين البيانات المرئية هو أول من ظهر - في عام 2000 تقريبًا، بدأ استدعاء تكامل أساليب استخراج البيانات مع تقنيات التصور في أوروبا. وقد تشكلت إحدى المدارس العلمية الأولى في هذا المجال في جامعة كوبلنز (ألمانيا).

يعود ظهور التحليلات المرئية (الشكل 2) إلى عام 2004 - وقد اقترحها جيم توماس، أحد مؤلفي كتاب "إضاءة الطريق، أجندة البحث والتطوير للتحليلات المرئية"، الذي صدر كوثيقة سياسة لمنطقة المحيط الهادئ مختبر الشمال الغربي الوطني، أحد مختبرات وزارة الطاقة الأمريكية الستة عشر. يعرّف الكتاب الذكاء الاصطناعي بأنه القدرة على التفكير التحليلي، مدعومًا بواجهة رسومية. تمت إعادة توجيه المختبر إلى فرجينيا بأمر من وزارة الأمن الداخلي الأمريكية كجزء من برنامج مكافحة التهديدات الإرهابية وأصبح الآن أكبر مركز أبحاث، متخصص بالكامل تقريبًا في جوانب مختلفة من فرجينيا، وله فروع في عدد من الولايات بلدان؛ منذ عدة سنوات، أصبح مختبر الجامعة في كوبلنز جزءًا منه.


التحليل البصري له تفسيران على الأقل. وفقًا للأول، هذا هو الاسم لمجموعة واسعة من الأبحاث متعددة التخصصات، المرتبطة بطريقة أو بأخرى باستخدام الأدوات المرئية التفاعلية لتحليل البيانات. تنطبق القيمة الثانية على المكون التحليلي الفعلي للتحليلات المرئية، والذي يتكون من أجزاء تلقائية وتفاعلية.

تعد المهام التحليلية جزءًا من أسرع المجالات نموًا في جميع مجالات تطبيقات تكنولوجيا المعلومات - يمكن لأدوات التحليل التلقائي حل بعض هذه المشكلات، وهي قابلة للتطبيق في الحالات التي يتم فيها إضفاء الطابع الرسمي على البيانات بشكل صارم وتوجد معايير معقولة لمقارنتها. ولكن في الحياة الحقيقية وفي الأعمال الحقيقية، نادرا ما يتم ملاحظة هذه القيود، لذلك تأتي أساليب تصور البيانات إلى الإنقاذ. قد تكون هذه أكثر البيانات غير المتوقعة - على سبيل المثال، يتطور الآن بنشاط مجال تصور البيانات النصية (القدرة على إصدار حكم موثوق بشأن محتوى المستندات دون اللجوء إلى القراءة بالتفصيل). التحليلات البصرية تقع عند تقاطع هذين المجالين.

على الرغم من تطوير العديد من طرق التحليل التلقائي للبيانات على مدار 15-20 عامًا الماضية، فمن غير المرجح أن يتم نقل جميع التحليلات إلى الآلة، وعلى الأرجح سيتم بناء التحليلات وفقًا للمخطط الموضح في الشكل. 3. أولاً، يتم استخدام أدوات التحليل التلقائي، وتكييفها مع مجال تطبيق معين، فهي تولد كميات أقل من البيانات مقارنة بالأصلي، ويتم تطبيق أساليب التنقيب في البيانات عليها، ويتم إنشاء نموذج مناسب لمزيد من البحث. تتيح التقنيات المرئية والتفاعلية للشخص تحليل هذا النموذج وتحسينه. يتم تنفيذ معظم الإجراءات في وضع تكراري للاقتراب تباعًا من النتيجة المرجوة. في التطبيقات العملية، قد لا تكون جميع المكونات موجودة (الشكل 3)، ولكن ستكون هناك حلقة ردود فعل مغلقة متكررة على أي حال.

الميزة الرئيسية لحلول اكتشاف البيانات والتحليلات المرئية هي أنها تمكن الشخص من استخلاص ما هو مخفي فيها من البيانات، أو "التحدث" عن البيانات، كما جاء في كتاب الاحتمالية لفريدريك موستلر: "كثيرًا ما يُسمع أن البيانات تتحدث عن نفسها، لكن أصواتهم هادئة ومتواضعة للغاية”.

اسمي آنا بونوماريفا، وأنا محللة ألعاب في Plarium Kharkiv. أطلق قسمنا هذا العام مشروع RPG المحمول Stormfall: Saga of Survival وهو يدعمه الآن. مهمتي في المشروع هي تحليل عمليات اللعبة بسرعة وتقديم التقارير لضبط التوازن بشكل صحيح.

يعد التصور أحد أكثر الأدوات فعالية لعرض البيانات. فهو يسمح لك بتتبع الاتجاهات الرئيسية والتبعيات والتوزيعات والانحرافات للخصائص المدروسة بشكل مرئي، والعثور على ارتباطات المؤشرات، وتقييم التغييرات، والمساعدة في اتخاذ قرارات العمل الصحيحة.

من المهم ليس فقط عرض المعلومات، ولكن القيام بذلك بوضوح وشفافية قدر الإمكان للعميل، مع تسليط الضوء على المؤشرات الرئيسية. سأحاول أن أخبرك بالضبط بكيفية القيام بذلك في المقالة.

ما الذي عليك عدم فعله

في كثير من الأحيان، في محاولة لاستخراج كل شيء من المعلومات المتاحة، يمكن أن ينتهي بنا الأمر إلى شيء غريب ومخيف.

او أسوأ.

تذكر أن الكثير ليس جيدًا. في الوقت نفسه، عند النظر إلى لوحة المعلومات، يجب على المستخدم العثور على إجابات لجميع الأسئلة المتعلقة بتحليل معين. لن يكون من المفيد أن تتطلب الإجابة على أحد الأسئلة تجميع المعلومات من عشر علامات تبويب.

مراحل تحليل البيانات

قبل أن نبدأ في التصور، دعونا ننظر في جميع مراحل تحليل البيانات.

بيان الغرض

يجب أن تجيب كل دراسة على عدد من الأسئلة المطروحة - ليست هناك حاجة لإنتاج دراسات للبحث.

جمع البيانات

في هذه المرحلة، يعمل المحلل إما مع البيانات التي تم جمعها بالفعل، أو يشارك في عملية إعداد مهمة جمع البيانات (في الواقع، يقرر ما هي المعلومات التي يحتاجها وبأي شكل).

في الحالة الأولى، يجب إيلاء اهتمام خاص للتفسير الصحيح للبيانات المسجلة في قاعدة البيانات، وغالبًا ما يتم التعامل مع تنسيق البيانات الحالي وتصميم الجدول وما إلى ذلك. وفي الحالة الثانية، يواجه المحلل المشكلة لبناء سيناريو مختص لجمع البيانات - قد يبالغ بشكل خاص في التخطيط لاختبارات A/B، وتسجيل الأحداث، وما إلى ذلك. يعد التواصل مع المبرمجين أمرًا مهمًا هنا، الذين يمكنهم المساعدة في فهم العمليات وتقييم حجم التسجيلات المخططة.

إعداد البيانات

"القمامة في الداخل، القمامة في الخارج" هي القاعدة التي يجب أن نتذكرها دائمًا. تعد الهيكلة والقضاء على الأخطاء وتغيير تنسيقات المحتوى وتحليل النتائج الشاذة ومسح القيم المتطرفة وإزالة التكرارات ودمج البيانات من مصادر مختلفة من أهم النقاط في تحليل البيانات.

في بعض الأحيان يكون من الضروري توسيع المقاييس، مثل إضافة معلومات حسابية (الربح، الرتبة، العدد، وما إلى ذلك). في بعض الأحيان يكون من الضروري تقليل عدد السمات (المتغيرات) أو التبديل إلى المتغيرات المساعدة التي تأخذ إحدى القيمتين: صحيح (1)/خطأ (0).

في هذه المرحلة، يتم تحويل البيانات الأولية إلى معلومات مدخلة مفيدة للنمذجة والتحليل.

استكشاف البيانات

لتفسير البيانات متعددة الأبعاد بشكل صحيح، من الضروري النظر إليها من حيث خاصية محددة ومجموعة من الخصائص. يجب عليك أيضًا تقديم المؤشرات الرئيسية في الديناميكيات مع الخطط والنتائج الفعلية. في هذه المرحلة يتم تحديد تنسيق التصور المستقبلي.

التصور واستخلاص النتائج

يجب أن تنتهي كل دراسة بالنتائج والاستنتاجات. حتى لو كانت سلبية، فهي تستحق التحدث والمناقشة. في الوقت نفسه، يجب أن تكون الصياغة الصحيحة للمشكلة، ومنهجية جمع البيانات، والتفسير الصحيح للنتائج، والأخطاء المحددة وأكثر من ذلك بكثير بمثابة الأساس للبحث اللاحق.

يعتمد الوقت الذي يقضيه المحلل في كل مرحلة على العديد من المتغيرات: بدءًا من الخبرة العملية ومستوى المعرفة بالبيانات وحتى قائمة الأدوات المستخدمة ومواصفات الكمبيوتر.

من الضروري أيضًا أن نفهم أن عملية تحليل البيانات هي عملية تكرارية بطبيعتها ويمكن تمثيلها كدورة.

لصياغة الاستنتاجات النهائية، من الضروري في بعض الأحيان أن تمر بالدورة عدة مرات. في كل مرة، يتم تحسين البيانات وإعادة بناء نماذج معالجة البيانات وعرضها، واكتساب المزيد والمزيد من المعرفة الجديدة حول الكيان الذي تم تحليله. لتقليل عدد تكرارات هذه الدورة والوقت المستغرق في التحليل، يجب ألا يكون المحلل متخصصًا في البيانات الضخمة فحسب، بل يجب أن يكون لديه أيضًا معرفة جيدة بمجال موضوعه (سواء كان ذلك ميكانيكا الألعاب أو إنترنت الأشياء).

وفي الوقت نفسه، تساعد الخبرة فقط على فهم البيانات وطرق التحليل المطلوبة في كل حالة على حدة وكيفية تفسير النتائج.

اختيار الرسوم البيانية للتصور

لاختيار الرسم التخطيطي الصحيح، يجب عليك أولاً صياغة هدف: ما الذي يجب أن يظهره بالضبط. إذا كانت هناك أهداف متعددة، فقد يكون من المفيد إنشاء مخطط منفصل لكل منها.

كتب جين زيلازني، في كتابه "تكلم لغة المخططات"، أنه (تقريبًا) يمكن التعبير عن كل فكرة باستخدام المقارنة. كل ما عليك فعله هو تحديد نوع مقارنة البيانات:

  • من حيث المكونات: النسبة المئوية للكل؛
  • الموضعية: العلاقة بين الأشياء.
  • زمني: يتغير مع مرور الوقت؛
  • التردد: عدد الكائنات في الفواصل الزمنية؛
  • الارتباطية: الاعتماد بين المتغيرات.

إذا قمنا بالتصنيف حسب الكائنات، يمكننا التمييز بين الأنواع التالية من التصور:

  • التبعيات الحتمية: الرسوم البيانية، والرسوم البيانية، والسلاسل الزمنية؛
  • التوزيعات الإحصائية: الرسوم البيانية، مصفوفات مخطط التشتت، مخططات الصندوق والطرفين؛
  • التسلسلات الهرمية: مخططات الاتصال، وdendrograms؛
  • الشبكات: الرسوم البيانية، المخططات القوسية؛
  • التصور الجغرافي: الخرائط والرسوم البيانية.

ولجعل عملي أسهل، أستخدم مخطط اختيار المخطط الخاص بـ Andrew Abela، والذي أجريت عليه بعض التعديلات وتكيفت مع احتياجاتي.

يمكن الاطلاع على الرسم التخطيطي الأصلي لأندرو أبيل.

اختيار رسم تخطيطي باستخدام مثال محدد

كنت بحاجة إلى إنشاء لوحة تحكم للتحكم في موارد الدخل/النتائج التي يستخرجها اللاعبون أو يجدونها أو يتلقونها كمكافآت. وكانت هذه مهمة معقدة للغاية، وتتطلب تجميع عدة جداول، ومراعاة العديد من الفروق الدقيقة وعدم إغفال مصدر/مستهلك واحد للموارد.

أولاً، وصفت كيفية جمع البيانات، وما هي المؤشرات التي يجب حسابها وكيف يتم ذلك بالضبط، وكيف يجب أن يبدو التصور. ثم قام المتخصصون من قسم Game BI (المسؤولون عن قاعدة البيانات لجميع مشاريعنا) بالتحقق من صحة خوارزمية التجميع، وتحسين الاستعلام وإنشاء لوحة معلومات وفقًا لتصميمي.

لتحديد الرسم البياني، استخدمت التقنية الموضحة أعلاه.

  1. نحن نقارن بين خاصيتين (كمية الموارد المستلمة والمنفقة) - مما يعني أننا نستخدم مخططًا شريطيًا.
  2. لدينا عدة مصادر للحصول على الموارد وطرق إنفاقها - لذلك نضيف هيكلًا إلى المخطط الشريطي (نقوم بتعيين كل مصدر ومستهلك بلونه الخاص).
  3. نحن نتتبع كيف يتغير الدخل واستهلاك الموارد اعتمادًا على يوم اللعبة - نقوم بتعيين المعلمة المقابلة للمحور الأفقي.
  4. لسهولة القراءة، يتم عرض جميع إجراءات الدخل (الإيصال) أعلى المحور الأفقي، والنتيجة (النفقة) - أدناه. يتيح لك ذلك تقييم حجم الفرق بصريًا.
  5. لتوضيح أي فترات من حياة اللاعب يوجد فائض وأيها يوجد نقص في مورد معين، نقوم بتركيب رسم بياني خطي على المخطط الشريطي، والذي يصور حقل الفرق المحسوب.

مثال على الفائض المحدد لأحد العناصر (الرسم البياني الخطي فوق الأشرطة).

مثال على دورة حياة المورد وانتقاله من فئة الفائض إلى فئة نادرة (رسم بياني خطي أسفل المحور الأفقي).

ونتيجة لذلك، يوضح الرسم البياني لدينا تدفق الموارد إلى الداخل والخارج في أيام اللعبة المختلفة ويوضح وجود نقص أو فائض في الموارد.

أردنا أيضًا أن نرى كيف تتأثر حركة الموارد بتعديلات توازن اللعبة. للقيام بذلك، قمنا بتكملة لوحة المعلومات برسم تخطيطي للتغيرات في هيكل الموارد مع مرور الوقت، حيث تم الآن تحديد التاريخ على المحور الأفقي. لذلك حرصنا على مراقبة دورة حياة الموارد في عدة أقسام مميزة: دورة حياة اللاعب وفي الزمن.

الدورية

معظم نتائج الأبحاث تصبح غير ذات صلة بمرور الوقت. يجب تحديث بعض البيانات يوميًا، وبعضها يجب مراقبته شهريًا، وما إلى ذلك. ومن الضروري تصنيف العلامات بوضوح على الفور من حيث تكرار التحديث:

  • تتطلب مراقبة مستمرة (مؤشرات قياسية للاحتفاظ، والتحويل، وما إلى ذلك)؛
  • البيانات التي ينبغي تقييم ديناميكياتها بشكل دوري (نتائج اختبارات A/B، وديناميكيات مجموعة من المستويات، وما إلى ذلك).

مرة أخرى، لا توجد حبة سحرية في هذه المهمة، لأن العلامات التي تحتاج إلى تتبع خاصة جدًا بموضوع الموضوع (نوع اللعبة، والآليات المطبقة، وما إلى ذلك).

لا تزال أتمتة هذه العملية تمثل مشكلة - حيث إن تطوير أدوات للمراقبة المستمرة لجميع المؤشرات على الإطلاق لن يؤدي إلى أي شيء جيد. كما قلنا من قبل، فإن معالجة كميات كبيرة من البيانات تشمل مراحل جمع المعلومات ومعالجتها الأولية، وتحميلها إلى التخزين، وتحليل البيانات وتقديم النتائج في شكل يسهل فهمه. إن متطلبات المعالجة في الوقت الفعلي تجعل المهمة أكثر تعقيدًا واستهلاكًا للموارد.