خودکار سازی هرم DIKW، مبنای هوش مصنوعی

۱۴۰۱/۰۳/۲۹

دستکاری اطاعت

ما یه مدلی داریم که سیر تبدیل داده به دانش رو نشون می‌ده به اسم هرم داده یت هرم دانش. این هرم چهار تا سطح داره: داده (data)، اطلاعات (information)، دانش (knowledge)، حکمت (wisdom). DIKW pyramid.

به لحاظ تاریخی منشأ دقیق این هرم مشخص نیست. معلوم نیست اولین نفری که این مدل رو عنوان کرده کی بوده یا از کجا در اومده، ولی برای درک نحوۀ کار چیزایی مثل هوش مصنوعی (ماشین پیش‌بینی) یا موارد دیگه‌ای که تو حوزۀ داده هست خیلی عالیه.

منبع: ontotext.com/knowledgehub/fundamentals/dikw-pyramid

تعریف داده، اطلاعات، دانش
خودکارسازی هرم DIKW
و اما خرد

تعریف داده، اطلاعات، دانش

Data: داده مربوط به اولین قدمه. تقریباً امروز تو عصر دیجیتال هر چیزی که قابلیت دیجیتالی شدن رو داشته باشه داده محسوب می‌شه. یه طیف خیلی خیلی وسیع. از عکسای ماهواره‌ای گرفته تا اطلاعات بیومتریک آدما.

ریشۀ واژۀ «داده‌ها» یا «داده» از جمع لاتین datum به معنی «چیزی که داده می‌شه (the thing that’s given)» یا «داده شده ((thing) given)» مشتق می‌شه. datum صفت فعلیِ ماضیِ خنثایِ do تو لاتینه. do تو لاتین می‌شه «دادن (to give)» که با «دِه (حال)» یا «داد (گذشته)» تو زبون فارسی هم‌ریشه‌اس. با این مقدمات باید «داده» رو اون چیزی بگیریم که داده شده. شاید «دِهِش».

استفادۀ کلاسیک این واژه در گذشته به معنی «فکت یا واقعیتی که به عنوان مبنا برای محاسبه تو مسائل ریاضی ارائه شده» استفاده می‌شده. می‌شه گفت داده «هر چیزیه که بشه اون رو ثبت و ضبط کرد و بعداً مورد استفاده قرار داد. مثل واژه‌های همین مطلب». [کلان داده، برایان کلِگ، ص ۱۹]

این معنایی که ما از «داده» تو عصر حاضر داریم تقریباً بعد از اختراع اولین ماشین‌های محاسبۀ الکترونیکی (computer) شکل گرفته؛ تقریباً بعد از دهۀ ۴۰ میلادی. جایی که این ماشین‌های محاسبه‌کننده تونستن عملیاتی روی داده‌ها پیاده کنن که انسان‌ها با ابزارهای قدیمی‌تر نمی‌تونستن انجام بدن.

دنبال اختراع کامپیوترها و پیشرفت اونا تو جریان محاسبه، واژه‌هایی مثل Data-processing (پردازش داده‌) تو سال ۱۹۵۴، data-base (پایگاه داده) تو سال ۱۹۶۲، data-entry (وارد کردن داده) تو سال ۱۹۷۰ شکل گرفتن و واژۀ «کلان داده» (big data) برای اولین بار تو اوایل دهۀ ۹۰ میلادی مورد استفاده قرار گرفت.

این دهه تا سال ۲۰۰۰ که می‌شه گفت آغاز «عصر دیجیتاله» مرحلۀ گذار از دستگاه‌های ثبت آنالوگ به دیجیتاله. با پیشرفتی که تو وسایل ذخیره‌سازی دیجیتال نسبت به دستگاه‌های آنالوگ که توان ذخیره‌سازیِ خیلی کمتری داشتن به وجود اومد، کلان داده به معنی داده‌های خیلی زیاد و مختلف جایگاه خودش رو تثبیت کرد. البته در حال حاضر حجم داده (Volume) فقط یکی از ویژگی‌های معرف کلان داده مثل شتاب، صحت یا گوناگونیه.

Information: وقتی اون داده‌هایی که به هم مرتبط هستن رو با نظم خاصی کنار هم می‌ذاریم اطلاعات می‌سازیم. کتاب یک انبار اطلاعاتیه.

ما داده‌های مرتبط را کنار هم می‌گذاریم تا چیزی معنادار دربارۀ جهان به ما بگویند. [کلان داده، ص ۱۹]

مثلاً اینکه کارمندای من هر کدوم چه ساعتی میان و می‌رن داده به حساب میاد. چیز خاصی از نگاه کردن به اعداد پخش و پلای ساعتای ورود و خروج که معلوم نیست برای چه کسیه نمی‌فهمم.

وقتی این اعداد رو میام با چینش خاصی کنار هم توی یه جدول تو برنامه اکسل می‌چینیم، تمام ساعت‌های ورود رو تو یه ستون، تاریخ رو تو یه ستون دیگه، برای هم فرد مثلاً یه شیت جداگونه می‌ذارم یا حالتی که بشه تک‌تک کارمندها رو بر اساس نام یا چیزای دیگه فیلتر کرد و چیزای این شکلی اطلاعات ساختم.

الان با یه نگاه به جدول کلی اطلاعات گیرم میاد. مثلاً با یه نگاه می‌فهمم فلان کارمند فلان روز کی سرِ کار اومده و کی رفته.

Knowledge: دانش، اون تعبیر و تفسیر ما از اطلاعاته. کشف یه همبستگی خاص بین اطلاعات. یه جورایی دوباره سرِهم کردن اطلاعات و مرتبط کردنشون با هم برای کشف یه چیز جدید.

مثلاً تو ادامۀ مثال بالا من با مرتبط کردنِ فقط ساعت‌های ورود با هم و محاسبۀ میانگین ساعت ورود متوجه می‌شم طی برج ۵ و ۶ میانگین ساعت ورود به اندازۀ ۲۰ دقیقه بالا رفته. حالا پیگیر این ماجرا باید این موضوع رو تفسیر کنم.

احتمال اول: چون ماه محرم و صفر بوده این اتفاق افتاده.
احتمال دوم: به خاطر شروع مدارس بوده.
احتمال سوم: حقوق کارمندا تو ماه‌های گذشته به موقع پرداخت نشده.
احتمال چهارم: انگیزۀ کارمندا پایین اومده.

مطمئناً نظر دادن راجع به این موضوع تو این شرایط با دونستنِ یه اطلاعاتی مثل دیر اومدنِ کارمندا تو برج ۵ و ۶ خیلی سخته. پس برای دقیق‌تر شدنِ داستان بازم اطلاعات خاصی رو با توجه به چیزی که دنبالش هستم کنار هم می‌چینیم تا بتونم اطلاعات بیشتر و دقیق‌تر و به تبع اون دانش محکم‌تر و متقن‌تری به دست بیارم.

این مرحله پایۀ تصمیمات من در مورد نحوۀ ادارۀ شرکت، برخورد با کارمندا و کلی تغییرات دیگه‌اس که تو سیستم من منعکس می‌شه.

پس هر چی داده‌های بهتری داشته باشم، بتونم از این داده‌ها اطلاعات تمیزتری بسازم و از این اطلاعات دانش دقیق‌تری به دست بیارم می‌تونم تصمیمات بهتری بگیرم و عملکرد قوی‌تری داشته باشم.

Wisdom: یکم جلوتر راجع بهش حرف می‌زنیم.

مثال: داده ممکن است مجموعه‌ای از اعداد باشد. تنظیم این اعداد در یک جدول برای نشان دادنِ مثلاً تعداد ماهی در ناحیۀ مشخصی از دریا، ساعت به ساعت، به ما اطلاعات می‌دهد. و کسی که از این اطلاعات استفاده می‌کند تا تصمیم بگیرد بهترین زمان ماهیگیری چه موقع است دارای دانش است. [کلان داده، ص ۲۰]

خودکارسازی هرم DIKW

وقتی به عقب برگردیم، می‌بینیم که اولین شکل‌های ثبت و ضبط داده روی الواح گلی و بعد از اون روی پوست حیوانات و بعدشم روی کاغذ انجام می‌شده.

این داده‌ها توسط بشر از هون اوایل توسط ابزارهایی مثل چرتکه، به اطلاعات تبدیل می‌شده و انسان‌ها از این اطلاعات دانش به دست میاوردن و توی تصمیماتشون استفاده می‌کردن.

اتفاق مهمی که باید بهش توجه داشته باشیم ساخته شدن کامپیوترهای الکترونیکی و در ادامۀ اون ورود ما به عصر دیجیتال تقریباً از سال ۲۰۰۰ میلادی به این طرفه.

با وجود کامپیوترهایی که توان محاسبات خیلی بالا و سریع دارن و از طرفی می‌تونن داده‌ها و اطلاعات زیادی رو ثبت و ذخیره کنن، ما وارد فاز جدیدی شدیم. اتفاقی که برای اولین بار تو طول تاریخ بشر در حال رخ دادنه. اتوماسیون و خودکار شدنِِ بالا رفتن از هرم DIKW.

یعنی الان واسطۀ انسانی از تمام مراحل ثبت و ذخیرۀ داده، کنار هم چیدنِ داده‌ها و محاسبات برای به دست آوردن اطلاعات و در نهایت استخراج دانش و تصمیم‌گیری حذف شده. تمام این مراحل توسط ماشین انجام می‌شه.

البته تو تمام مواردی که هوش مصنوعی در حال فعالیته واسطۀ انسانی به طور کامل حذف نشده. مخصوصاً تو قسمت آخر یعنی به دست آوردن دانش و تعبیر و تفسیر اطلاعات.

این مبنای چیزیه که امروز بهش می‌گیم هوش مصنوعی. اتفاقی که فقط با دیجیتالی شدنِ داده‌ها و توان بالای محاسباتیِ کامپیوترها امکان‌پذیره. مطمئناً در آینده افزایش توان محاسباتی و یا تغییر شکل داده‌ها از بیت به کیوبیت این جریان تشدید و تقویت می‌شه.

یه نمونۀ ساده از خودکارسازی حرکت از پایین هرم تا بالای اون: مثلاً همین اینستاگرام یا پلتفرم‌های مشابه، داده‌های ما رو ذخیره می‌کنن، این داده‌ها رو پروفایل و دسته‌بندی و منظم می‌کنن و از این اطلاعات در مورد ما و رفتار ما دانش به دست میارن و درنهایت تصمیم‌گیری می‌کنن که چه کاری انجام باید بدن و اون کار رو هم انجام می‌دن (تمام این مراحل به صورت خودکار انجام می‌شه، بدون دخالت انسان). چیزی که ما اینور می‌بینیم یه سری پسته که تو صفحۀ اصلی برنامه ظاهر می‌شه.

به این قواعد و روش‌هایی که به جمع‌آوری داده تا مرحلۀ آخر مربوطه می‌شه می‌گن: الگوریتم.

و اما خرد

راجع به مرحلۀ آخر تو این هرم خیلی حرف خاصی زده نشده. حرف اینه که خرد اول درست و غلط (right & wrong) بیرون می‌ده و دوم چکار باید بکنم و چکار نباید بکنم (should to do & should not to do).

به این ترتیب خرد به دو بخش نظری و عملی تفکیک می‌شه. حکمت نظری خوب و بد رو مشخص می‌کنه و از هم تمیز می‌ده و حکمت عملی اینکه چه کاری خوبه و باید انجام بشه و چه کاری بده و نباید انجام بشه.

به‌نظر می‌رسه اگر دانش به این مرحله نرسه عملاً برای انسان فایدۀ زیادی نداره. یعنی من با گرفتن اطلاعات و دونستن یه چیزایی آمادگی این رو پیدا کردم که بتونم چیز درست از غلط رو تشخیص بدم و بر اساس اون عمل کنم. به تعبیر قدما این قابلیت برای عقل پیدا شده که بالفعل بشه.

به یه معنی تو مرحلۀ knowledge، دانستن یا knowing اتفاق میفته و تو مقام wisdom، فهمیدن یا understanding. فهمیدن نسبت به دونستن ادراک عمیق‌تریه.

بحث خرد به فارسی یا عقل به تازی یا ویسدام به انگلیسی بحث خیلی دقیق و وسیعیه که جمع کردنش از عهدۀ یه کسی مثل من بیرونه ولی تا اونجا که مربوط به جریان هوش مصنوعی بشه فکر کنم کافی باشه چیزایی که گفتیم.

حالا حرفی که پیش میاد اینه که آیا ماشین یا هوش مصنوعی توانِ رسیدن به خرد رو داره یا درنهایت می‌تونه به knowledge برسه؟

اون چیزی که مسلمه اینه که هوش مصنوعی توی خیلی از موارد بعد از یادگیری و پیش‌بینی دست به تصمیم‌گیری می‌زنه (مثال اینستاگرام که قبل زدیم). ولی آیا اسم این تصمیم‌گیری رو می‌تونیم یه تصمیم‌گیریِ خردمندانه یا عاقلانه بذاریم؟

این موضوع رو تو ذهنت داشته باش و پیگیری کن تا ببینی چی می‌تونی به‌دست بیاری.

اساساً برای جواب این سؤال ما باید تفاوت‌های تصمیم خردمندانه و غیر عاقلانه رو تفکیک کنیم. دقیق‌تر باید عقل رو تعریف کنیم و اینکه جایگاه دانایی کجاست و چیزهایی به این شکل.

خلاصۀ مطلب اینکه روی این هرم حرف زیاد می‌شه زد. امیدوارم از این اطلاعات به دانش و بالاتر از اون به فهم مطلب برسی که بین دانایی و دارایی خیلی فاصله‌س.

برتراند راسل در مقاله‌ای که برای سَتردی‌ایونینگ‌پست نوشت، ادعا کرد که به چیزی بیش از دسترسی موسع به دانش (knowledge) نیاز داریم؛ ما به حکمت (wisdom) نیاز داریم که طبق نظر راسل، ترکیبی بود از دانش و اراده و احساس. ایدۀ راسل سرراست و ساده بود: رشد دانش بدون رشد حکمت خطرناک است!
[اینترنت ما، مایکل پاتریک لینچ، ص ۲۶]