The Knowledge Graph Cookbook - סיכום ספר

ד"ר מוריה לוי
1 בדצמ׳ 2021
זמן קריאה 6 דקות

עודכן: 12 בפבר׳

גרפי ידע מאפשרים להפוך נתונים ומידע לידע מחובר, מובן ובר־שימוש לארגון ולאנשי AI. הם משלבים ישויות, קשרים, אונטולוגיות וטקסונומיות כדי לשפר חיפוש, אנליטיקה, קבלת החלטות ובינה מלאכותית מוסברת. עבור ארגונים, יישום נכון של Knowledge Graphs מחזק ניהול ידע, משילות נתונים וחדשנות - ומאפשר הפקת ערך עסקי אמיתי ממידע מבוזר ומורכב.

הספר, The Knowledge Graph Cookbook, Recipes that work, הוא ספר שנכתב על ידי Andreas Blumaur בשיתוף Helmut Nagy, ויצא לאור בשנת 2020.

הספר דן בתחום שלאט לאט תופס תאוצה בעולם הבינה המלאכותית, בעולם ה- semantic web, בעולם ניהול הידע ובכלל, בייצוג נתונים ומידע על ידי גרפים.

הרעיון המסדר: גרף ידע עוזר בהפיכת נתונים ומידע לידע!

(לא במקום מערך ניהול ידע, אך בהחלט כחלק ממנו).

להלן מפת הספר המייצגת את הנושאים המרכזיים:

רקע:

מהם Knowledge graphs

שימושי Knowledge graphs

יישום Knowledge graphs בארגון:

הספר מקיף למדי. הוא כולל תיאורי שימוש לטובת מגזרים שונים, וכן נספח רחב של ראיונות עם מובילי דעת ונציגי ארגונים שיישמו.

ניתן ליישמו לטובת צרכים רבים, בין היתר לטובת בינה למלאכותית מוסברת (explainable AI) תחום שמרתק כיום רבים וטובים.

אז לכל אלו שכבר חושבים שניהול ידע קלאסי קטן עליהם ורוצים ללמוד מתודות חדשניות- זה בהחלט תחום חדש, וספר מעניין.

רקע-

מהם knowledge graphs

גרפי ידע הם גרפים, כלומר צמתים וקשרים ביניהם, המבוססים על נתונים .

הגרפים יוצרים ידע בזכות ההבנות החדשות המתקבלות מהתצוגה החזותית.

יש המכנים אותם גם רשתות סמנטיות כי מהווים רשת של מילים המתארים ישויות בעולם האמתי. ניתן להצמיד את המילים הן לכל צומת (ישות בחיים) והן לקשרים, ובכך מקבלים הבנה עשירה יותר (מ.ל.)

הגרף יכול להיות פרטני (מאפיינים של פרטים) או קונספטואלי (מאפיינים של קבוצות):

דוגמה לגרף פרטני:

נלקח מאתר אמזון: https://aws.amazon.com/neptune/knowledge-graphs-on-aws/

דוגמה לגרף קונספטואלי:

נלקח מוויקיפדיה

קצת היסטוריה: בשנת 1976 כתב ג׳ון סווה מאמר מחקרי ראשון על גרפים קונספטואליים. בשנת 1982 הומצאו גרפי הידע הראשונים בהולנד על ידי שני מתמטיקאים. כיום על פי רוב הכוונה למוצרי תוכנה, מבוססי חוקים עסקיים ו/או בינה מלאכותית ליצירה אוטומטית של גרפים אלו מתוך נתוני העתק. הכלים יוצרים בצד הגרפים חוקים עסקיים המייצגים את הכתוב בגרפים. מרכיבי הגרף:

וURI- Uniform Resource Identifier: האובייקטים. כל אובייקט כזה ינוהל כשלשה הכוללת כתובת של הפריט (בו עוסקים), שם של קשר (המציינת תכונה שלו) ושם של תכונה או כתובת של פריט אחר אליו מתייחס. למשל: [כתובת] הוא שניצל וינאי. או- [כתובת] היא חלק מ [כתובת אחרת]. שילוב השלשות יוצר מערך שלם של קשרים ולמעשה את גרף הידע כולו.
וRDF: ייצוג ממוחשב של הגרף. נקרא גם RDF triplestore.
אונטולוגיות וטקסונומיות: הכרחיות כדי למנוע כאוס בגרף אינסופי ללא משמעות עסקית מובנת. מסווגים באמצעותם את התכנים. כוללים גם תזארוס (מילים נרדפות וקשרים בין המילים).
קונספטים: ייצוג של ישות או אובייקט עסקי. הקונספטים מקשורים זה לזה בסכמה, ולכל קונספט יש לפחות שם אחד, ותמיד שם מועדף. למשל : בשר בקר.

חזרה

שימושי knowledge graphs

הצגה חזותית חכמה של הנתונים יכולה לשמש למספר מטרות:

הבנה טובה יותר של נתונים והקשרים ביניהם – מתאר את הזרימה בין המרכיבים. הבנה זו טובה גם לבן האנוש המשתמש בגרף הידע, אך גם לטובת המחשב, למשל שיפור חיפוש (להלן).
שיפור החיפוש כחיפוש סמנטי.
שיפור חווית המשתמש במבוסס על קשרי גרף הידע.
תמצות: הצגת המידע תמציתי (למשל ב- Google Knowledge Graph).
אנליזה: לזיהוי ידע חדש (תרופות), איתור הונאות (fraud). שימושי מאד באנליזות פחות פשוטות, למשל ב- Deep Text Analysis.
שיפור איכות הנתונים (איתור חריגים שאינם נוהגים כמצופה).
ייזום מיכון תהליכים על הנתונים. השתלבות עם RPA.
משילות טובה יותר של הנתונים.
למידת מכונה (אימון המודל, הכנת הנתונים, ועוד).
הסברתיות- explainable AI: אמנם ניתן לראות כחלק מלמידת מכונה אך מאד משמעותי ולכן מצוין להלן בנפרד. תחום משמעותי שצובר תאוצה בגלל חשיבותו כבונה אמון בלמידת המכונה.
מערכות תומכות החלטה (בזכות יכולת ההבנה וההסברתיות המשופרים).
מתן משמעות לנתוני עתק המגיעים מסנסורים ב- Internet of Things. יצירת Graph of Things המבוסס עליהם, והצעת מודל Digital Twin למציאות. שימושי למשל בניהול ערים חכמות.
יצירת הקשר סמנטי משותף בקטלוג כולל לארגון (באמצעות תגיות המקושרות בגרפי ידע).
מבט משותף: 360 על לקוח, נתונים חוצי שפות, הבנה חוצת מערכות, חוצת ארגונים ועוד.

ועוד.

חזרה

היישום בארגון

השותפים

להלן רשימת שותפים אפשרית בארגון:

ענין	בעל תפקיד
ככלי לקידום אסטרטגיית AI. הייתי מוסיפה: ככלי לניהול משילות ומענה לצרכים עסקיים באמצעות כלי תוכנה.	מנהל המחשוב
ככלי ליצור ערך מוסף מהנתונים בארגון.	מנהל הנתונים בארגון / מוביל האנליסטים
להצעת סל פתרונות מקיף לארגון, ויישום התמונה השלמה של יישומי הבינה המלאכותית.	ארכיטקט בינה מלאכותית
אחראי לסנכרון בין הטכנולוגיות והארכיטקטורות השונות לניהול הנתונים.	ארכיטקט נתונים/מידע
עושה שימוש בגרפי ידע כשירות להבנת הנתונים באחריותו.	מהנדס נתונים
עושה שימוש במודלים הנלמדים כתוצאה משימוש בגרפי ידע.	מהנדס למידת מכונה
יצירת טקסונומיות ואונטולוגיות מבוססות נתונים, תוך הסתייעות בגרפי הידע.	מהנדס ידע/ מומחה metadata
בהבנת מודלים המייצגים את הנתונים הקשורים בתחומי התוכן בהם מתמחים בזכות גרפי הידע.	מומחה תוכן
הבנת, ניתוח וחיזוי המתבסס על הנתונים, בזכות גרפי הידע.	מדען נתונים/ אנליסט נתונים
קבלת מענה לצרכים העסקיים, יתכן אפילו ללא מודעות לכלים ולטכנולוגיות השונות המסייעות לכך	משתמש עסקי

חזרה

התהליך

שלבים מומלצים בהכנסת גרפי ידע לארגון:

ייזום:
1. לפני שמתחילים: מחייב בשלות ארגונית לרעיון, בשלות טכנית וגופים תומכים.
2. בחירת התחום
3. הגדרת סדרת התנסויות ופיילוטים (מוגבלים בהיקפם, ולא מורכבים מידי)
הערכה:
1. התנסות והערכה
2. גיבוש אסטרטגיית פעולה, לרבות תכנון (זהיר) של מטרות
אינטגרציה:
1. השקה איטרטיבית מבוססת מקרי הבוחן בהם היתה התנסות.
2. ניהול השינוי
3. הערכה ומדידת הצלחה.
4. אינטגרציה בין פרויקטים ברמה כלל ארגונית (חלופות שונות לאופי ועומק האינטגרציה).

יישום גרפי ידע במספר רמות:

יישום בינה מלאכותית סמנטי
מודלים קונספטואליים ושפתיים של האונטולוגיה והטקסונומיה
גרפי ידע הפועלים על הנתונים (נתונים מספריים, מסמכים ועוד)
רובד התוכן והנתונים עצמם.

שלבים במידול סמנטי של ידע:

הפרדה בין סוגי דברים שונים (למשל- זה לא דומה להוא; אלו כן שייכים למשהו משותף).
מתן שמות לכל סוג (למשל- אלו גבינות שוויצריות).
יצירת עובדות וקישור בין הדברים השונים (למשל גבינה שוויצרית מיוצרת מחלב של פרה).
סיווג הפריטים (זו גבינה, זה עוף).
יצירת עובדות כלליות וקשר בין משפחות-על (גבינה מיוצרת מחלב).
שילוב שפות שונות ליצירת נרדפים לאותם דברים.
העמדת הדברים בהקשרים שונים, והפרדה ביניהם.
מיזוג של דברים בעלי מאפיינים זהים.
מיפוי בין דברים בעלי מאפיינים זהים השייכים לגרפים שונים.
יצירת קשרים חדשים (עובדות) המבוססות על הסקה בין הדברים הקיימים.

מחזור החיים של העבודה עם גרפי ידע:

המשתמש: חילוץ, ניתוח, ויזואליזציה, ממשק, הדרכת מודלים.
המכונה: בליעה, טיוב, העברה, העשרה, קישור האלמנטים ויצירת גרף הידע.
המומחה: ניהול המלאי, חילוץ, יצירת אונטולוגיה וטקסונומיה, טיוב הנתונים, קישור בין הישויות והקונספטים בגרפים שונים.

חזרה

מתודולוגיות תומכות

מתודולוגיות המסייעות ביישום של גרפי ידע על כל מרכיביהם:

הסבר ושימוש	מתודולוגיה
זיהוי נושאים, מתן שמות וסיווג לקטגוריות. ניתן למימוש באמצעות כרטיסיות אמתיות או תוכנות ייעודיות	Card sorting
מתודות לטובת: הבטחת משילות הנתונים מידול תהליכים	ניהול טקסונומיות
כותבי הספר מסבירים מדוע ניהול אונטולוגיות משתנה מפרויקט לפרויקט במתודות האפשריות ליישומו, וכי אין כלי תומך אלא אוסף best practices המסייעים למימוש מוצלח (למשל – הפיתוח האג׳ילי, המיקוד והתיקוף).	ניהול אונטולוגיות
העברת נתונים מובנים לייצוג RDF. יש מספר גישות ליישום, ריכוזיות אחידות, או מבוזרות לפי פרויקט, כאשר לכל אחת היתרונות שלה.	RDFIZATION
העברת נתונים לא מובנים לייצוג RDF. כולל: חילוץ ישויות סיווג התוכן חילוץ עובדות	Text mining כריית מידע
השלב האחרון המאחד בין כל התוצרים המקומיים ומקורות המידע השונים.	Entity linking & data fusion
שימוש בפרוטוקול SPARQL לתחקור הגרפים, בין על ידי המשתמש ובין אם לטובת APIs.	תשאול גרפי ידע
זיהוי נתונים חריגים על ידי הפעלת החוקים העסקיים המיוצגים על ידי גרף הידע על אוסף נתונים, ובחינת מקומות בהם לא מתקיימים.	תיקוף נתונים מבוסס אילוצים
הפעלת מנועי הסקה על מנת להוסיף קשורים או נתונים חדשים לגרפי הידע.	הסקה בגרפים
בחינה איכותית של אחד או יותר מהמרכיבים להלן: קידוד הנתונים, מתן השמות, תכנון האונטולוגיה והטקסונומיה, נכונות, כיסוי, ו/או ביצועים.	מדידת איכות

חזרה

המלצות ליישום knowledge graphs

טיפול ושימוש נכון בגרפי ידע:

התחילו בקטן וגדלו. מדרגו. ישמו באופן AGILE-י .
הכירו את הנתונים המובנים ושאינם מובנים.
בחנו אפשרות רכישת טקסונומיות מוכנות, אל מול יצירתם אוטומטית מהנתונים, או על ידי המומחים. אף גישה בלעדית אינה חפה מחסרונות. החליטו מה הפתרון המיטבי בכל תחום תוכן.
השתמשו ב- metadata ברור (לאנשים ולמחשב). הוא עשיר דיו , בשפה פורמלית והוא בר-שימוש חוזר.
ודאו כי גרף הידע נותן הקשר שמגדיר את הנתונים (למשל מבחין בין אדם וחברה באותו שם).
תכננו כמערך משולב – מארג נתונים (data fabric). לא עוד מאגרים בדידים, מחסני נתונים או אגמים. בחינה דרך עיני השימוש. במארג:

יש רמה סמנטית המקשרת את הנתונים, מקוטלגת ויוצרת הרמוניה;

לטובת צרכים של אנשי הארגון יש גישה לנתוני עתק שלא מובנים והטרוגניים;

לטובת מדעני הנתונים ומדענים בכלל המידע מובנה, מסונן, כולל סכמות, מנוהל ומשולב.

השתמשו בסטנדרטים ומתודות מוכרות לארגון הידע (לא להמציא את הגלגל עם שיטות ייחודיות).
התייחסו לנושא כאמצעי ויזואליזציה, אך לא רק. יישום העושר שמציע, לכל מחזור החיים.
התמקדו באובייקטים העסקיים בהם דן גרף הידע, ולא בגרף עצמו (אמצעי ולא מטרה).
מדדו הצלחה עסקית דרך חסכון באיתור מידע, שילוב מאגרי מידע או באפשרויות החדשות שנוצרו בזכות חיבור הנתונים בדרכים שלא הוכרו קודם לכן.

חזרה

סיכום:

גרפי ידע הם תחום מתפתח ומצליח היות והם מסייעים בהפיכת ידע בראשם של האנשים למידע מפורש גלוי, מובנה ומשותף.

ואנחנו כמנהלי ידע... מה עוד אנחנו צריכים?

חזרה