ביג דאטה הוא ה buzzword החדש בשכונה, והוא עולה חדשות לבקרים בדיונים העוסקים בהפקת תובנות עסקיות מנתונים לא מובנים כמו טקסט ותמונות.
הציפיות הן לגידול שנתי של 100%. Facebook למשל מנהלת 100 Petabytes במערכת הביג דאטה שלה. הערך הכלכלי של מידע זה הינו עצום. על פי הערכות, שימוש מושכל בביג דאטה יכול לשפר את הרווחיות התפעולית של חברות קמעונאיות ב 60%, ולייצר ערך מוסף של כ 300$ מיליארד בשנה לחברות המספקות שירותי בריאות, ע"י הפחתה של כ 8% בעלויות השירותים. המידע עצמו הינו רבגוני ומגיע ממקורות שונים כמו רשתות חברתיות, מיילים, בלוגים, Weblogs, אתרי קניות מקוונים, ועוד.
יישומים נפוצים הם Sentiment Analysis הנועד להבין מה הלקוחות חושבים על הארגון ומוצריו מתוך ניתוח התבטאויות ברשתות חברתיות, מיילים, והתבטאויות ב customer Review באתרי קניות מקוונים, ומאפשר פילוח העדפות וטעמי הלקוח, מודיעין עיסקי על מתחרים וספקים שניתן להפיק מידיעות ברשת ומתנועות באתרי קניות מקוונים, בניית פרופיל לקוח ע"י שילוב מידע "רך" המגיע ממיילים, Chats וסיכומי מפגש ממערכות CRM יחד עם מידע מובנה, ועוד.
ככלל, ניתן לומר שבעוד שכולם מבינים את הפוטנציאל העצום הטמון ב Big data, מעט מאד יודעים כיצד לנהל אותו וכיצד להפיק ממנו תובנות בצורה יעילה ו cost effective.
אירגון המידע, פיענוחו, וניתוחו מחייבים שימוש באלגוריתמים מתוחכמים מתחומי ה text analysis ו machine learning. ניתוח כמות עצומה של מידע לא מובנה במהירות ובעלות נמוכה מחייב עיבוד מקבילי תוך ביזור המידע ועיבודו בין מספר רב של מחשבים סטנדרטיים. הפתרון התשתיתי לאיחסון, ניהול ותיחקור Big Data מבלי להשתמש במחשבי על, מתבסס על טכנולוגיה בשם MapReduce שפותחה ע"י Google לניהול ועיבוד מקבילי של כמויות אדירות של נתונים. ה framework הסטנדרטי למימוש טכנולוגיה זו נקרא Hadoop , שפותח ע"י Apache כ open source. טכנולוגיית Hadoop היא תשתית תוכנה המחברת עשרות, מאות ואלפי שרתים בסיסיים וזולים לסביבה מחשובית אחת בצורה פשוטה.
תהליך העיבוד הוא דו-שלבי ומתבצע במקביל במחשבי ה cluster, כאשר כל יחידה פועלת באופן עצמאי ובלתי תלוי על הקבצים (או חלקי הקבצים) שהוקצו לה ע"י הפלטפורמה. התוצאה משלב ה Map מועברת למחשבים המבצעים את שלב ה Reduce, תוך צמצום כמות הנתונים המועברת בין מחשבי ה cluster למינימום הכרחי.Hadoop היא פלטפורמה ג'אווה, אך ניתן להפעיל מתוכה פונקציות שנכתבו בשפות אחרות כמו Python ו C++.
פלטפורמת Hadoop כוללת שני רכיבים עיקריים:
Distributed File System – תשתית לניהול ואירגון מבוזר, המאפשרת פיצול קבצים גדולים לחלקים קטנים ופיזורם לתחנות רבות ב cluster, תוך תמיכה ב redundancy וניהול שגויים. הפלטפורמה אחראית לניהול משימות מקבילי ולהעברת תוצאות העיבוד משלב ה Map לשלב ה Reduce.
MapReduce – framework דו-שלבי המאפשר הרצה במקביל של פונקציות יישומיות, תוך הסתרת המורכבות של העיבוד המקבילי מהמפתח. תהליך הפיתוח מתמקד בפונקציות היישומיות, כולל פונקציות לעיבוד שפה טבעית (Natural Language Processing – NLP) ופונקציות סיווג מתחום ה Machine Learning Classification, Clustering) ). כפי שרומז השם, MapReduce כולל רכיב Map ורכיב Reduce. שלב ה Map מקבל זוגות Name-Value ומפעיל עליהם פונקציות עיבוד מידע. ה Name-Value נקבע על פי היישום, למשל: <HTML file name, HTML file> . פונקצית ה Map מופעלת במקביל ובאופן בלתי תלוי על כל המחשבים ב cluster. תוצאות שלב ה Map מועברות ע"י הפלטפורמה לשלב ה Reduce שמבצע את עיבוד הסופי, כאשר גם הוא יכול להתבצע במקביל. ניתן כמובן לממש שלבי ביניים בהתאם לצורך.
דוגמה: מערכת שבונה inverted index על כל המסמכים באירגון, כולל מיילים, קובצי HTML, ועוד.
ה Distributed File System מעביר את קבצי ה input למחשבי ה cluster (כולל פיצול קבצים גדולים בין כמה מחשבים ושיכפול קבצים לצרכי (redundancy, בשלב ה Map מתבצע parsing של כל מסמך (או חלק של מסמך) באמצעות פונקציות NLP ומופקים זוגות <word, document ID>. ה Reduce מקבל את כל הזוגות המתייחסות למילה מסוימת, ממיין אותם על פי document id, ומפיק זוג לכל מילה, כאשר הזוג מורכב מהמילה ומרשימת המסמכים שהמילה מופיעה בהם: < <word, list(document ID)
אופיסופט כחברה מובילה בתחום ה BI מחוייבת לספק פתרונות אינטגרטיביים בפלטפורמת ה Business Analytics. בימים אלו התחלנו פרוייקט ראשון בתחום הביג דאטה, מתוך כוונה להיות מובילים גם בתחום זה, ובכך להמשיך להוביל את תחום ה- BI.