דניאל דויטש
פרס קריל 2016
אוניברסיטת תל אביב
ד"ר דניאל דויטש (Daniel Deutch)
תחומי מחקר: בסיסי נתונים, ניהול מידע באינטרנט, מערכות לאימות מידע.
בעידן המידע, נתונים בקנה מידה חסר תקדים נאגרים, מעובדים, ונשלחים על ידי מערכות רבות ומורכבות. המערכות מניבות תועלת רבה בתחומים כגון מחקר, רפואה, מסחר אלקטרוני ועוד; אך ככל שכמות הנתונים גדלה ומורכבותן של המערכות גוברת, גדל גם הקושי במעקב אחר הנתונים ואחר עיבודם. כתוצאה מכך נוצרת אי ודאות ביחס לתקינותן של המערכות ולמהימנות התוצאות, ונוצר קושי לשחזר את החישוב ולבסס עליו פיתוחים עתידיים.
במובן מסוים, "הגולם קם על יוצרו": אפילו מפתחי המערכות, וקל וחומר המשתמשים, מתקשים להבין את פעולת המערכות ולוודא את תקינותן.
כדי להתמודד עם אתגר זה, המחקר שלי מתמקד בפיתוח פתרונות טכנולוגיים (אלגוריתמים וכלי תוכנה) לביצוע מעקב אחר המידע ותיעוד החישוב, כמו גם ניתוח תוצאות התיעוד עצמן. מעקב זה מאפשר להסביר את תוצאות המערכת ולבססן, לזהות שגיאות במידה ואלו קיימות, ולשפר את פעולת המערכת.
לדוגמא, מערכות תומכות החלטה לרופאים מתבססות על מידע ביחס לחולים, תסמינים, דיאגנוזות וטיפולים, כדי להמליץ לרופא על אופן פעולה. מערכות שכאלה כוללות כמות עצומה של נתונים ועיבוד מורכב, שתוצאתו היא ההמלצה.
על ידי תיעוד החישוב שהמחקר מציע, נוכל להסיק, ביחס לכל המלצה, באיזה אופן היא חושבה, ובהתבסס על אילו מנתוני הקלט שלה (למשל תוצאות בדיקות או מחקרים קודמים). כך נוכל להציג לא רק את ההמלצה עצמה, אלא גם את הצדקתה.
בנוסף, נוכל לזהות כשלים במערכת ולשפר את פעולתה. למשל, נוכל לזהות האם המערכת הסתמכה בחישוביה על מידע פרטי, או על מידע סטטיסטי בלבד. לכך נודעת חשיבות בכדי לקבוע האם החישוב עלול להפר פרטיות. יתרה מכך, לעיתים החישוב המבוצע ע"י המערכת נזקק בפועל רק לחלק מנתוני החולים, והשמטת נתונים אחרים לא תשנה דבר ביחס להמלצות המחושבות. מפתח התוכנה כלל לא יכול לחזות זאת מראש, שכן התופעה נובעת מהחישובים המורכבים עצמם (שרק מחשב יכול לבצע). אם נזהה מצב עניינים שכזה בדיעבד, חשוב להימנע מלשמור נתונים לא רלוונטיים שכבר נאספו, כדי לצמצם פגיעה בפרטיות, ולהימנע מבדיקות רפואיות מיותרות בעתיד.
תופעות דומות נצפו בהקשרים נוספים, כגון ניסויים מדעיים שמשלבים מערכות שונות ותוצאות מחקרים קודמים, מערכות לומדות ומערכות בינה מלאכותית המסתמכות על נתוני עבר ולוגיקה מורכבת כדי לחזות נתוני עתיד, מערכות לפילוח משתמשים לצורך המלצות תוכן ופרסום, וכדומה.
כיום, במערכות מסוימות כלל לא נעשה מעקב אחר המידע, ובמערכות אחרות נעשה שימוש בפתרונות אשר מפותחים אד-הוק עבורן, ולכן אינם כלליים מספיק. הקושי נובע מכך שמעקב אפקטיבי דורש לא רק את שמירת המידע עצמו אלא גם חלקים מהתהליך החישובי שבוצע. שמירת התהליך במלואו אינה אפשרית מבחינת משאבי חישוב, ולכן יש לזהות ולשמור רק את "החלקים המהותיים" מתוך החישוב.
מטרת המחקר היא פיתוח פתרונות כלליים לתיעוד ומעקב אחר נתונים. תוצרי המחקר הם כלי תוכנה שמתממשקים עם מערכות מורכבות ומבצעים את המעקב בד בבד עם פעולת המערכות. באופן אינטואיטיבי, הרעיון הוא להצמיד "תג-זיהוי" לכל פריט מידע, המאפשר מעקב אחר קורותיו ושימושיו. עבור מידע ממקור חיצוני למערכת (כמו תוצאות בדיקות החולים המוזנות למערכת), תג הזיהוי כולל מידע על המקור (למשל זמן ואופן ביצוע הבדיקה). עבור מידע שחושב ע"י המערכת (למשל "נוסחאות" לחישוב המלצות), תג הזיהוי כולל גם את "אילן היוחסין" של פריט המידע: מידע מקיף על הנתונים ששימשו בחישוב (למשל אילו תוצאות בדיקות שימשו בגיבוש כל נוסחא), כמו גם כיצד החישוב השתמש בהם (למשל, איזו תוצאה של הבדיקה תרמה לכל חלק בנוסחא).
הכלים מפותחים באופן גנרי, כך שיוכלו להתחבר למגוון רחב של מערכות ללא צורך בפיתוח תוכנה ספציפי לכל מערכת. מכיוון שהמידע שנשמר הוא רב, כלי התוכנה מאפשרים גם בניתוח "תגי הזיהוי": על פי קריטריונים שמוזנים על ידי מפתחי המערכות, הכלים תומכים בבדיקות נכונות, זיהוי של הפרת פרטיות ושל שימוש לא מיטבי במידע, וכדומה.
תוצאות המחקר שלי כוללות אפיון וניתוח תאורטי של הבעיות, פיתוח אלגוריתמים יעילים לפתרונן, ושילובם במימושים פרקטיים.