משפחתובלוגיה

על חיפושים ועל מציאות

header

אינטרנטיזציה של המחקר המשפחתי (או: "מורשת ברשת" מחדשת ומרגשת)

22 באוגוסט, 2007 מאת ארנון · 5 תגובות

מעטים עד מאד הם הרגעים בחייו של הגנאלוג – החוקר את תולדות משפחותיו על פי הבנתו ועל פי דרכו – בהם הוא ניצב נפעם אל מול פריצת דרך טכנולוגית/מדעית המאפשרת לו לפתוח דלתות עליהן כלל לא ידע קודם לכן. כך, למשל, ניצבתי אני נפעם בכל פעם שהתגלו בפניי מאגרי מידע עצומים בהם ניתן לחפש בקלות, מבלי לקום מן הכסא שמול מסך המחשב, ולהגיע תוך זמן קצר לקרובי משפחה חדשים ומתרגשים; כך, למשל, כאשר הבנתי לראשונה את הכח של המידע המוצפן בקרבנו בהבנת קשרים משפחתיים; וכך, למשל, כאשר "דפדפתי" בספרי "יזכור" המונחים להם אי-שם על מדפי הספריה הציבורית של ניו-יורק. פרדוקסלי כמה שיישמע הדבר, חידושים כגון אלו "מאלצים" אותנו לעבוד קשה הרבה יותר לעומת אפס המאמץ לו נדרשנו בעידן האין-גישה. נכון הוא שחיפוש מקוון במפקדי האוכלוסין בארצות הברית הינו מהיר וזול הרבה יותר מאשר טיסה+נסיעה לארכיון אמריקאי על מנת לעיין בהם – אך בפועל לא נסעתי לשם גם לפני פרסום המפקדים, וסביר להניח שלא הייתי נוסע לצורך כך לולא פורסמו, כך שמבחינתי נוספה לי עבודה רבה.

מעטים עד מאד הם הרגעים בחייו של הגנאלוג – החוקר את תולדות משפחותיו בעמל רב, כמעט ביגיע-כפיים, ובנוהל איטי ומוקפד – בהם הוא ניצב נפעם אל מול פיתוחים טכנולוגיים המאפשרים לו לעבוד פחות ולכסות "שטח" נרחב הרבה יותר. הנה דוגמא שהלהיבה אותי וממחישה היטב את הנקודה: נניח שאתם רוצים לחפש אנשים הנושאים שם משפחה נדיר בכל מיני מאגרים גנאלוגיים (ולא רק), ונניח שהצלחתם לאתר 200 מאגרי מידע רלוונטיים, ונניח שבכולם ניתן לחפש בשיטת Soundex (הנחה בלתי סבירה בעליל) – כמה זמן ייקח לכם לחפש אנשים הנושאים את שם המשפחה הנדיר במאגרים אלו? ונניח כעת שחלק מן המאגרים מתעדכנים מדי פעם – באיזו תדירות תחזרו לבצע את החיפוש? אחרי שעניתם על כל השאלות הללו, נסו לחשוב מה היה קורה אם הייתם יכולים לחפש ביותר מ – 1,000 מאגרי מידע רלוונטיים בלחיצת כפתור אחת! את החלום הרטוב הזה כבר הגשימו לנו אנשי MyHeritage (בשמה העברי: "מורשת ברשת") כאשר העלו לאוויר, לפני כשנה וחצי, את אתר האינטרנט שלהם ובו (מעבר לדברים רבים אחרים) אפשרות החיפוש הזו, ומאז הדבר לא נראה דמיוני כלל וכלל[1].

מבין הפנטזיות המדעיות-טכנולוגיות המעסיקות אותי בשנים האחרונות, היתה אחת בה הייתי טרוד במיוחד: כיצד ניתן לזהות, בתוך מאגר עצי משפחה גדול, קשרים בין עצים קיימים? כיוון שעצי משפחה קשורים בעבותות למונחים בסיסיים מתורת הגרפים (ענף מרתק במיוחד, ואהוב עליי אישית, של המתמטיקה), קל לנסח את הבעיה בצורתה המתמטית. עם זאת, פתרון לבעיה דורש לא רק תחכום ויצירתיות גנאלוגיים (אשר חורגים מענייני האלגוריתמים), אלא גם יעילות יישומית. לאחרונה, נראה שזז משהו בכיוון הזה, עם כניסתה לשוק הרשתות-החברתיות-הגנאלוגיות[2] של חברת Famillion (למרות ההילה חובקת-העולם, משרדי Famillion, בדיוק כמו משרדי MyHeritage, יושבים בארץ הקודש) אשר הצהירה קבל עם ועדה מעל כל במה אפשרית, כי ביכולתה הטכנולוגית למזג עצי משפחה ולהקים "עץ משפחה עולמי" אחד, בו יהיו כל שני בני אנוש קשורים זה לזה. (להבדיל, גם אנשי Geni מצהירים כי הם מעוניינים לחבר את כל יושבי-כדור-הארץ בעץ משפחה אחד, אך שם המשימה מוטלת על המשתמשים, אשר באפשרותם למזג עצים בעצמם.)

וכעת – מפתיעים אנשי MyHeritage עם גירסה חדשה (גירסה 2) לתוכנה שלהם, MyHeritage Family Tree Builder (להלן: FTB), הפוסעת צעד נוסף לכיוון מיזוג אוטומטי של עצי משפחה וחסכון ניכר בזמן מחקר יקר. גירסה 2 של התוכנה זמינה באתר החברה החל מלפני שעות אחדות, ואנו מדווחים עליה כאן לראשונה. הבשורה הגדולה שבגירסה החדשה היא מנגנון SmartMatching, המאפשר לזהות אדם (וליתר דיוק, תא משפחתי מצומצם) בתוך מאגר המידע הגנאלוגי הענקי של משתמשי התוכנה ומערכת האתרים של החברה.

SmartMatching הינו אלגוריתם חכם, עליו עמלו אנשי החברה במשך זמן רב. לאחר שבועות רבים של עבודה מאומצת ומחקר גנאלוגי ואטימולוגי – חשים כיום בבית החברה בבני-עטרות כי בידם מוצר משובח למדי, המסוגל לזהות מופעים שונים של אותו אדם, גם אם השוני בין שני המופעים גדול מן הדמיון. כך, למשל, תוכל לזהות המערכת החכמה את יוס'קה עם יוסי ואת ציפינ'קה עם פייגה (האם תזהה המערכת כי, לעתים, משה הוא בוגי, בנימין הוא פואד ויצחק הוא בוז'י? צוחק).

אחד היתרונות הגדולים של האופן בו מיושם SmartMatching בתוכנת FTB – שהיא חינמית וקלה מאוד לתפעול – הוא באופן הידידותי והשקוף-למשתמש בו הוא משולב בה. איך מתבצע הדבר בפועל? מיד לאחר הזנת/עדכון פרטיו של אדם, תוכלו להבחין לשתי שניות בערך באייקון אפור קטן, המופיע בפינת התיבה של האדם שזה עתה עדכנתם ובתיבות של קרוביו מדרגה ראשונה, ומסמן את ביצוע הבדיקה (ראו תמונה למטה). אם נמצאה התאמה – הרי שהאייקון הופך לירוק תמידי, ולחיצה עליו מציגה, בצורה חיננית להפליא, את ההתאמות שנמצאו (הדגמה של מצב זה תובא כאן בהמשך). אם לא נמצאה שום התאמה – האייקון נעלם.

sm1.jpg

בתמונה למעלה (ליחצו להגדלה): רגע בדיקת ההתאמות על ידי אלגוריתם SmartMaching בתוכנת FamilyTreeBuilder (לאחר שינוי בפרטים של Miriam Brumberg, במרכז מצד ימין). שימו לב לאייקון האפור המופיע בתיבה של מרים, בתיבות של ילדיה ובתיבות של הוריה, ומסמן את פעולתו של האלגוריתם.

בתמונה למטה: תוצאות מוצלחות לבדיקת התאמה, עבור משפחת רבינוביץ (האמיתית!) וחוקריה המאושרים.

תוצאות התאמה מוצלחת

יתרון גדול נוסף הוא במאגר המידע הגנאלוגי העצום המצוי ברשת החברתית-גנאלוגית של המשתמשים באתר החברה. על אף גודלו של המאגר, הבדיקה מתבצעת במהירות גבוהה ביותר. ברור למדי שהסיכוי להצליח בהתאמתו של אדם לאוסף אנשים המצויים בתוך מאגר מידע – ובהנחה שאלגוריתם החיפוש הגיוני ויעיל – עולה ככל שמאגר המידע גדול יותר. מספרי הנרשמים למערכות השונות מצביעים על היתרון הפוטנציאלי הגדול של MyHeritage לעומת מתחרותיה (המספרים לקוחים מדפי האינטרנט של החברות; המונחים משתמשים/פרופילים/עצים לקוחים אף הם מאותם המקורות; שימו לב שכל המספרים הללו אינם מעידים על גודלו של המאגר הגנאלוגי הכולל המצוי בידי כל אחת מן החברות):

  • MyHeritage – ‏ 17,000,000 משתמשים (ועצים הכוללים 160 מליון אנשים!)
  • Geni – ‏5,000,000 פרופילים (נכון ל – 2 ביולי 2007)
  • Famillion – ‏1,000,000 עצים (הצפי של החברה לסוף שנת 2007)

אגב, למי שבקיא בשדה התוכנות הגנאלוגיות, תישמע החדשה בדבר אלגוריתם SmartMatching ישנה למדי, ואולי אפילו בעייתית במיוחד, שהרי אלגוריתם בשם זהה פועל כבר כמעט חמש שנים בתוכנת FamilyTreeLegends ובאתר GenCircles.com. שני אלו (התוכנה והאתר) הינם מוצרים של חברת Pearl Street Software, אשר הציעה עצמה למיזוגים ורכישות לפני מספר חודשים. מי שהתמזגה עם חברת רחוב הפנינה מקולורדו, היא לא אחרת מאשר… חברת MyHeritage הישראלית (האם גם זה פרסום ראשון? אולי…). וכך, קיבלו לידיהם אנשי MyHeritage את אלגוריתם ההתאמה החכמה, וכל מה שנדרש להם לעשות הוא… לשפר אותו פלאים.

השיפור, כאמור, כלל שבועות רבים של מחקר על שמות ועל פיתוחים טכנולוגיים. בנוסף, תודות למיזוג נהנים אנשי MyHeritage (והמשתמשים, כמובן!) ממאגר עצי המשפחה המצוי ברשות Pearl Street Software – דבר המסייע רבות בהעלאת הסיכוי למציאת התאמה.

* * *

האם מיזוג העצים האוטומטי מסמן את קיצו של המחקר הגנאלוגי הבסיסי, המנסה לאתר מידע אודות אבות קדמונים ולתור אחר קרובי משפחה בלתי-ידועים? האם לא נצטרך יותר להתאמץ על מנת לאתר קרובים-אבודים, על בסיס פיסות מידע קטנטנות שמובילות אותנו במסלולים פתלתלים לעבר סוף בלתי ידוע? האם כל מה שנצטרך לעשות, הוא להעלות לרשת את הידוע לנו ולתת לאלגרותימים חכמים לאתר עבורנו את מי שכבר מתחברים אלינו? האם נוכל למצוא אנשים בקלות, ולהימצא בקלות, רק על ידי העלאה לרשת של הידוע לנו? נדמה לי שהתשובה לכל השאלות הללו היא אחת: לא!

זאת, בראש ובראשונה מסיבה אחת ברורה. על מנת שיתרחש הנס, צריכים להיות מרוכזים באותו מאגר מידע "כל" הפרטים הגנאלוגים הידועים לכל האנשים בעלי פוטנציאל להיות מקושרים. בעבר, כבר דנו כאן בתרחיש הדמיוני על פיו כל אדם יזין את הידוע לו, מבחינה גנאלוגית, לבלוג משלו – תרחיש דמיוני להחריד. אמנם, העלאת עץ משפחה – נניח של בני המשפחה עד לדור הסבים ומטה, על פי מה שידוע – היא משימה פשוטה הרבה יותר, אך גם זו – סביר שלא תתרחש בתפוצה הנרחבת הדרושה לצורך ביצוע יעיל של משימת האיתור-לכל.

האם, לאחר שיעלו כולם את עצי המשפחה-הקרובה שלהם לרשת, יוכלו האלגוריתמים החכמים לחבר את כל בני האדם אלו לאלו? תיאורטית, התשובה צריכה להיות: כן! בפועל, קשה יהיה לבחון אותה. הרשו לי להמר כי מספר החיבורים אשר יימצאו על ידי המערכות החכמות הללו (הן של MyHeritage והן של Famillion) לא יעלה על תריסר בשנה. הלוואי ואתבדה!

בבדיקה מקדמית שערכתי אני, העליתי את עץ המשפחה שלי למערכת של חברת MyHeritage, על מנת למצוא התאמות במאגר העצום. חשוב לציין כי בשלב בו בדקתי את פעילות האלגוריתם, עדיין לא היה המאגר מוכן במלואו לפעולת האלגוריתם החדש. בפועל, לא נמצאה התאמה בין העץ שלי לבין העצים האחרים במאגר, אך אני אשוב ואבדוק זאת לאחר שהמאגר הגנאלוגי של MyHeritage יסיים את היערכותו למשימה. את אלגוריתם ההתאמה של Famillion טרם בדקתי, וזאת משום שטרם הועלה לשם עץ המשפחה שלי במלואו.

____________________________________________________________


[1] חשוב לציין כי חיפושים במקביל של שם אחד במאגרי מידע רבים הוא דבר מוכר ומקובל בו מתהדר כל אתר גנאלוגי אשר ברשותו מאגרי מידע רבים. החידוש כאן היה ביכולת לחפש במאגרים אשר הינם חיצוניים לאתר.

[2] התייחסות תמציתית לגל הגואה של רשתות חברתיות-משפחתיות-גנאלוגיות מובאת בהקדמה לראיון עם גדעון גרינשפן (מקים אתר FamilyEcho.com) שהבאנו כאן לראשונה לפני כארבעה חודשים.

Share

5 תגובות↓

  • 1 מרק // 25 אוג, 2007 בשעה 13:53

    ארנון, כתבת דברים מאד מעניינים כאן!
    ניסיתי את תכונת “מציאת התאמה” של הגרסה החדשה של התוכנה וכפי שציפיתי – לא נמצאה התאמה לאף שם מתוך 32 שמות משפחה ייחודיים שהיו בעץ ושהעליתי לאתר של “מורשת ברשת” לצורך כך.

    האם זה מעיד במשהו על אופיו, גודלו ואיכותו של המאגר שלהם? כן ולא. כדוגמא, אפשר לקחת את ג’וישג’ן. כ-80,000 חוקרים שרשומים באתר יצרו כ-400,000 רשומות של כ-100,000 שמות משפחה ייחודיים. וכמה מהם (או שלא מהם) העלו את עץ המשפחה (או לפחות חלק מעצי המשפחה) שלהם לרשת? לא הרבה. רק 3,000 איש העלו את העצים שלהם (שלטענת האתר כוללים 3 מיליון איש – כמות לא הגיונית בעיניי). הרוב דווקא מצפים להיות “מאותרים” ע"י “בוני העצים” בזכות פיסת המידע בצורת “רשומה” שהם “טרחו” והשאירו. “הייתי רוצה לדעת יותר על משפחת רבינוביץ מליטא. מי יכול לספר לי?” והסיבה לכך מאד פשוטה: אנשים כן רוצים לאתר מידע, אבל לא רוצים (ולרוב סתם מתעצלים) לשתף מידע, במיוחד מידע אישי, ובמיוחד שלא יהיה ברשת וזמין, חלילה, לכל גולש. “למה שאני אבנה עץ משפחה? אולי יש עוד מישהו שמחפש מידע על משפחתי וכבר בנה את העץ?” לרוב האנשים אין היום תודעה שאף אחד אחר לא יבנה את העץ המשפחתי שלהם.

    לדעתי נצטרך לחכות לשינוי בתודעה של אנשים ולהתגשמות החלום הרטוב שבו כל אחד יעלה לרשת עץ משפחה שיכלול לפחות שני דורות של משפחה, שקודמים לדור בונה העץ… וזה לא יקרה בעתיד הקרוב ולא בעתיד הרחוק, כי אנשים הם פשוט עצלנים.

  • 2 אורית // 26 אוג, 2007 בשעה 18:23

    הי מרק,

    עד שארנון ישוב מחופשתו, אתייחס בעיקר להבט אחד, טכני, בתגובתך.
    תוכנת בדיקת ההתאמה אינה מחפשת שמות זהים לשלך המופיעים בעצים אחרים, אלא מקטעים שלמים של העץ החוזרים על עצמם בעצים שונים. כך שבהחלט יתכן שקיים במאגר עץ המשלים את העץ שלך – אך בהעדר מקטע משותף לא נמצאת בינתים התאמה.

    בנוסף, לטעמי מוקדם מדי עדיין להסיק מסקנות. האפשרות ל"בדיקת התאמה" שוחררה זה עתה, ואני משערת שכאשר המידע בדבר אפשרות זו יופץ דיו, רבים יעלו את את העצים שלהם לאתר MyHeritage. כך שעוד עשויים למצוא אותך (ואותי!).

  • 3 רמי // 20 אוק, 2007 בשעה 10:36

    האם מישהו יכול להמליץ לי על תוכנת חינם לבניית עץ משפחתי?

  • 4 ארנון // 20 אוק, 2007 בשעה 15:55

    שלום, רמי!

    תוכנת MyHeritage, המוזכרת בפוסט זה היא תוכנה חינמית לבניית עץ משפחה, היא ידידותית וכוללת ממשק מלא בעברית (כמו גם בשפות נוספות). תוכל לבדוק אותה ולראות אם היא מתאימה לצרכיך.

  • 5 MyHeritage – Kudos! // 18 אוק, 2013 בשעה 16:59

    […] ברשת, וגם בבית התפוצות" מאת ארנון, 17.12.2009 וכן: "אינטרנטיזציה של המחקר המשפחתי (או: "מורשת ברשת"…מאת ארנון כבר ב- 2007 ועוד […]

השארת תגובה