googlebot

ה Googlebot הוא אחד השמות לרובוט של גוגל, זה המתרוצץ ללא הרף ברחבי האינטרנט ומאתר את התכנים הרלוונטיים לחיפוש שלנו. את התכנים שהגוגלבוט מוצא ומכניס לאינדקס של גוגל, מעבדת מערכת נפרדת ומייצרת לנו את דפי תוצאות החיפוש המוכרים לנו.

אוג 04 2008

ואחרי כשלון ההשקה של Cuil, למה באמת גוגל כל כך מוצלחים?

מאת נושאים קידום אתרים

בעוד כשלון הפריצה של Cuil ממשיך לעורר הדים, זה הזמן להציץ שוב על הפעילות של גוגל ולנסות להבין במה הם כל כך טובים, מדוע המותג הזה כל כך חזק ולמה באמת אנו מעדיפים להשתמש בשירותיהם מעבר להכרות שלהם עם מליארדי עמודים.

גוגל קבלו החלטה לנסות להיות יותר ידידותיים ויותר פתוחים, כנראה גם על מנת לחזק את תדמית ה Don't be evil שלה אך יתכן ומדובר גם בתגובה להשקת מנוע החיפוש של Cuil כמו גם האיתותים ש Yahoo משגרים באשר למנוע החיפוש-קוף שלהם (יהיה פוסט נפרד) שיכול לנגוס בנתח החיפוש של גוגל בהיותו יותר ידידותי לwebmasters, מה שמאפשר להם לספק מידע איכותי יותר על האתר.

סמנכ"ל הנדסת תוכנה בגוגל, הישראלי אודי מנבר, המתעסק באיכות החיפוש פותח את הדיווחים בהצגת צוותי העבודה הרלוונטים בגוגל ומספר על הקושי במציאת סדר הקדימויות שאמור להיות מוצג למשתמש בגוגל, חשוב לדעת שמקדמי האתרים שעדיין מתעסקים רק עם הפייג'ראנק ועסוקים באיסוף קישורים לוקים בחוסר עדכון קריטי לגבי היררכית הפרמטרים של גוגל. אפשר לראות היום הרבה תוצאות עם PR אפסי שמקדימות את מתחרותיהן בעלות הPR המושקע הגבוה. הרקע העברי בולט כשהוא בוחר לתת דוגמה להתיחסות יחודית לשפות שונות עם תו ה " שמייצג בעברית לא רק ציטוט אלא גם ראשי תיבות.

עמית סינגהל, מספר על ההשקעה הרבה בהתאמה מקומית, הצורך להבין כיצד מחפשי ביטויים זהים במקומות שונים, מצפים גם לתוצאות שונות. הקו המנחה שלהם הוא לנסות להצליח להנפיק את מה שהלקוח רוצה ולאו דווקא את מה שהוא חיפש. גוגל משקיעים הרבה מאמץ על מנת להשאיר את המנוע פשוט לשימוש ככל האפשר, משתמשים מנוסים יותר יודעים כיצד לבצע חיפושים מורכבים וחיתוכים מתוחכמים אך המנוע מצליח לתת גם למחפש המתחיל את התוצאות שהוא מקווה למצוא. הקושי הגדול הוא להצליח לבצע את כל ההתאמות המתוחכמות ללא כל מגע אנושי בתוצאות אלא רק דרך טיפול באלוגריתמים, מהנדסי גוגל טוענים שהאלוגריתמים מספיק פשוטים כך שהמהנדסים המטפלים בנושא יכולים להסביר תמיד מדוע תוצאה מסוימת מופיעה כפי שהיא מופיעה והיכן שהיא מופיעה.

מאוד קשה להצליח לאפיין אתר גם אם האפיון לא מוזכר במפורש בטקסט בדפי האתר. לעיתים אתרים מתמקדים בשירות באזור גאוגרפי מסוים למרות שהם היו מעונינים להתפשט למרחבים אחרים ולפיכך לא מציינים באתר את תחום המיקוד שלהם. כיצד ידע גוגל למרות זאת כי מחפשים מאזור המיקוד של האתר יעדיפו למצוא דווקא אותו? כנראה שמדובר על מעקבים אחרי כתובות IP של גולשים באתר או מתוך השוואה למחפשים אחרים שכן מוסיפים את שם המקום לאתר. כך או כך, גוגל מזהים את מיקומו של המחפש ברמת עיר המגורים (בארץ עדיין אין אפשרות טובה לכך אלא אם כן מצליבים נתונים עם חיפושים קודמים, מתאים לנרשמים לגוגל היסטורי) ומציעים לו את האתרים היותר רלוונטים אליו.

אחת העבודות היפות של גוגל היא זיהוי המלים הנרדפות, שעדיין אינו מפותח דיו בעברית, גוגל מצליחים לזהות ביטויים שונים כמייצגים את אותו המונח. מן העבר השני קיימים מילים שלהם משמעויות שונות ויש לנסות ולנתח את המשמעות המצופה, האם Dr הוא דוקטור או קיצור ל Drive? בעברית עדיין קיימים גמגומים רבים  וחיפוש של [יהודים מעריב] מביא תוצאות מתוך עיתון מעריב, אך בחיפוש באנגלית גוגל כבר יודעים להבין שהביטוי [new york times squre church] אמור להתיחס לכנסיה בכיכר הטיימס בני-יורק ולא לכתבה בניו-יורק-טיימס על כנסיות בכיכרות. פעמים רבות אנשים טועים בהקלדה או לוקים בטעויות כתיב מסיבות שונות וגוגל אמורה לזהות מהו הביטוי אותו התכוון המשורר לחפש, ישנם ביטויים שגוגל התמודדה עם מעל 500 טעויות כתיב שונות לאותו הביטוי, ובהצלחה.

עוד תכונה שאינה נתמכת בעברית היא התרגום. גוגל אינו יודע לתרגם דפים מעברית ואליה, אך בשפות הנתמכות (ביניהן רוסית, ערבית, סינית ושפות אירופאיות רבות) ניתן לקבל תוצאות לחיפושים בשפות שונות מדפים בשפות אחרות לחלוטין, כך מתחיל להתגשם חזון המידע האחיד לכולם בכל מקום.

נראה ש Yahoo מנסים לעשות קיצורי דרך עם ה SearchMonkey אך Cuil מפגרים הרבה מאחור בכל תחום הדירוג של הIR.

4 תגובות

יול 29 2008

קול, Cuil, מנוע החיפוש העתידני?

מאת נושאים כללי

בעוד מנועי החיפוש מתחרים ביניהם על שברי פירורים משאריותיה של גוגל, מתחרה חדשה נכנסת לשוק. כמה פורשי גוגל ועוד אנשים מוכשרים התאחדו ובנו את מנוע החיפוש שהושק בתחילת השבוע: Cuil הנהגה כ"קול".

כפורשי גוגל טבעי שהציפיות תהיינה גבוהות והתוצאות יושוו למתחרה הגדולה. דיווחנו כאן בבלוג על כך שגוגל מודעים למעל טריליון דפים אך מכניסים לאינדקס רק כ 40 מליארד. קול טוענים לאינדקס בן מעל 120 מליארד דפים, פי שלושה מגוגל ופי עשרה ממיקרוסופט. כמות אדירה זו של דפים באינדקס מתאפשרת הודות לרובוט המכונה twiceler ואמור להיות, לטענת אנשי יחסי הציבור של המנוע החדש, הרבה יותר מהיר ויעיל מהרובוט האגדי של גוגל, ה googlebot. אחת הסיבות לכך, מלבד שאר אלגוריתמים סודיים, היא העובדה שהמנוע אינו מתבסס על דירוג על פי לינקים נכנסים אלא בעיקר על בסיס הרלוונטיות של העמוד שמילות המפתח המבוקשות נמצאות בו בשילוב עם הערות ומיקודים של המשתמש. Cuil, המעדיפים להתבסס על תוכן הדפים ולא על דירוג שהוא תוצר של תנאי סביבה, גם טוענים כי הם לא מתייחסים לחיפושים קודמים של הגולשים על פי הקוקיס, מה שהופך אותם ליותר ירוקים (יש גם עמוד שחור שמציל את הסביבה) ופחות חודרניים ומסוכנים מאשר גוגל וביחוד יאהו ששומרים מאות פריטי מידע על כל גולש. כך או כך, מייסדי החברה טום קוסטלו ואשתו, אנא פטרסון, צרפו אליהם בוגר גוגל נוסף בשם ראסל פאוור והם אלו שהקימו המנוע היומרני הזה שאמור להביס את ענקית החיפוש, גוגל, והושק אתמול.

Cuil עשו לכאורה טעות והשיקו גרסת בתא לא מושלמת תוך כדי יחסי ציבור נמרצים שהביאו כמות גולשים שהצליחה להפיל את מנוע החיפוש כך שדפים רבים מודיעים על נבצרות אף בשעת כתיבת שורות אלו, כמו עוד השקות מוקדמות מידי.

אבל דיווחים לחוד ומעשים לחוד, רבים מדווחים שאותה מילת חיפוש בגוגל מפיקה מספר תוצאות רב יותר מאשר ב Cuil, טקראנץ הריצו את מילת החיפוש dog והתאכזבו לגלות שלמרות ההצהרות, Cuil מוצאים רק פחות מ60% ממספר התוצאות של גוגל. כריס ברוגן מתלונן שהוא לא מוצא תוצאות רלוונטיות לגבי עצמו, אם בכלל, במנוע החיפוש ואכן ניתן לצפות ממנוע חיפוש של 120 מליארד דפים שיכיר יותר ביטויים מאשר גוגל, בכל אופן לא פחות. גם ניב קלדרון ניסה לחפש את עצמו ולא הצליח למצוא תוצאות היכולות להתחרות בגוגל ולפיכך הוא ממליץ על קצת יותר צניעות, קצת פחות יחסי ציבור כשמשיקים גרסת בתא לא מושלמת ומוכנות להסתייע על ידי כוחות אחרים בשוק.

ניסויים רבים על ביטויי חיפוש שערכתי גילו כי התוצאות אינן מדהימות וישנם פיספוסים רבים, אפילו כשביקשתי אתר מסויים, המנוע התקשה למצוא אותו, ביחוד בעברית (יאמר לזכות cuil שהם הודיעו ששפות שונות חוץ מאנגלית אינן נתמכות במלואן). אבל אולי צריך לקבל שהקונספט של מנוע החיפוש שונה במעט ולכן הבעיות הללו אינן נוגעות בחידוש שבו.

חיפוש אחר המילה "israel" הביא כמה אתרים שגוגל לאו דווקא היה מוצא לנכון לשים בראש תוצאות החיפוש, איני בטוח שכשמחפשים את ישראל מצפים למצוא את עיתון ג'רוסלם פוסט, אתר אל על והטכניון בראש הטבלה אבל אולי מה שקרה הוא ש cuil מרגילים אותנו לחיפוש יותר אינטליגנטי. רוצה מידע על ישראל? העיתון הגדול באנגלית בארץ, בו תוכל למצוא את מירב הכתבות והמידע על ישראל, הוא אכן הגרוסלם פוסט. אם אתה לא מחפש מידע על הארץ אלא רוצה להגיע לתייר בה, אל על היא דרך לא רעה לעשות זאת, זה יותר מעניין מאשר אתר של משרד נסיעות שהשקיע הרבה בקידומו. הטכניון הוא בהחלט אחד מהפנים היפות של המדינה. יתכן ואלגוריתם חדש משנה את צורת החשיבה והרגלי החיפוש, קשה בדיעבד להכריע אם גוגל גם עשו זאת או שהם התאימו את עצמו לגולש.

המשמעות של צורת החיפוש החדשה, אולי מתבטאת בתוסף הקטגוריות שמופיע לצד התוצאות ופאנל המיקוד. כשחיפשתי את המילה ישראל קיבלתי פאנל המתעניין אם אני מחפש נושאים ממוקדים יותר כמו רדיו ישראל, ההיסטוריה של ישראל, מלונות בישראל, מפת ישראל ואף בנק ישראל וכן הלאה. אם בחרתי לא להתמקד אלא להשאר בכל התוצאות הרלוונטיות עדיין המנוע מציע עזרה:

אם אני מחפש מידע אודות ישראל, cuil מציעים לי להתמקד בנושא המעניין אותי. אולי אני מחפש ערים בישראל:

ירושלים היא אומנם עיר הבירה אבל כנראה שלא רוצים לערבב פוליטיקה עם תוצאות…

אפשר גם לבקש מידע על נשיאים ולקבל תוצאות על אפריים קציר, יצחק נבון ומשה קצב, שמעון פרס עדיין לא נכנס להיכל תהילה זה. בתחום הרבנים הראשיים אין הפליות ויש זוג רבנים ראשיים אשכנזיים: הרב לאו והרב גורן, ומנגד זוג רבנים ספרדיים: הרב עובדיה יוסף והרב מרדכי אליהו, המקופחים מופיעים שניים ברשימה. בתחום חברי הכנסת הקודמים מככבים אריאל שרון ועזמי בשארה, צריך דמיון מאוד פורה על מנת להצדיק את התוצאות הללו.

כך מציע המנוע התמקדות בנושא ותחתיו מציע ערימת תת-קטגוריות שבתוכן כמה מילות חיפוש נוספות. כך cuil עוזרים לי להסביר להם מה בדיוק אני מחפש על מנת לנסות להגיע לתוצאות הרלוונטיות ביותר ולא מסתפקים בראש הקטן של גוגל שמביא רק את מה שבקשו ממנו…

אם המנוע ישכלל את צורת הדירוג כך שתוכל להסתדר גם בלי קישורים נכנסים ועדיין להבין ולדרג חשיבות, יש הגיון רב שמנוע חיפוש שמנסה להבין את העמוד ואת ההקשרים שלו יוכל לכבוש לעצמו נתח שוק של גולשים נלהבים המעוניינים בחיפוש ממוקד שנעזר בהם על מנת להגיע לתוצאות הנכונות.

יש משהו מרענן בויזואליות של Cuil שמסדר טבלה של תוצאות (קשה מאוד להתרגל לסרוק טורים ולא רק שורות, מה אמור להיות הסדר?) ומצמיד תמונה (לאו דווקא קשורה) לכל תוצאה. גם לא ממש ברור המספר המשתנה של תוצאות לעמוד לעיתים 10 ולעיתים 11, אם כבר פותחים שורה רביעית, למה לא 12?

קול פונים לקהל מחפשים שמוכן להשקיע מעט במיקוד החיפוש ולעזור ל Cuil לעזור לו. נראה שלכל הפחות בשלב הראשון לא מדובר על מחפשים מנוסים שיודעים לכתוב ביטוי חיפוש נכון גם בגוגל, גם לא מדובר על מחפשים מהירים שרוצים תוצאות כאן ועכשיו. עבור הנער הרוצה להכין עבודה בנושא ממוקד, Cuil יכול להוות פתרון נהדר.

אסור לשכוח שמנוע החיפוש החדש, קול, הינו עולל שבקושי נולד כך שלא ראוי להשוות את יכולותיו לענקית החיפוש, גוגל, שהשקיעה עד עתה מאות מליוני דולרים בשיפור תוצאותיה.

5 תגובות

יול 27 2008

נגישות לגוגלבוט, טריליון עמודי אינטרנט

מאת נושאים קידום אתרים

גוגל מדווחים כי הם מצאו מעל טריליון עמודי אינטרנט. אחד שלאחריו 12 אפסים.

למעשה מדובר ביותר מטרליון מכיון שישנם הרבה עמודים כפולים ורבים אחרים שאינם רלוונטיים (כדוגמה, ישנם לוחות באינטרנט שאפשר לדפדף בהם מיום ליום כשכל יום הוא עמוד חדש, אין הגיון למנות אותם).

גוגל אינם מאנדקסים את כל הכמות המטורפת הזאת של דפים גם מכיון שאין להם כח מחשוב לכך אך ישנם קריטריונים שונים לאינדוקס. יש מעריכים כי מספר הדפים שגוגל מאנדקס הוא בסביבות ה40 מליארד, אין לי מושג מאיפה המספרים הללו צומחים.

השיעור הנמוך יחסית של דפים שנכנסו לאינדקס מחייב תשומת לב לעבודה על פי התקנים שמנועי החיפוש דורשים, כשיש מתחרים רבים על תשומת ליבו וכח המחשוב של ה googlebot כדאי מאוד להיות ידידותיים ככל האפשר לענקי החיפוש המשתלטים על העולם. ככל הנראה הכלי החשוב ביותר על מנת לעמוד ברף הבסיסי של מנועי החיפוש בכלל וגוגל בפרט, הוא כלי ה webmasters, חשוב שכל בעל אתר יכיר את הכלי ויעשה שימוש במשגר המפות וכלי האבחון הבסיסיים אך חשובים שבו. יותר הגיוני להתחנף לגוגל מאשר לתבוע אותם כשלא אוהבים את התוצאות.

בכל אופן במקביל לפרסום נערך גם ריקוד גוגל קטן והרבה אתרים יוכלו לשים לב כי הPR שלהם השתנה, בדרך כלל לטובה, זאת מלבד אתרים שהתחילו לצוץ לחילופין במקומות טובים הרבה יותר ממה שהם הורגלו בעבר במסגרת ניסויים של גוגל לאתר דפים מבוקשים שלא זוכים לתשומת הלב הראויה להן.

2 תגובות

יול 17 2008

זיהוי דיבור

גוגל כבר עובדים זמן רב על פיתוח יכולות זיהוי דיבור על מנת להופכו לטקסט בר עיבוד וחיפוש. פה בגוגל-ספרה דיווחנו לא מזמן על השקת יכולת החיפוש ב google maps במכשיר הבלקברי אך יש לכך שימושים רבים אחרים כמו ב GOOG-411 ועוד.

גוגל מראים לנו חדשנות מה היא ומודיעים על השקת וידג'ט חדש ל iGoogle המופעל על סרטוני המתמודדים לנשיאות ארה"ב, מקקיין ואובמה, ומאפשר לגוגל לזהות את תוכן הנאומים שהם נושאים. הדבר מאפשר לעשות חיפוש טקסטואלי בתוך הנאומים ולאתר את הנושאים המעניינים את הגולש. גוגל מזהים כי תוכן גולשים כובש את האינטרנט וחלקו מופץ דווקא דרך וידאו וכך מקדימים את שאר מנועי החיפוש ומאפשרים לגולשים חיפוש תוכני בסרטונים.

מדובר על קפיצת מדרגה מבחינת סיפוק יכולות חיפוש לגולש ויהיה מעניין לעקוב אחרי תוצאות הנסוי והתפתחות השירות היחודי הזה.

יכולת הפיכת דיבור לטקסט

יכולת הפיכת דיבור לטקסט

חיפושים שהביאו לכאן:

  • מקשיבים

אין תגובות

« הקודם - הבא »

FireStats icon ‏מריץ FireStats‏