Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

45
Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew Levinger-Ornan-Itai Computational Linguistics, 21, 383-404, (1995).

description

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew. Levinger-Ornan-Itai Computational Linguistics, 21, 383-404, (1995). הקפה. מה כתוב כאן? The coffee הקָ פֶ ה Encirclement הקָפָה Her perimeter הֶקֵפָהּ. פתרון רב משמעות מורפולוגית – לשם מה?. - PowerPoint PPT Presentation

Transcript of Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

Page 1: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to

Hebrew

Levinger-Ornan-Itai

Computational Linguistics, 21, 383-404, (1995).

Page 2: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הקפה?מה כתוב כאן

• The coffee ה פ: הק;• Encirclementה פ; הק;

• Her perimeter ה פ; ק< ה:

Page 3: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

פתרון רב משמעות מורפולוגית –? לשם מה

מנתחים תחביריים•

מערכות להמרה של טקסט לדיבור•

חיפוש באינטרנט•

Page 4: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הגדרות

, ניתן למצוא את כל הניתוחים W, ומלה Lבהינתן שפה המורפולוגיים האפשריים.

ניתוחים אפשריים:k יש Wלמלה

רב-משמעית.W אז k > 1אם

k1 A,.....,A

Page 5: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הגדרות (המשך)

Ai ההסתברות המורפו-לקסיקלית של

נתונה ע"י:

האלגוריתם המוצע יחשב את - הסתברות מוערכת

w

w AwAPP i

ii of occurences of no.

of analysisright thewas timesof no.)|(

iP

Page 6: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

:ראשי פרקים

תיאור של בעיית הרב-משמעיות בעברית.•כיצד לרכוש הערכה טובה של ההסתברויות •

המורפו-לקסיקליות תוך שימוש בקורפוס בלתי-מתויג.

תיאור של ניסוי לבדיקת איכות ההערכה של •ההסתברויות אלו.

אסטרטגיה פשוטה לביצוע פתרון רב-משמעות •מורפולוגית בעברית ע"י שימוש בהסתברויות

אלו.

Page 7: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

רב משמעיות בעברית

6 5 4 3 2 1 מס' ניתוחים אפשריים

493 1,309 2,760 6,401 9,876 17,551 מס' מלים

1.27 3.37 7.1 16.5 25.4 45.1 %

13 12 11 10 9 8 7 מס' ניתוחים אפשריים

5 3 1 18 10 134 337 מס' מלים

0.01 0.007 0.002 0.05 0.02 0.34 0.87 %

Page 8: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

רב משמעיות בעברית

).word tokens מלים (40,000במחקר נאספו •

אפשרויות ניתוח בממוצע למילה.2.1•

מהמלים הן רב-משמעיות.55%•

Page 9: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הכתיב העברי

הכתיב המקובל (כתיב מלא לא מנוקד) •משמיטה אינפורמציה חשובה:

רוב התנועות מכפלים

מילים קצרות (מלות היחס, ו-החיבור, ה' הידוע) •מופיעות כתחיליות בלתי מופרדות. ולעיתים גם

בית. Wבית ב Xלא מפורשות בכתב. לדוגמא ב

Page 10: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

מרכיבי מלה בעברית

ד.ב.ר. + פיעל = דיבר שורש + משקל = בסיס•פועל, שם-עצם, )POS(חלק דיבר •

שם-פעולה...ה, אהבתיימחברותהטיות קניין ומושא •מין, מספר (עבור ש"ע, תארים, פעלים)•הלכתי, אליהגוף (עבור פעלים ומלות יחס) •זמן (עבור פעלים) •

Page 11: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

בעיות נוספות בעברית

במקרים רבים שני ניתוחי מלה אפשריים יש •להם אותה קטגוריה. יתר על כן, במקרים

מסוימים ההבדל היחיד בין שתי אפשרויות הוא השורש – לדוגמא: חלו

סדר המלים חופשי יחסית•

Page 12: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

גישות קודמות לפתרון

– הכתב הפונמי1986אורנן, •šiţa liktob ´ibrit b-`otiyot laţiniyot b-`opn

še-mšaqqep `et mibne ha-şapa -דורש העברת טכסטים קיימים בעברית לכתב

הפונמי.

חוקים\מגבלות סינטקטיים• - לא מאפשר לפתור את הבעיה ביעילות.

פותר רק עבור מקרים מסוימים

Page 13: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הפתרון המוצע – הגישה הסטטיסטית.כיצד מחליטים איזה ניתוח מילה

לבחור?למרות שהעברית מאוד רב-משמעית מבחינה

מורפולוגית, נראה שדובר השפה יכול לנחש בד"כ את הניתוח הנכון. זאת מבלי לדעת את הקונטקסט.

הדיוק בניחוש יגבר, אם דובר השפה ידע לאיזה תת-שפה המילה שייכת.

מכאן,עבור כל מלה רב-משמעית, מצא את ההסתברות

המורפו-לקסיקלית של כל ניתוח אפשרי. אם ערך מסוים גבוה משמעותית מהאחרים, בחר בניתוח

במתאים לערך זה.

Page 14: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

כיצד נחשב הסתברויות אלה?

דרך אחת לחשב הסתברויות אלה, הוא לקחת גדול, לספור את המופעים של מתויגקורפוס

כל אפשרויות הניתוח של כל מילה, וכך לחשב את ההסתברויות.

– בעיית דלילות, ומכאן צריך בקורפוס החיסרוןמתויג גדול.

לא קיים כזה בעברית.יתר-על-כן, נדרש קורפוס כזה עבור כל תחום

(מדע, עיתונות, שפת יומיום וכו')

Page 15: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

SW SETS

SW = SIMILAR WORDS

קבוצה של מלים הדומות אחת לשנייה. לכל המלים יהיה אותו השורש ומשקל.

אנו מצפים שתדירות ההופעה של כל מלה תהיה דומה למלים אחרות SWבקבוצת בקבוצה.

צורת הזכר וצורת הנקבה של פועל , - לדוגמאיופיעו בתדירות דומה.

Page 16: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

SW בניית קבוצות

נקבעו מספר חוקים היוריסטיים, שמבוססים על אינטואיציה של דובר השפה.

ניתן לשנות / להוסיף / לגרוע חוקים.

כללים לבניית הקבוצות.10לנו הספיקו

Page 17: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

SWהכללים לבניית קבוצות ה-

הוספת/הורדת ה' הידיעה לש"ע1.

ש"ע עם כינוי קניין – אותו ש"ע אם כינויי קניין 2.אחרים (שולחני, שולחנו, שולחננו...)

תואר – אותו תואר בשינוי מין ומספר (גדול, 3.גדולה, גדולים...)

פועל בלי כינוי מושא – אותו פועל בשינוי מין 4.ומספר (הולך, הולכת, הולכים...)

פועל עם כינוי מושא – אותו פועל עם כינוי 5.מושא אחר (שברתיו, שברתיה...)

Page 18: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

SWהכללים לבניית קבוצות ה- (המשך)

כינוי גוף – כינויי גוף אחרים באותו גוף (אני, אתה, 6.הוא...)

מספרים ממין זכר/מספרים ממין נקבה7.

ריקה.SWש"ע פרטי, אותיות השימוש – קבוצת 8.

Page 19: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

דוגמא - הקפה

’Encirclement‘הקפה- •

=}SW1 -ההקפה ‘The encirclement’}

’The coffee‘ה+קפה- •

=}SW2 קפה{ ‘Coffee- ’

’ -Her perimeter‘הקף+ה •

=}SW3 -הקפו‘His perimeter ’,

’Masculine ‘Their perimeter הקפם-

{’ –Feminine ‘Their perimeter‘ הקפן

Page 20: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

לאהכללים הם תלויי שפה אך תלויי נושאהמלה 'מצביע':

)vote, indicateהפועל הצביע (•

)pointerש"ע מצביע (•

Page 21: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הערות

נותן הערכה בלבד של SW השימוש בקבוצותההסתברויות המורפו-לקסיקליות, כי:

להופיע בערך SWנצפה מהמלים בקבוצות ה-•כמספר הפעמים, שהניתוח המורפו-לקסיקלי

המתאים מופיע.אמינות החישוב תלויה במספר הפעמים שהמלה •

הרב-משמעית מופיעה בקורפוס - בעיית דלילות המידע.

הן שוות הסתברות SWההנחה שלכל המילים באותו •אינה מדויקת.

Page 22: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

האלגוריתם

אתחול: לכל הניתוחים יש הסתברות שווה•

לכל ניתוח מחשבים את מספר המופעים הממוצע – גם •SWהמלה הרב-משמעית מופיעה בקבוצות ה-

אם מלה מסוימת מופיעה במספר קבוצות, מחשבים •את התרומה של המלה לקבוצה באופן יחסי (ע"פ

איטרציות קודמות)

מחשבים את היחסים בין הניתוחים השונים ע"י חישוב •היחסים בין מספר המופעים הממוצע של כל ניתוח

חוזרים על הפעולה, עד אשר המספרים מתייצבים•

Page 23: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

The algorithm

Page 24: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew
Page 25: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

מקרים בעייתיים

יכולות בעצמן SWחלק מהמלים בקבוצת ה- 1.להיות רב-משמעיות. כל זמן שניתוחי המלה האחרים אינם תדירים, המצב טוב. אם לא,

ניתן בטעות, לספור את המלה יותר מדי פעמים, וכך לפגוע בנכונות האלגוריתם.

מכאן, כדאי להגדיל את הקבוצות, וכך לאתר מלים "מטעות" כאלה.

לעתים לשתי אפשרויות ניתוח שונות יש אותה 2.. במקרה זה האלגוריתם לא עובד.SWקבוצת

Page 26: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

דוגמאות לפעולת האלגוריתם

1SW = {18, ההקפה = 200 = }הקפה 2SW = {180, קפה = 200 = }הקפה 3SW = 2, הקפם = 2, הקפו = 200 = }הקפה ,

{2 הקפן =

0.001 = ε איטרציות.10התכנסות לאחר

Page 27: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

הערה

מסיבות טכניות, לא ניתן היה לזהות מלים (המנתח SWרב-משמעיות בתוך קבוצות ה-

המורפולוגי היה על מכונה נפרדת מהמכונה עליה היה הקורפוס ותוכנת הכנת קבוצות ה-

SW.(

למרות שתיאורטית יכלה להיווצר בעיה, למעשה התופעה לא הפריעה לנכונות האלגוריתם.

Page 28: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

דוגמאות (המשך)

{970, החודש = 2079}חודש = 1.

{57, חודשו = 41, חודשה = 2079}חודש = 2.

הן רב-משמעיות. אך מכיוון 2 המלים בקבוצה 2שהן מופיעות מעט, אין זה משפיע כמעט, על

תוצאות האלגוריתם, שנותן:

0.961 = 1P

0.039 = 2P

Page 29: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

דוגמאות (המשך)

הבעיה שתוארה לעיל - רב-משמעיות של מלים נוספות בקבוצה – לעתים בכל זאת מזיקה.

מלים פתרון של בעיה זו הוא זיהוי מלים כאלה כמטעות.

מכאן, ניתן להוסיף זיהוי כזה כשיפור לאלגוריתם. הזיהוי מותנה בהגדרת מלה מטעה. מילה הוגדרה כמטעה אם המונה שלה היה גדול

מכל מילה אחרת בקבוצה.5לפחות פי

Page 30: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

דוגמאות (המשך)

הצורך בהכנסת המלה הרב-משמעית לקבוצות ה- SW:מומחשת בדוגמא הבאה

{197,501}את = 1.

, 891 , אתם = 1689 , אתה = 197,501}את = 2.{105אתן =

{0 , האת = 197,501}את = 3.

תוצאות האלגוריתם:

0.0001 = 3P, 0.0045 = 2P, 0.9954 = 1P פעמים, ההסתברות 0למרות ש"האת" מופיעה

.0שלה שונה מ –

Page 31: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

מבוסס על עבודת המגיסטר של אריאל סגל•

מנתח מורפולוגי לעברית נכתב במסגרת •פרויקט לתואר ראשון.

http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/teud.html

מציאת הניתוח הנכון בקונטקסט

Page 32: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

מציאת הניתוח הנכון בקונטקסט

אראל שילב מספר אלגוריתמים והצליח לקבל •.96%דיוק של

השלבים•: שיטת המילים הדומות,שלב המילה

תיקון ע"פ כללי תיקון שנלמדו,שלב הזוג: תיקון ע"ס ניתוח תחבירי חלקי.שלב המשפט:

Page 33: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

שלב המילה

הבסיס הוא הערכת ההסתברות לכל ניתוח ע"פ שיטת •המילים הדומות.

בהבדל:•במקום להעריך כל הטיה בנפרד, הנחנו שההסתברות של ההטיה והבסיס בלתי-תלויות, הערכנו ההסתברות אלו בנפרד, וחישבנו את ההסתברות לניתוח כמכפלה. • דוגמא

P(הלך) = p1; P(הסתפר) = p2; P(1sg,past) = qP(הלכתי) = p1q; P(הסתפרתי) = p2q

Page 34: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

שלב המילה (המשך)

אלון אלטמן ערך ניסוי ולפיו ההערכות אלו אינן •מדויקות

אך, הדירוג ההסתברויות של המילים נשמר.•

Page 35: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

שלב הזוג

Brillנלמדו כללי תיקון בדומה לשיטת •כללי תיקון נבחרו מתוך מספר תבניות.•

התבניות בחנו מילים סמוכות.הרצנו את כל הכללים על טכסט לימוד, ושמרנו את

הכלל ששיפר את הביצוע במידה המרבית.חזרנו על התהליך עד שלא השתפרנו עוד.

הכלל לא היה מוחלט, לכל ניתוח היה Brillבניגוד ל-•ציון, והכללים יכולים להגדיל או להקטין את הציון של

כל ניתוח.בחרנו את הניתוח עם הציון המכסימלי.

Page 36: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

דוגמא לכלל

• if the current analysis of w1 is a proper-noun and the current analysis of w2 is a nounand w2 has an analysis as a verb that matches w1 by gender and number,

then add 0.5 to its morphological score, and normalize the scores .

Page 37: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

שיפור הניתוח בעזרת כלל

יוסף עדר•ר )כבשים( היא דו-משמעית: פועל בעבר ו- עדר ד� .ע�

• score(ר ד� ר)score ;0.7 = (ע� ד� 0.3 = (ע�שימוש בכלל הקודם יגדיל את •

• score(ר ד� 0.8 = (ע�אחרי נורמליזציה•

• score(ר ד� ר)score ;0.7/1.5 = (ע� ד� 0.8/1.5 = (ע�רוהניתוח • ד� עדיף! יוסף ע�

Page 38: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

לימוד הכללים

a. (Initialization): Assign each word its most probable analysis.

b. (Transformation rule generation): loop over all incorrectly tagged words in the corpus.Generate all transformation rules that correct the error.

c. (Transformation rule evaluation): loop over the candidate transformation rules and retain the rule that corrects the maximum number of errors, while causing the least damage.

d. Repeat the entire process until the net gain of all rules is negative.

Page 39: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

שלב המשפט

כתבנו מנתח תחבירי פשטני (ולא מדוייק) •שמנסה לצמצם את המשפט.

דוגמא: שם-עצם תואר (שמסכימים במין •ומספר)

שם עצם

מספר המילים שנשארו מהוות ציון (שלילי).

Page 40: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

אלגוריתם הניתוח

הפעלנו אלגוריתם של תכנות דינמי•

קלט: משפט בו לכל מילה הציון המורפולוגי •שהתקבל מהשלב הקודם.

פלט: הניתוח הסביר ביותר של המשפט.•

O(n3)זמן •

Page 41: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

Evaluation

• An analyzed corpus of 5361 word tokens

• Article A with 469 word tokens (which leaves 4892 word tokens in the training corpus),

• Article B with 764 word tokens (which leaves 4597 word tokens in the training corpus),

• We performed 6-fold cross validation

Page 42: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

השפעת כל רכיב

Word Pair Sentence Error (%)

No No No 36.0

Yes No No 14.0

No Yes No 21.0

Yes Yes No 7.0

No No Yes 20.0

Yes No Yes 5.3

No Yes Yes 14.0

Yes Yes Yes 3.8

Page 43: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

באופן גרפי

Word Phase

Pair Phase Sentence Phase

5.33.8

3621

2014

147

Page 44: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

שגיאות

לפעמים המנתח •התחבירי הורס ניתוח

נכון.

לא מכיר ביטויים•פיאת דם ק� מ�

נים שר הפ�

שמות פרטיים•

יש לבנות מנתח ) Abneyטוב יותר (

לבנות לקסיקון של ביטויים

לבנות תכנה לזיהוי שמות פרטיים

הפיתרון הבעיה

Page 45: Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

מסקנות

בעיית בחירת הניתוח המורפולוגי הנכון •בעברית היא לא פשוטה.

ניתן, באמצעים סטטיסטיים, לפתור את רב •המשמעות של רוב המילים.

היוריסטיקות נוספות: •one discourse – one analysis

יש מקום לשיפורים.•