Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

Post on 01-Jan-2016

31 views 4 download

description

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew. Levinger-Ornan-Itai Computational Linguistics, 21, 383-404, (1995). הקפה. מה כתוב כאן? The coffee הקָ פֶ ה Encirclement הקָפָה Her perimeter הֶקֵפָהּ. פתרון רב משמעות מורפולוגית – לשם מה?. - PowerPoint PPT Presentation

Transcript of Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to

Hebrew

Levinger-Ornan-Itai

Computational Linguistics, 21, 383-404, (1995).

הקפה?מה כתוב כאן

• The coffee ה פ: הק;• Encirclementה פ; הק;

• Her perimeter ה פ; ק< ה:

פתרון רב משמעות מורפולוגית –? לשם מה

מנתחים תחביריים•

מערכות להמרה של טקסט לדיבור•

חיפוש באינטרנט•

הגדרות

, ניתן למצוא את כל הניתוחים W, ומלה Lבהינתן שפה המורפולוגיים האפשריים.

ניתוחים אפשריים:k יש Wלמלה

רב-משמעית.W אז k > 1אם

k1 A,.....,A

הגדרות (המשך)

Ai ההסתברות המורפו-לקסיקלית של

נתונה ע"י:

האלגוריתם המוצע יחשב את - הסתברות מוערכת

w

w AwAPP i

ii of occurences of no.

of analysisright thewas timesof no.)|(

iP

:ראשי פרקים

תיאור של בעיית הרב-משמעיות בעברית.•כיצד לרכוש הערכה טובה של ההסתברויות •

המורפו-לקסיקליות תוך שימוש בקורפוס בלתי-מתויג.

תיאור של ניסוי לבדיקת איכות ההערכה של •ההסתברויות אלו.

אסטרטגיה פשוטה לביצוע פתרון רב-משמעות •מורפולוגית בעברית ע"י שימוש בהסתברויות

אלו.

רב משמעיות בעברית

6 5 4 3 2 1 מס' ניתוחים אפשריים

493 1,309 2,760 6,401 9,876 17,551 מס' מלים

1.27 3.37 7.1 16.5 25.4 45.1 %

13 12 11 10 9 8 7 מס' ניתוחים אפשריים

5 3 1 18 10 134 337 מס' מלים

0.01 0.007 0.002 0.05 0.02 0.34 0.87 %

רב משמעיות בעברית

).word tokens מלים (40,000במחקר נאספו •

אפשרויות ניתוח בממוצע למילה.2.1•

מהמלים הן רב-משמעיות.55%•

הכתיב העברי

הכתיב המקובל (כתיב מלא לא מנוקד) •משמיטה אינפורמציה חשובה:

רוב התנועות מכפלים

מילים קצרות (מלות היחס, ו-החיבור, ה' הידוע) •מופיעות כתחיליות בלתי מופרדות. ולעיתים גם

בית. Wבית ב Xלא מפורשות בכתב. לדוגמא ב

מרכיבי מלה בעברית

ד.ב.ר. + פיעל = דיבר שורש + משקל = בסיס•פועל, שם-עצם, )POS(חלק דיבר •

שם-פעולה...ה, אהבתיימחברותהטיות קניין ומושא •מין, מספר (עבור ש"ע, תארים, פעלים)•הלכתי, אליהגוף (עבור פעלים ומלות יחס) •זמן (עבור פעלים) •

בעיות נוספות בעברית

במקרים רבים שני ניתוחי מלה אפשריים יש •להם אותה קטגוריה. יתר על כן, במקרים

מסוימים ההבדל היחיד בין שתי אפשרויות הוא השורש – לדוגמא: חלו

סדר המלים חופשי יחסית•

גישות קודמות לפתרון

– הכתב הפונמי1986אורנן, •šiţa liktob ´ibrit b-`otiyot laţiniyot b-`opn

še-mšaqqep `et mibne ha-şapa -דורש העברת טכסטים קיימים בעברית לכתב

הפונמי.

חוקים\מגבלות סינטקטיים• - לא מאפשר לפתור את הבעיה ביעילות.

פותר רק עבור מקרים מסוימים

הפתרון המוצע – הגישה הסטטיסטית.כיצד מחליטים איזה ניתוח מילה

לבחור?למרות שהעברית מאוד רב-משמעית מבחינה

מורפולוגית, נראה שדובר השפה יכול לנחש בד"כ את הניתוח הנכון. זאת מבלי לדעת את הקונטקסט.

הדיוק בניחוש יגבר, אם דובר השפה ידע לאיזה תת-שפה המילה שייכת.

מכאן,עבור כל מלה רב-משמעית, מצא את ההסתברות

המורפו-לקסיקלית של כל ניתוח אפשרי. אם ערך מסוים גבוה משמעותית מהאחרים, בחר בניתוח

במתאים לערך זה.

כיצד נחשב הסתברויות אלה?

דרך אחת לחשב הסתברויות אלה, הוא לקחת גדול, לספור את המופעים של מתויגקורפוס

כל אפשרויות הניתוח של כל מילה, וכך לחשב את ההסתברויות.

– בעיית דלילות, ומכאן צריך בקורפוס החיסרוןמתויג גדול.

לא קיים כזה בעברית.יתר-על-כן, נדרש קורפוס כזה עבור כל תחום

(מדע, עיתונות, שפת יומיום וכו')

SW SETS

SW = SIMILAR WORDS

קבוצה של מלים הדומות אחת לשנייה. לכל המלים יהיה אותו השורש ומשקל.

אנו מצפים שתדירות ההופעה של כל מלה תהיה דומה למלים אחרות SWבקבוצת בקבוצה.

צורת הזכר וצורת הנקבה של פועל , - לדוגמאיופיעו בתדירות דומה.

SW בניית קבוצות

נקבעו מספר חוקים היוריסטיים, שמבוססים על אינטואיציה של דובר השפה.

ניתן לשנות / להוסיף / לגרוע חוקים.

כללים לבניית הקבוצות.10לנו הספיקו

SWהכללים לבניית קבוצות ה-

הוספת/הורדת ה' הידיעה לש"ע1.

ש"ע עם כינוי קניין – אותו ש"ע אם כינויי קניין 2.אחרים (שולחני, שולחנו, שולחננו...)

תואר – אותו תואר בשינוי מין ומספר (גדול, 3.גדולה, גדולים...)

פועל בלי כינוי מושא – אותו פועל בשינוי מין 4.ומספר (הולך, הולכת, הולכים...)

פועל עם כינוי מושא – אותו פועל עם כינוי 5.מושא אחר (שברתיו, שברתיה...)

SWהכללים לבניית קבוצות ה- (המשך)

כינוי גוף – כינויי גוף אחרים באותו גוף (אני, אתה, 6.הוא...)

מספרים ממין זכר/מספרים ממין נקבה7.

ריקה.SWש"ע פרטי, אותיות השימוש – קבוצת 8.

דוגמא - הקפה

’Encirclement‘הקפה- •

=}SW1 -ההקפה ‘The encirclement’}

’The coffee‘ה+קפה- •

=}SW2 קפה{ ‘Coffee- ’

’ -Her perimeter‘הקף+ה •

=}SW3 -הקפו‘His perimeter ’,

’Masculine ‘Their perimeter הקפם-

{’ –Feminine ‘Their perimeter‘ הקפן

לאהכללים הם תלויי שפה אך תלויי נושאהמלה 'מצביע':

)vote, indicateהפועל הצביע (•

)pointerש"ע מצביע (•

הערות

נותן הערכה בלבד של SW השימוש בקבוצותההסתברויות המורפו-לקסיקליות, כי:

להופיע בערך SWנצפה מהמלים בקבוצות ה-•כמספר הפעמים, שהניתוח המורפו-לקסיקלי

המתאים מופיע.אמינות החישוב תלויה במספר הפעמים שהמלה •

הרב-משמעית מופיעה בקורפוס - בעיית דלילות המידע.

הן שוות הסתברות SWההנחה שלכל המילים באותו •אינה מדויקת.

האלגוריתם

אתחול: לכל הניתוחים יש הסתברות שווה•

לכל ניתוח מחשבים את מספר המופעים הממוצע – גם •SWהמלה הרב-משמעית מופיעה בקבוצות ה-

אם מלה מסוימת מופיעה במספר קבוצות, מחשבים •את התרומה של המלה לקבוצה באופן יחסי (ע"פ

איטרציות קודמות)

מחשבים את היחסים בין הניתוחים השונים ע"י חישוב •היחסים בין מספר המופעים הממוצע של כל ניתוח

חוזרים על הפעולה, עד אשר המספרים מתייצבים•

The algorithm

מקרים בעייתיים

יכולות בעצמן SWחלק מהמלים בקבוצת ה- 1.להיות רב-משמעיות. כל זמן שניתוחי המלה האחרים אינם תדירים, המצב טוב. אם לא,

ניתן בטעות, לספור את המלה יותר מדי פעמים, וכך לפגוע בנכונות האלגוריתם.

מכאן, כדאי להגדיל את הקבוצות, וכך לאתר מלים "מטעות" כאלה.

לעתים לשתי אפשרויות ניתוח שונות יש אותה 2.. במקרה זה האלגוריתם לא עובד.SWקבוצת

דוגמאות לפעולת האלגוריתם

1SW = {18, ההקפה = 200 = }הקפה 2SW = {180, קפה = 200 = }הקפה 3SW = 2, הקפם = 2, הקפו = 200 = }הקפה ,

{2 הקפן =

0.001 = ε איטרציות.10התכנסות לאחר

הערה

מסיבות טכניות, לא ניתן היה לזהות מלים (המנתח SWרב-משמעיות בתוך קבוצות ה-

המורפולוגי היה על מכונה נפרדת מהמכונה עליה היה הקורפוס ותוכנת הכנת קבוצות ה-

SW.(

למרות שתיאורטית יכלה להיווצר בעיה, למעשה התופעה לא הפריעה לנכונות האלגוריתם.

דוגמאות (המשך)

{970, החודש = 2079}חודש = 1.

{57, חודשו = 41, חודשה = 2079}חודש = 2.

הן רב-משמעיות. אך מכיוון 2 המלים בקבוצה 2שהן מופיעות מעט, אין זה משפיע כמעט, על

תוצאות האלגוריתם, שנותן:

0.961 = 1P

0.039 = 2P

דוגמאות (המשך)

הבעיה שתוארה לעיל - רב-משמעיות של מלים נוספות בקבוצה – לעתים בכל זאת מזיקה.

מלים פתרון של בעיה זו הוא זיהוי מלים כאלה כמטעות.

מכאן, ניתן להוסיף זיהוי כזה כשיפור לאלגוריתם. הזיהוי מותנה בהגדרת מלה מטעה. מילה הוגדרה כמטעה אם המונה שלה היה גדול

מכל מילה אחרת בקבוצה.5לפחות פי

דוגמאות (המשך)

הצורך בהכנסת המלה הרב-משמעית לקבוצות ה- SW:מומחשת בדוגמא הבאה

{197,501}את = 1.

, 891 , אתם = 1689 , אתה = 197,501}את = 2.{105אתן =

{0 , האת = 197,501}את = 3.

תוצאות האלגוריתם:

0.0001 = 3P, 0.0045 = 2P, 0.9954 = 1P פעמים, ההסתברות 0למרות ש"האת" מופיעה

.0שלה שונה מ –

מבוסס על עבודת המגיסטר של אריאל סגל•

מנתח מורפולוגי לעברית נכתב במסגרת •פרויקט לתואר ראשון.

http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/teud.html

מציאת הניתוח הנכון בקונטקסט

מציאת הניתוח הנכון בקונטקסט

אראל שילב מספר אלגוריתמים והצליח לקבל •.96%דיוק של

השלבים•: שיטת המילים הדומות,שלב המילה

תיקון ע"פ כללי תיקון שנלמדו,שלב הזוג: תיקון ע"ס ניתוח תחבירי חלקי.שלב המשפט:

שלב המילה

הבסיס הוא הערכת ההסתברות לכל ניתוח ע"פ שיטת •המילים הדומות.

בהבדל:•במקום להעריך כל הטיה בנפרד, הנחנו שההסתברות של ההטיה והבסיס בלתי-תלויות, הערכנו ההסתברות אלו בנפרד, וחישבנו את ההסתברות לניתוח כמכפלה. • דוגמא

P(הלך) = p1; P(הסתפר) = p2; P(1sg,past) = qP(הלכתי) = p1q; P(הסתפרתי) = p2q

שלב המילה (המשך)

אלון אלטמן ערך ניסוי ולפיו ההערכות אלו אינן •מדויקות

אך, הדירוג ההסתברויות של המילים נשמר.•

שלב הזוג

Brillנלמדו כללי תיקון בדומה לשיטת •כללי תיקון נבחרו מתוך מספר תבניות.•

התבניות בחנו מילים סמוכות.הרצנו את כל הכללים על טכסט לימוד, ושמרנו את

הכלל ששיפר את הביצוע במידה המרבית.חזרנו על התהליך עד שלא השתפרנו עוד.

הכלל לא היה מוחלט, לכל ניתוח היה Brillבניגוד ל-•ציון, והכללים יכולים להגדיל או להקטין את הציון של

כל ניתוח.בחרנו את הניתוח עם הציון המכסימלי.

דוגמא לכלל

• if the current analysis of w1 is a proper-noun and the current analysis of w2 is a nounand w2 has an analysis as a verb that matches w1 by gender and number,

then add 0.5 to its morphological score, and normalize the scores .

שיפור הניתוח בעזרת כלל

יוסף עדר•ר )כבשים( היא דו-משמעית: פועל בעבר ו- עדר ד� .ע�

• score(ר ד� ר)score ;0.7 = (ע� ד� 0.3 = (ע�שימוש בכלל הקודם יגדיל את •

• score(ר ד� 0.8 = (ע�אחרי נורמליזציה•

• score(ר ד� ר)score ;0.7/1.5 = (ע� ד� 0.8/1.5 = (ע�רוהניתוח • ד� עדיף! יוסף ע�

לימוד הכללים

a. (Initialization): Assign each word its most probable analysis.

b. (Transformation rule generation): loop over all incorrectly tagged words in the corpus.Generate all transformation rules that correct the error.

c. (Transformation rule evaluation): loop over the candidate transformation rules and retain the rule that corrects the maximum number of errors, while causing the least damage.

d. Repeat the entire process until the net gain of all rules is negative.

שלב המשפט

כתבנו מנתח תחבירי פשטני (ולא מדוייק) •שמנסה לצמצם את המשפט.

דוגמא: שם-עצם תואר (שמסכימים במין •ומספר)

שם עצם

מספר המילים שנשארו מהוות ציון (שלילי).

אלגוריתם הניתוח

הפעלנו אלגוריתם של תכנות דינמי•

קלט: משפט בו לכל מילה הציון המורפולוגי •שהתקבל מהשלב הקודם.

פלט: הניתוח הסביר ביותר של המשפט.•

O(n3)זמן •

Evaluation

• An analyzed corpus of 5361 word tokens

• Article A with 469 word tokens (which leaves 4892 word tokens in the training corpus),

• Article B with 764 word tokens (which leaves 4597 word tokens in the training corpus),

• We performed 6-fold cross validation

השפעת כל רכיב

Word Pair Sentence Error (%)

No No No 36.0

Yes No No 14.0

No Yes No 21.0

Yes Yes No 7.0

No No Yes 20.0

Yes No Yes 5.3

No Yes Yes 14.0

Yes Yes Yes 3.8

באופן גרפי

Word Phase

Pair Phase Sentence Phase

5.33.8

3621

2014

147

שגיאות

לפעמים המנתח •התחבירי הורס ניתוח

נכון.

לא מכיר ביטויים•פיאת דם ק� מ�

נים שר הפ�

שמות פרטיים•

יש לבנות מנתח ) Abneyטוב יותר (

לבנות לקסיקון של ביטויים

לבנות תכנה לזיהוי שמות פרטיים

הפיתרון הבעיה

מסקנות

בעיית בחירת הניתוח המורפולוגי הנכון •בעברית היא לא פשוטה.

ניתן, באמצעים סטטיסטיים, לפתור את רב •המשמעות של רוב המילים.

היוריסטיקות נוספות: •one discourse – one analysis

יש מקום לשיפורים.•