![ישן](https://static.fresh.co.il/images/vBulletin/statusicon/post_old.gif)
22-03-2010, 17:52
|
|
|
חבר מתאריך: 10.06.07
הודעות: 23
|
|
translation validity estimate
היי
אני מקווה שהכותרת לא מפוצצת מידי, לא ידעתי איך לתאר את זה...
אני מתכנת ספציפית ב- PHP, אבל זה יותר בנושא אלגוריתם, שפת התכנות עצמה לא משנה.
אני רוצה לכתוב קוד שידע להסתכל על שני קטעים של טקסט, בשתי שפות שונות, ויוכל להעריך האם טקסט ב יכול להיות תרגום של טקסט א.
חשבתי לערוך כאן אלגוריתם שישקלל:- כמות ממוצעת של אותיות במילה לכל שפה
- כמות מילים במשפט, כפונקציה של אורך הסטרינג
- יחס אותיות למילים, אותיות לאורך הסטרינג
- מרווח סעות - סטיית תקן כלשהי?
הבעיה שאותה אני מחפש לפתור:
אם היו לי 3 שורות מטקסט א', והן היו מתורגמות ל- 3 שורות בטקסט ב' לא הייתה בעיה.
אבל - כאשר טקסט א' מתורגם, יכול להיות שהוא "ייחתך" ליותר משורה אחת בטקסט ב'. ז"א, שאני צריך לדעת לזהות שהחיבור של כמה שורות בעצם מקורו בשורה אחת בטקסט המקורי. אני חושב שהדרך של הערכת נכונות התרגום היא הדרך לעשות את זה.
אני אשמח לשמוע את הצעותיכם בעניין, ובכלל זה:- האם ישנם עוד שיקולים שצריך להתחשב בהם
- איזו אימפלמנטציה כדאי לעשות כאן (חישוב מתמטי במכה אחת, סריקה עפ"י קטעים...)
- מאיפה לקחת את הממוצעים - מתוך הטקסט עצמו + ס.ת. או כגדלים קבועים
מצאתי את הקישור הנ"ל:
http://stackoverflow.com/questions/...japanese-source
אבל הוא לא הכי עוזר לי, יש פה יותר מידי דיון על הדיאלקטים השונים של שפה יחידה.
לצורך העניין, אני מדבר על שפה עם דיאלקט יחיד (למשל, מאנגלית לעברית, מאנגלית לצרפתית, וכו')
תודה,
עמית
|