15-03-2011, 06:41
|
מנהל פורומי "תכנות ובניית אתרים" ו"חומרה ורשתות"
|
|
חבר מתאריך: 25.10.01
הודעות: 42,775
|
|
substr סופר סתם בתים, כי פעם כל אות תפסה בדיוק בייט אחד (8 ביטים) - מה שאנו מכנים לרוב ASCII Table. היו 256 אפשרויות, וחוץ מאותיות לטיניות, יכולת להציג רק שפה אחרת אחת בו זמנית, והתוכנה הייתה צריכה לדעת איך לפענח את הקודים האלה (מחשבים בחו"ל, למשל, הראו עברית בתור יוונית, כי לא צרבו לכרטיסי המסך שלהם פונטים עבריים עבור תווים 128 עד 154 אם אני זוכר את המספרים נכון )
מאז העולם קצת התקדם, ונוצרו שיטות קידוד שמאפשרות לציין את כל סוגי התווים הקיימים בעולם, באותה השיטה, בלי טריקים. קוראים לזה... Unicode, למשל. רוב האנשים מכירים באינטרנט את UTF-8 שזו אחת הדרכים לייצג את הנ"ל (יש דרכים אחרות). אז איך מכניסים אלפים שונים של צירופים למשתנה בזיכרון שיכול להכיל רק 256 קומבינציות? תשובה: לא עושים את זה. פשוט מאפשרים לכל אות להיות מאוחסנת ביותר מתא אחד, באמצעות שיטה מסויימת. מעתה אמור: תווים מאוחסנים כ Multi-Byte (או בקיצור "MB").
ההבדל בין substr ל mb_substr הוא ש substr סופר בתים, כי פעם כל אות הייתה בייט אחד. ההנחה הזאת סיכוי טוב שאינה נכונה היום, ולכן, אם למשל תעשה strlen על מחרוזת עברית (ללא תווים לא-עבריים ואני כולל בזה רווחים, מספרים וסימנים אחרים מטבלת ה ASCII המקורית, לשם הפשטות) המקודדת ב utf-8, התוצאה שלך תהיה פי 2 מאורך המחרוזת בפועל, משום שכל תו יתפוס שני בתים, וזה מה ש substr סופר. לעומת זאת, mb_substr, מקבל כפרמטר את הקידוד שבו מאוחסנת המחרוזת (בהנחה שהוא נכון...) ועוברת על כל תו ותו לפי הקידוד, וסופרת תווים, ולא בתים, כך שלמשל האות "א" המקודדת ב utf-8 תיספר כאות אחת ולא שתיים.
|