புள்ளிவலை

மூளைக்குத் தீனியில்லாத போழ்து
சிறிது மனதுக்கும் ஈயப்படும்.
posts - 20, comments - 45, trackbacks - 0

Thursday, August 21, 2008

உயிர்மை இதழும், தமிழுக்கான ரெகுலர் எக்ஸ்ப்ரஷனும்

மனுஷ்யபுத்திரன் நடத்தும் உயிர்மை இதழை இணையத்திலும் படிக்க முடியும் என்பதை இன்றுதான் அறிந்து கொண்டேன். இதைப் படிப்பதற்கு அத்தளத்தில் உறுப்பினராகப் பதிந்துகொள்ள வேண்டும். இதற்கு கட்டணம் ஏதும் கிடையாது. இத்தளம் .நெட் தொழில்நுட்பத்திலேயே உருவாக்கப்பட்டுள்ளது.

இத்தளத்தில் ஒரு சிறு குறை, விண்ணப்பப்படிவத்தில் நம் பெயரைத் தமிழில் கொடுக்க முடியாது. ஆங்கிலத்தில்தான் கொடுக்க முடியும். டாட்நெட்டின் உள்ளமைந்த வேலிடேஷன் கண்ட்ரோல்களைக் கொண்டே பயனர் கொடுக்கும் விவரங்களைச் சரிபார்க்குமாறு அமைத்திருக்கிறார்கள்.  அவ்வகையில், பெயரைச் சரிபார்க்க, ரெகுலர் எக்ஸ்ப்ரஷன் கண்ட்ரோலைப் பயன்படுத்தி இருக்கிறார்கள். எனினும் இந்த கண்ட்ரோலின் வேலிடேஷன் எக்ஸ்ப்ரஷனாக ^[a-z A-Z]+$ என்று கொடுத்துள்ளார்கள். இதனால், ஆங்கில எழுத்துக்கள் மற்றும் வெற்றிடத்தைத் தவிர வேறு எந்த ஒரு எழுத்தையும் பெயரை உள்வாங்கிக்கொள்ளும் டெக்ஸ்ட்பாக்ஸ் அனுமதிக்காது.

எனவே, இந்த ரெகுலர் எக்ஸ்ப்ரஷனில் இத்தள நிர்வாகிகள் ஒரு சிறு மாறுதல் செய்தால் இப்பிரச்சனை சரியாகிவிடும். ^[a-z A-Z]+$ என்று இருக்கும் எக்ஸ்ப்ரஷனை, ^[a-z A-Z ஃ-ௗ]+$ என்று மாற்றிவிட்டால் போதும், தமிழ் மற்றும் ஆங்கிலம் இரண்டையுமே உள்ளிடலாம். யூனிகோட் சார்ட்டின் படி, தமிழ் எழுத்துக்கள் 2946 இடத்திலிருந்து 3058 வரையிலும் இருக்கின்றன. இதில் 3047லிருந்து 3058 வரையான இடங்கள் தமிழ் எண்களுக்காக ஒதுக்கப்பட்டுள்ளன. எனவே, என்று பெயர்களைத் தமிழில் சரிபார்க்க ஃ-௲ என்று ரெகுலர் எக்ஸ்ப்ரஷன் தவராகும். அதனால், ஃ-ௗ என்று கொடுப்பதே சரியானது. ம்ம், ஆமாம். யூனிகோடின் கணக்குப்படி, தமிழின் முதல் எழுத்து தான்

இதேபோல், ஒருவரது வயது, அனுபவம் போன்றவற்றை தமிழ் எண்களின் படி சரிபார்க்க வேண்டுமென்றால், ரெகுலர் எக்ஸ்ப்ரஷனில் ^[௧-௲]+$ என்று கொடுக்கவேண்டும். கவனிக்கவும், , இரண்டும் பார்ப்பதற்கு ஒரே மாதிரியாக இருந்தாலும் இரண்டும் வெவ்வேறானவை. முந்தயது தமிழ் எழுத்து. பிந்தையது தமிழில் 1 என்ற எண்ணைக் குறிக்கும் எழுத்து.

பி.கு.: நான் இங்கே கொடுத்திருக்கும் ரெகுலர் எக்ஸ்ப்ரஷனில் யூனிகோட் 3.2 அட்டவணையை மட்டுமே எடுத்துக்கொண்டுள்ளேன். 4.1, 5.0 எல்லாம் பற்றி தெரியவில்லை. எனவே, 3046ல் உள்ள பூஜ்ஜியத்தையும் இதில் சேர்க்கவில்லை. தமிழில் எண்களை எழுதும்போது ‘பூஜ்ஜியம்' தேவையே இல்லை என்பது வேறு விஷயம். இன்னொரு விஷயம், தமிழில் பின்னங்களை நம் முன்னோர்கள் எத்தனையோ நுணுக்கமாகப் பயன்படுத்தி, அதற்கென தனித்தனிப்  பெயர், எழுத்துக் குறியீடு எல்லாம் வைத்திருந்தாலும் அவையெல்லாம் யூனிகோடில் இணையும் அளவுக்குப் புண்ணியம் செய்திருக்கவில்லை. எனவே, பின்ன எழுத்துக்களை இந்தோ-அரபி எழுத்து முறையிலேயே பயன்படுத்திக்கொள்ளவேண்டியதுதான்.

posted @ Thursday, August 21, 2008 1:45 AM | Feedback (2) | Filed Under [ ஜாவாஸ்க்ரிப்ட் ஏஎஸ்பி.நெட் ]

Powered by: