புள்ளிவலை

மூளைக்குத் தீனியில்லாத போழ்து
சிறிது மனதுக்கும் ஈயப்படும்.
posts - 23, comments - 60, trackbacks - 0

உயிர்மை இதழும், தமிழுக்கான ரெகுலர் எக்ஸ்ப்ரஷனும்

மனுஷ்யபுத்திரன் நடத்தும் உயிர்மை இதழை இணையத்திலும் படிக்க முடியும் என்பதை இன்றுதான் அறிந்து கொண்டேன். இதைப் படிப்பதற்கு அத்தளத்தில் உறுப்பினராகப் பதிந்துகொள்ள வேண்டும். இதற்கு கட்டணம் ஏதும் கிடையாது. இத்தளம் .நெட் தொழில்நுட்பத்திலேயே உருவாக்கப்பட்டுள்ளது.

இத்தளத்தில் ஒரு சிறு குறை, விண்ணப்பப்படிவத்தில் நம் பெயரைத் தமிழில் கொடுக்க முடியாது. ஆங்கிலத்தில்தான் கொடுக்க முடியும். டாட்நெட்டின் உள்ளமைந்த வேலிடேஷன் கண்ட்ரோல்களைக் கொண்டே பயனர் கொடுக்கும் விவரங்களைச் சரிபார்க்குமாறு அமைத்திருக்கிறார்கள்.  அவ்வகையில், பெயரைச் சரிபார்க்க, ரெகுலர் எக்ஸ்ப்ரஷன் கண்ட்ரோலைப் பயன்படுத்தி இருக்கிறார்கள். எனினும் இந்த கண்ட்ரோலின் வேலிடேஷன் எக்ஸ்ப்ரஷனாக ^[a-z A-Z]+$ என்று கொடுத்துள்ளார்கள். இதனால், ஆங்கில எழுத்துக்கள் மற்றும் வெற்றிடத்தைத் தவிர வேறு எந்த ஒரு எழுத்தையும் பெயரை உள்வாங்கிக்கொள்ளும் டெக்ஸ்ட்பாக்ஸ் அனுமதிக்காது.

எனவே, இந்த ரெகுலர் எக்ஸ்ப்ரஷனில் இத்தள நிர்வாகிகள் ஒரு சிறு மாறுதல் செய்தால் இப்பிரச்சனை சரியாகிவிடும். ^[a-z A-Z]+$ என்று இருக்கும் எக்ஸ்ப்ரஷனை, ^[a-z A-Z ஃ-ௗ]+$ என்று மாற்றிவிட்டால் போதும், தமிழ் மற்றும் ஆங்கிலம் இரண்டையுமே உள்ளிடலாம். யூனிகோட் சார்ட்டின் படி, தமிழ் எழுத்துக்கள் 2946 இடத்திலிருந்து 3058 வரையிலும் இருக்கின்றன. இதில் 3047லிருந்து 3058 வரையான இடங்கள் தமிழ் எண்களுக்காக ஒதுக்கப்பட்டுள்ளன. எனவே, என்று பெயர்களைத் தமிழில் சரிபார்க்க ஃ-௲ என்று ரெகுலர் எக்ஸ்ப்ரஷன் தவராகும். அதனால், ஃ-ௗ என்று கொடுப்பதே சரியானது. ம்ம், ஆமாம். யூனிகோடின் கணக்குப்படி, தமிழின் முதல் எழுத்து தான்

இதேபோல், ஒருவரது வயது, அனுபவம் போன்றவற்றை தமிழ் எண்களின் படி சரிபார்க்க வேண்டுமென்றால், ரெகுலர் எக்ஸ்ப்ரஷனில் ^[௧-௲]+$ என்று கொடுக்கவேண்டும். கவனிக்கவும், , இரண்டும் பார்ப்பதற்கு ஒரே மாதிரியாக இருந்தாலும் இரண்டும் வெவ்வேறானவை. முந்தயது தமிழ் எழுத்து. பிந்தையது தமிழில் 1 என்ற எண்ணைக் குறிக்கும் எழுத்து.

பி.கு.: நான் இங்கே கொடுத்திருக்கும் ரெகுலர் எக்ஸ்ப்ரஷனில் யூனிகோட் 3.2 அட்டவணையை மட்டுமே எடுத்துக்கொண்டுள்ளேன். 4.1, 5.0 எல்லாம் பற்றி தெரியவில்லை. எனவே, 3046ல் உள்ள பூஜ்ஜியத்தையும் இதில் சேர்க்கவில்லை. தமிழில் எண்களை எழுதும்போது ‘பூஜ்ஜியம்' தேவையே இல்லை என்பது வேறு விஷயம். இன்னொரு விஷயம், தமிழில் பின்னங்களை நம் முன்னோர்கள் எத்தனையோ நுணுக்கமாகப் பயன்படுத்தி, அதற்கென தனித்தனிப்  பெயர், எழுத்துக் குறியீடு எல்லாம் வைத்திருந்தாலும் அவையெல்லாம் யூனிகோடில் இணையும் அளவுக்குப் புண்ணியம் செய்திருக்கவில்லை. எனவே, பின்ன எழுத்துக்களை இந்தோ-அரபி எழுத்து முறையிலேயே பயன்படுத்திக்கொள்ளவேண்டியதுதான்.

Print | posted on Thursday, August 21, 2008 1:45 AM | Filed Under [ ஜாவாஸ்க்ரிப்ட் ஏஎஸ்பி.நெட் ]

Feedback

Gravatar

# re: உயிர்மை இதழும், தமிழுக்கான ரெகுலர் எக்ஸ்ப்ரஷனும்

பெயரை ஆங்கிலத்தில் கொடுத்தால் குடியா முழுகிவிடும்? நீயும் உன் டாட்நெட்டும்.
8/21/2008 11:28 PM | goinchami_01
Gravatar

# re: உயிர்மை இதழும், தமிழுக்கான ரெகுலர் எக்ஸ்ப்ரஷனும்

வலைப்பூவின் பெயரா? யாராவது உருப்படியா எழுதறவங்களுக்காக இருக்கட்டுமேன்னுதான் தியாகம் பண்ணிட்டேன்.

Post Comment

Title  
Name  
Email
Url
Comment   
Please add 4 and 1 and type the answer here:

Powered by: