2016/10/08

রেগুলার এক্সপ্রেশন

আমার পরিসংখ্যানবিদ বন্ধুরা - সময় থাকলে রেগুলার এক্সপ্রেশন (regex) শিখে নাও। R দিয়ে regex ততটা সহজে করা না গেলেও যারা R এ অভ্যস্ত তাদের জন্য অনেক প্যাকেজ আছে যা দিয়ে কাজ চালানো যায়। যারা Python শিখছ তারাও এদিকে একটু নজর দিও।

R package: base, stringr (better)

আমি Sorowar ভাইয়ের সাথে একটা কাজ করতে গিয়ে আজ সারাদিন ব্যয় করেছি এর পিছনে। যতটা কঠিন মনে করেছিলাম ততটা নয়। সমস্যা হলো R ভিত্তিক এর উপর সহজ এবং সিস্টেমেটিক কোন রেফারেন্স নাই। শেষ পর্যন্ত পেয়েছি একটা যথেষ্ট কাজের। লিংক এখানে

আমি কী কাজে এটা ব্যবহার করবো?

ভালো প্রশ্ন। সহজে বলি। পিডিএফ ফাইল থেকে দরকারী ড্যাটা টেক্সট হিসেবে এক্সট্রাক্ট করে সেটাকে এনালাইসিস করার উপযোগি ড্যাটা বানাবো। পিডিএফ থেকে টেবুলার ড্যাটা এক্সট্রাক্ট করার কোন সহজ উপায় নাই যেটা scalable. আর সেজন্যই ভাবলাম regex অনেকটা মন্দের ভালো।

আর কী কাজে লাগে?

টেক্সটমাইনিং।

বিশেষ পরামর্শ:

রেগুলার এক্সপ্রেশন আগে ভালমতো না শিখে কখোনই যেন বোঝার চেষ্টা করিওনা কেমনে এই জিনিস দিয়ে কাজ করে। মাথা দিয়ে ধোঁয়া বের হবে। আমারো সেরকম হয়েছিল। পরে মাথায় পানি ঢেলে এসে দেড় ঘন্টা ব্যয় করে বইটা পড়ার পর মাথা ঠান্ডা হয়েছে :)

No comments:

Post a Comment