আমার পরিসংখ্যানবিদ বন্ধুরা - সময় থাকলে রেগুলার এক্সপ্রেশন (regex) শিখে নাও। R দিয়ে regex ততটা সহজে করা না গেলেও যারা R এ অভ্যস্ত তাদের জন্য অনেক প্যাকেজ আছে যা দিয়ে কাজ চালানো যায়। যারা Python শিখছ তারাও এদিকে একটু নজর দিও।
R package: base, stringr (better)
আমি Sorowar ভাইয়ের সাথে একটা কাজ করতে গিয়ে আজ সারাদিন ব্যয় করেছি এর পিছনে। যতটা কঠিন মনে করেছিলাম ততটা নয়। সমস্যা হলো R ভিত্তিক এর উপর সহজ এবং সিস্টেমেটিক কোন রেফারেন্স নাই। শেষ পর্যন্ত পেয়েছি একটা যথেষ্ট কাজের। লিংক এখানে।
আমি কী কাজে এটা ব্যবহার করবো?
ভালো প্রশ্ন। সহজে বলি। পিডিএফ ফাইল থেকে দরকারী ড্যাটা টেক্সট হিসেবে এক্সট্রাক্ট করে সেটাকে এনালাইসিস করার উপযোগি ড্যাটা বানাবো। পিডিএফ থেকে টেবুলার ড্যাটা এক্সট্রাক্ট করার কোন সহজ উপায় নাই যেটা scalable. আর সেজন্যই ভাবলাম regex অনেকটা মন্দের ভালো।
আর কী কাজে লাগে?
টেক্সটমাইনিং।
বিশেষ পরামর্শ:
রেগুলার এক্সপ্রেশন আগে ভালমতো না শিখে কখোনই যেন বোঝার চেষ্টা করিওনা কেমনে এই জিনিস দিয়ে কাজ করে। মাথা দিয়ে ধোঁয়া বের হবে। আমারো সেরকম হয়েছিল। পরে মাথায় পানি ঢেলে এসে দেড় ঘন্টা ব্যয় করে বইটা পড়ার পর মাথা ঠান্ডা হয়েছে :)
R package: base, stringr (better)
আমি Sorowar ভাইয়ের সাথে একটা কাজ করতে গিয়ে আজ সারাদিন ব্যয় করেছি এর পিছনে। যতটা কঠিন মনে করেছিলাম ততটা নয়। সমস্যা হলো R ভিত্তিক এর উপর সহজ এবং সিস্টেমেটিক কোন রেফারেন্স নাই। শেষ পর্যন্ত পেয়েছি একটা যথেষ্ট কাজের। লিংক এখানে।
আমি কী কাজে এটা ব্যবহার করবো?
ভালো প্রশ্ন। সহজে বলি। পিডিএফ ফাইল থেকে দরকারী ড্যাটা টেক্সট হিসেবে এক্সট্রাক্ট করে সেটাকে এনালাইসিস করার উপযোগি ড্যাটা বানাবো। পিডিএফ থেকে টেবুলার ড্যাটা এক্সট্রাক্ট করার কোন সহজ উপায় নাই যেটা scalable. আর সেজন্যই ভাবলাম regex অনেকটা মন্দের ভালো।
আর কী কাজে লাগে?
টেক্সটমাইনিং।
বিশেষ পরামর্শ:
রেগুলার এক্সপ্রেশন আগে ভালমতো না শিখে কখোনই যেন বোঝার চেষ্টা করিওনা কেমনে এই জিনিস দিয়ে কাজ করে। মাথা দিয়ে ধোঁয়া বের হবে। আমারো সেরকম হয়েছিল। পরে মাথায় পানি ঢেলে এসে দেড় ঘন্টা ব্যয় করে বইটা পড়ার পর মাথা ঠান্ডা হয়েছে :)
No comments:
Post a Comment