ভয়েস রিকগনিশন সফটওয়্যার | কম্পিউটার কিভাবে মানুষের ভাষা বোঝে?
কম্পিউটার কিভাবে ভয়েস রিকগনিশন করতে পারে?
এটা সত্যিই অনেক ভালো কথা, যে আমরা মানুষেরা ভয়েস বা স্পিচ বুঝতে পারি। যদি আমরা মানুষেরা কম্পিউটারের মতো কাজ করতাম, তাহলে আমার মাথার সাথে সরাসরি কী-বোর্ড লাগানো থাকতো, আর কারো সাথে কিছু বলার জন্য তার কী-বোর্ডে টাইপ করে তাকে জানাতে হতো। ঠিক আমার নিজের সাথেও এমন হতো, কোন কথাবার্তা নেই, জাস্ট কী-বোর্ডে আঙ্গুল নাচাতে দেখা যেতো! মানুষেরা কখনোই এই জগাখিচুড়ি পদ্ধতি ব্যবহার করে কাজ করবে না, তাহলে এই আজব পদ্ধতি অনুসরণ করে কেন আমরা কম্পিউটার ব্যবহার করি? কম্পিউটার বিজ্ঞানীরা বহু বছর ধরে এই স্বপ্ন দেখেছে, কিভাবে কম্পিউটারের সাথে মানুষের মতো যোগাযোগ করা যাবে—আর আবিষ্কৃত হয়েছে ভয়েস রিকগনিশন পদ্ধতি যা অ্যাপ্লাই করে তৈরি করা হয়েছে ভয়েস রিকগনিশন সফটওয়্যার—আর এখন ভয়েস রিকগনিশনের ব্যবহার মডার্ন স্মার্টফোন, পিসি, স্মার্ট হোম গুলোতে করতে দেখা যাচ্ছে।
আপনার স্মার্টফোনের পার্সোনাল ডিজিটাল অ্যাসিস্ট্যান্ট; কর্টানা, সিরি, গুগল অ্যাসিস্ট্যান্ট—স্মার্ট স্পীকারের আলেক্সা—উইন্ডোজ কম্পিউটারের কর্টানা—তে ভয়েস রিকগনিশন পদ্ধতি ব্যবহার করে কাজ করানো হয়েছে। অনেক প্রতিষ্ঠানের কল সেন্টারে আসল মানুষ বসে থাকে না, থাকে রোবট, আর সেখানে ভয়েস রিকগনিশনের সাহায্যে আপনাকে বিভিন্ন বাটন প্রেস করতে বলা হয়। সাধারণত আপনি যেগুলো তথ্য মুখে বলে ইনপুট করেন কম্পিউটার মেশিনে, তার উপর ভিত্তি করে আপনাকে আউটপুট রেজাল্ট দেখানো হয়, আর এটা শুধু মাত্র সম্ভব হয় ভয়েস রিকগনিশন সফটওয়্যার বা স্পিচ রিকগনিশন সফটওয়্যারের মাধ্যমে। আমরা মানুষেরা যতোদ্রুত আরেক মানুষের ভাষা আর ভয়েস বুঝতে সক্ষম, কম্পিউটারের কাছে সেটা অসম্ভব কঠিন। আর এটা মানতেই হবে স্পিচ রিকগনিশন একটি কমপ্লেক্স প্রবলেম, কম্পিউটার আর স্মার্টফোনে আজকে ডিজিটাল অ্যাসিস্ট্যান্ট থাকলেও, সেটা কিন্তু অনেক সীমিত কাজ করতে পারে, মাত্র কতিপয় কম্যান্ডই গ্রহন করতে পারে, কী-বোর্ডের মতো যেকোনো ইনপুট দেওয়া যায় না। এমনকি আজকের পৃথিবীর বেস্ট কম্পিউটার বিজ্ঞানী আর গণিতবিদ এবং ভাষাবিদ’দের কাছে স্পিচ রিকগনিশন একটি বিশাল চ্যালেঞ্জ।
তো আমরা কি খুব দ্রুতই সকল সমস্যার সমাধান করে কম্পিউটারের সাথে আরামে ভয়েস চ্যাটিং করতে পারবো? স্মার্টফোনে কি ভয়েস ব্যবহার করে যেকোনো টাস্ক করানো যাবে? আমরা সেই ভবিষ্যৎ থেকে আর কতোটুকু দূরে? চলুন বিস্তারিত আলোচনা করা যাক…
স্পিচ রিকগনিশন
স্পিচ রিকগনিশন অবশ্যই প্রয়োজনীয় এবং গুরুত্বপূর্ণ একটি প্রোজেক্ট, আপনি মহা অলস, তাই ডিজিটাল অ্যাসিস্ট্যান্ট বা কথা বলিয়ে কম্পিউটার দিয়ে সব কাজ করিয়ে নিতে চান, সেটা আলাদা ব্যাপার। কিন্তু চিন্তা করে দেখুন কোন পঙ্গু ব্যক্তির কথা যার হাত নেই, সে কোন ভাবেই কী-বোর্ড ব্যবহার করে কম্পিউটারে ইনপুট করতে পারবে না। তাহলে কি সে কম্পিউটার ব্যবহার করবে না? কিন্তু স্পিচ রিকগনিশনে তুলনামুলক উন্নতি আনা সম্ভব হলে, সে ব্যক্তিটিও সহজেই কম্পিউটার ব্যবহার করতে পারবে। কিন্তু কীসের এতো জটিলতা? চলুন বিষয় গুলো বিস্তারিতভাবে গভীর দৃষ্টি দেখা যাক;
আমরা মানুষেরা কথা বলতে মানে একে অপরের ভাব শেয়ার করার জন্য ভাষার ব্যবহার করে থাকি। আমাদের পৃথিবীর আরো ইনটেলিজেন্ট প্রাণীরা কিন্তু যেমন- কুকুর, ডলফিন, তারা কিন্তু জানে, কিভাবে শব্দের ব্যবহার করে যোগাযোগ করতে হয়। আর সেখানে আমরা কমপ্লেক্স ভাষার ব্যবহার করে যোগাযোগ করতে পছন্দ করি। আমরা যখন কথা বলি, আমাদের ভিয়েস থেকে শব্দ আসলে টুকরা টুকরা হয়ে বেড় হয়, যাকে ফোনস (Phones) বলা হয়। এই ফোনস থেকে প্যাকেট গুলো একত্রিত হয়ে পূর্ণ শব্দ এবং তারপরে বাক্য তৈরি হয়। এর মানে হচ্ছে, আপনি যদি উচ্চারণ করেন, “ওয়্যারবিডি” তাহলে তার ফোনস হবে “টে” “এ” “ক” “হা” “ব” “স” । যাই হোক, আমরা বিশেষ করে ফোনিমস (Phonemes) টার্মটির সাথে বেশি সম্পর্ক যুক্ত। ফোনিমস’কে এক ধরণের শব্দ ব্লক বলতে পারেন, যার মাধ্যমে মানে ব্লক গুলো পূর্ণ হয়ে একটি পূর্ণ শব্দ তৈরি করে।
এখন আপনাকে যদি ফোনস আর ফোনিমস এর মধ্যে পার্থক্য বুঝাতে যাই, তো সবকিছু মাথার উপর দিয়ে যাবে, কেনোনা বিষয় গুলো বুঝতে অসম্ভব কঠিন ব্যাপার। যদি এক লাইনে কোন ঝামেলা ছাড়া বলতে চাই, তো ফোনস হলো আমাদের বলা শব্দের এক একটি বিট—আর ফোনিমস হলো, শুধু আইডিয়াল বিট মানে আমরা যে শব্দ গুলো প্রতিনিয়তই ব্যবহার করি। আমরা যে শব্দ গুলোর সাথে পরিচিত, আমাদের মস্তিষ্কে সেগুলো বিশেষভাবে সংরক্ষিত থাকে, ফলে সে শব্দ গুলোর উচ্চারণ ভঙ্গি হওয়ার সাথে সাথেই আমরা বুঝতে পারি, কি শব্দ শুনতে চলেছি।
কম্পিউটার আর কম্পিউটার সিস্টেম ফোনিমস এর সাথে কাজ করতে পারে না, তবে ফোনস’কে প্রসেসিং করতে পারে। যখন আমরা কথা বলি, আমাদের কান বাতাসে ভেসে আসা ফোনস ক্যাচ করে আর আমাদের ব্রেইন সেই ফোনস থেকে শব্দে, বাক্যে, ভাবনা, অনুভূতি, এবং আইডিয়াতে পরিনত করে দেয়। প্রত্যেকটি শব্দ আর বাক্যের পেছনে আমাদের মস্তিষ্কে আলাদা আলাদা ফিলিংস থাকে। তাছাড়া আমরা আরেক মানুষের ঠোট নড়াচড়া থেকেও কি শব্দ সেখানে উৎপন্ন হবে সেটা বুঝতে পারি, আর অনেক শব্দের পরের সম্ভাব্য কোন শব্দটি শুনতে চলেছি সেটাও অনেক সময় মস্তিষ্ক আগেই অনুমান করে ফেলে। আর এই সকল কমপ্লেক্স প্রসেস গুলো আমাদের মস্তিষ্ক এমনভাবে হ্যান্ডেল করতে পারে, যাতে এটা কোন ব্যাপারই না, জাস্ট ম্যাজিক! আমরা সহজেই কোন কিছু শুনতে পারি, আর এটা আমাদের ব্রেইনের স্পেশালিটি, কিন্তু কম্পিউটারকে প্রথমে সেটা শুনতে হয়, তারপরে রিকগনাইজ করতে হয়, এবং আমাদের ওয়ার্ডে ডিকোড করতে হয়, তবেই কাজ করে।
স্পিচ সত্যি বলতে হ্যান্ডেল করা প্রচণ্ড কঠিন ব্যাপার। যদি আপনি এমন কোন পরিবেশে ধরুন আপনি কোন পার্টিতে রয়েছেন, সেখানে আরেকজনের কথা শুনতে পাওয়া এবং বুঝতে পারা প্রচণ্ড কঠিন কাজ। আবার যখন কেউ দ্রুত কথা বলে, তার শব্দ গুলো অনেক দ্রুত পরিবর্তন হয়ে যায় ফলে বুঝতে অনেক অসুবিধা হতে পারে। আরেকটি বিশাল সমস্যা হচ্ছে, প্রত্যেকের ভয়েস আলাদা আলাদা হয়ে থাকে। শুধু তাই নয়, প্রত্যেকের কথা বলার ভঙ্গিও আলাদা আলাদা হয়ে থাকে। অনেক শব্দ রয়েছে যেগুলো শুনতে প্রায় একই রকমের, কিন্তু অর্থ সম্পূর্ণ আলাদা হয়ে থাকে। যেমন রেড (লাল) এবং রীড (পড়া); আমাদের ব্রেইন কিভাবে ডিটেক্ট করে ফেলে স্পীকার কোন সময় কোন শব্দটি কোন বাক্যের ক্ষেত্রে ব্যবহার করছে?
এটা আপনার জেনে একদমই আশ্চর্য হওয়ার কিছু নেই, কম্পিউটার আমাদের ব্রেইন থেকে অনেকবেশি কাঁচা। আমরা যেটা ম্যাজিকের মতো করে ফেলি, কম্পিউটারের সেটা সম্পূর্ণ করতে জান বেড় হয়ে যায়। বহুত টাইপের প্রসেস আর কমপ্লেক্স প্রসেসিং সম্পূর্ণ করার পরে মানুষের সিম্পল কোন কাজ কম্পিউটার সম্পূর্ণ করতে পারে।
কম্পিউটার কিভাবে ভয়েস রিকগনিশন করতে পারে?
কম্পিউটার সায়েন্স জগতে স্পিচ রিকগনিশন সবচাইতে চ্যালেঞ্জিং ব্যাপার। এখানে প্রচণ্ড জটিল ভাষাবিদ্যার ব্যাপার থাকে, গনিতবিদ্যার বিষয় থাকে, আর কম্পিউটিং তো রয়েছেই। যদিও এখানে আমি কোন কমপ্লেক্স কিছু শেয়ার করতে চলছি না, ব্যাট আপনি যদি এই বিষয়ের উপর কোন গবেসনার পেপার সরাসরি পড়েন, বুঝতে পারবেন সত্যিই কতোটা কমপ্লেক্স টাস্ক। আমি নিজেও অনেক হিমশিম খেয়ে গেছি সেগুলো দেখতে গিয়ে, আর অনেক কিছু তো মাথায় ঢুকাতেই পারি নি। যাই হোক, যতোটুকু সম্ভব এখানে সহজে বর্ণনা করার চেষ্টা করছি;
কম্পিউটার মূলত ৪টি আলাদা আলাদা পদ্ধতি ব্যবহার করে স্পিচ রিকগনাইজ করে থাকে। সাধারণ প্যাটার্ন ম্যাচিং, প্যাটার্ন এবং ফিচার এনালাইসিস, ল্যাংগুয়েজ মডেলিং অ্যান্ড স্ট্যাটিস্টিক্যাল এনালাইসিস এবং আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক। স্পিচ রিকগনিশন প্রসেস শুরু হয় শব্দের ভাঙ্গা ভাঙ্গা অংশ গুলো শোনার মাধ্যমে, আর অবশ্যই কম্পিউটারের কোন কান থাকে না, বদলে কম্পিউটার মাইক্রোফোন ব্যবহার করে শব্দ ক্যাপচার করে।
এখন প্রথমে যখন আপনি কথা বলেন, সেটাকে সেই ফরম্যাটে কখনোই সরাসরি কম্পিউটার চিনতে বা বুঝতে পারবে না। আপনি যখন কথা বলেন সেটা বাতাসে কম্পাংকের মাধ্যমে একটি তরঙ্গ ঢেউয়ের সৃষ্টি হয়, যেটা সম্পূর্ণ এনালগ ফরম্যাটে থাকে। কিন্তু কম্পিউটারে সে ডাটাকে প্রসেস করানোর জন্য অবশ্যই ডিজিটাল ফরম্যাটে পরিবর্তন করতে হয়। এখানে এনালগের আপ ডাউন ওয়েভ ফরম্যাটকে ডিজিট বা নাম্বারে কনভার্ট করা হয়। একটি সফটওয়্যার যার নাম, এনালগ টু ডিজিটাল কনভার্টার, এই কাজটি সম্পূর্ণ করে। অ্যানালগ এবং ডিজিটাল টেকনোলজি বুঝতে, আমার আলাদা আর্টিকেলটি পড়তে পারেন। অডিও সিস্টেমে একটি সাউন্ড ফিল্টার থাকে, যেটা অপ্রয়োজনীয় শব্দ বা নয়েজকে রিমুভ করে দেয়। তাছাড়া সাউন্ডকে নর্মালাইজ করা হয় এবং একটি স্থির লেভেলে জুড়ে দেওয়া হয়। এখন বিষয়টি হচ্ছে, মানুষ কিন্তু সর্বদা একই স্পীডে কথা বলে না, তাই আপনার কম্পিউটার সফটওয়্যার বা মোবাইল সফটওয়্যারে যে স্পীড রিকগনিশন করার ক্ষমতা রয়েছে, স্পিচকেউ সেই স্পীডে কনভার্ট করে দেওয়া হয়, যাতে ভয়েস রিকগনিশন সফটওয়্যার সেটা বুঝতে পারে।
এবার ক্যাপচার করা সাউন্ডকে সেকেন্ডে শতশত খন্ডে বিভক্ত করে দেওয়া হয়, অনেক সময় হাজার খন্ডে বিভক্ত করা হয়। এই ডিজিটাল প্রসেসের মাধ্যমে সাউন্ডের মধ্যে থাকা আপনার স্পিচ গুলোকে ছেঁকে বেড় করে নেয়। যখন শব্দ থেকে ওয়ার্ড বেড় করে নেওয়া হয়, তখন ডাটাবেজে সেই শব্দের অর্থ খোঁজা হয়, তারপর সফটওয়্যারটি বুঝতে চেষ্টা করে স্পীকার কি বলেছে এবং সেই অনুসারে আপনার স্মার্টফোন বা কম্পিউটার ইনপুট গ্রহন করে। ইনপুট দেওয়ার পরে কম্পিউটার ইনপুট অনুসারে কাজ করে আপনার সামনে আউটপুট রেজাল্ট প্রদান করে।
তো চিন্তা করে দেখুন, আপনি যখন আপনার ফোনের ডিজিটাল অ্যাসিস্ট্যান্ট বা কর্টানা’কে জিজ্ঞাস করেন, “হোয়াট ইজ ইউর নেম” —তখন আপনার এই প্রশ্ন বুঝতে কতোগুলো প্রসেস সম্পূর্ণ করতে হয়, তারপরে সফটওয়্যারটি চেক করে আপনার ভয়েসে কোন ওয়ার্ড রয়েছে, সেটাকে ডিকশনারি’র সাথে ম্যাচ করানো হয়, তারপরে সম্পূর্ণ বাক্যটি বুঝতে পারলে আপনাকে রিপ্লাই করা হয়। কোন ক্ষেত্রে কোন ওয়ার্ড বা বাক্যের উপর কাজ না করলে আপনি হয়তো মনে করেন সফটওয়্যারটি পুরাই বেকার, কিন্তু এখন নিশ্চয় বুঝতে পাড়ছেন, সফটওয়্যারটিকে কতোটা কমপ্লেক্স জব সম্পূর্ণ করতে হয়, শুধু আপনার বলা কথাটি বোঝার জন্য। আজকের মডার্ন কম্পিউটার ভয়েস রিকগনিশন সফটওয়্যার গুলো আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক ব্যবহার করেও স্পিচের প্যাটার্ন খুঁজে বেড় করে। আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক হচ্ছে এমন একটি কম্পিউটার সিস্টেম যেটা মানুষের মস্তিষ্কের কাজ করার পদ্ধতিকে নকল করে কাজ করে। অর্থাৎ সহজ ভাষায় বলতে পারেন, আমরা যেভাবে কোন শব্দকে শুনে সেটা বুঝতে পারি, এই পদ্ধতিতে কম্পিউটারও একই প্যাটার্ন ব্যবহার করে শব্দকে বোঝার জন্য। বিজ্ঞানীরা এই ব্যাপারে আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক ব্যবহার করে দেখেছে, এটাতে সাধারণ পদ্ধতি থেকে আরোবেশি নির্ভুলতা রয়েছে। আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক সম্পর্কে আমার বিস্তারিত আর্টিকেলটি পড়তে ভুলবেন না, কিন্তু!
ভয়েস রিকগনিশনের ভবিষ্যৎ
আজকের মডার্ন কম্পিউটিং এর ভয়েস রিকগনিশন প্রথম আবিষ্কৃত হয়েছিলো আজ থেকে প্রায় ৫০ বছর পূর্বে। আজকের দিনে ভয়েস রিকগনিশন সফটওয়্যার এর কতিপয় অ্যাপ্লিকেশন আপনার চোখের সামনেই পরে রয়েছে। অনেক কল সেন্টারে অটোমেটিক টেলিফোন কল সিস্টেম থাকে, যেটা আপনার শব্দকে চিনে আপনাকে বাটন টিপতে বলে। আরো অনেক উদাহরণের মধ্যে সবচাইতে গুরুত্বপূর্ণ আর প্রধান ব্যবহৃত উদাহরণ হচ্ছে স্মার্টফোনের ডিজিটাল অ্যাসিস্ট্যান্ট, যেগুলোর সত্যিকারের নাম হচ্ছে ভয়েস রিকগনিশন সফটওয়্যার। অ্যাপেল সিরি, গুগল নাউ (বর্তমানে গুগল অ্যাসিস্ট্যান্ট), উইন্ডোজের কর্টানা; আপনি কি বলছেন সেটা শুনতে পারে, তারপর তার অর্থ খুঁজে বেড় করতে পারে তারপরে আপনার বলা অনুসারে টুডু লিস্ট যুক্ত করতে পারে, আপনার জন্য কাছের রেস্টুরেন্ট খুঁজে দিতে পারে কিংবা আজকের আবহাওয়া বার্তা বলে দিতে পারে।
মোবাইলের ডিজিটাল অ্যাসিস্ট্যান্ট গুলো স্পিচ রিকগনিশন এবং কমপ্লেক্স ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং সিস্টেম, এই দুই সিস্টেমের উপর কাজ করে। এর মানে এই ডিজিটাল অ্যাসিস্ট্যান্ট গুলো শুধু এটা বুঝে না আপনি কি বলছেন, বরং এটাও বুঝতে পারে আপনি কি বুঝাতে চাচ্ছেন! যদি আপনার বাড়িতে অ্যামাজন আলেক্সা বা গুগল হোমের মতো স্মার্ট স্পীকার থাকে, সেক্ষেত্রে আপনার স্মার্ট ফোন বা ল্যাপটপ থাকার দরকার নেই। জাস্ট আপনার ভাষায় স্পীকার গুলোকে কম্যান্ড দিতে পারবেন, আর স্পীকার আপনার কম্যান্ডে আপনাকে ন্যাচারাল ল্যাংগুয়েজে রিপ্লাই করবে।
ভবিষ্যতের ভয়েস রিকগনিশন টেকনোলজিতে অনেক গুরুত্বপূর্ণ পরিবর্তন আসবে বলে আশা রাখা যায়। আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক, ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং সিস্টেম আর স্মার্ট সার্চ ইঞ্জিনের সাহায্যে সম্পূর্ণ আলাদা এক টাইপের ভয়েস রিকগনিশন সফটওয়্যার অদূর ভবিষ্যতে অবশ্যই তৈরি করা সম্ভব হবে, যেটা শব্দ নয় শব্দের ভাব অনুভূতি সহ সবকিছু বুঝতে সক্ষম হবে। তাছাড়া ব্রেইন কম্পিউটার ইন্টারফেস তৈরি করার মাধ্যমে সরাসরি ব্রেইনের মাধ্যমে কম্পিউটার নিয়ন্ত্রণের টেকনিক খুব দ্রুতই আমাদের সামনে কনজিউমার লেভেলে চলে আসবে!