ایتنا- پردازشگر زبان پارسیجو میتواند حتی عبارتهای نادرست را شناسایی و آن را به شکل صحیح جستجو کند.
مدیر پروژه ملی موتور جستجوگر پارسیجو از شناسایی ۱۰۰ میلیون واژه منحصر به فرد فارسی توسط این جستوجوگر بومی خبر داد.
به گزارش ایتنا از ایسنا، علی محمد زارع بیدکی اظهار کرد: برنامهنویسان و محققان نخبه کشورمان در بخش تحقیق و توسعه پردازش زبان موفق شدند، ظرفیت و توانایی این جستجوگر بومی را برای پردازش زبانی به صد میلیون کلمه یکتا (اعم از درست یا نادرست) در صفحات فارسی ارتقا دهند که البته این فرایند همچنان در حال توسعه است.
وی با اشاره به اینکه کمتر از ۱۰ درصد این کلمات دارای ارزش اطلاعاتی و پردازشی هستند گفت: از مجموع صد میلیون واژه شناسایی شده حدود ۱۰ میلیون کلمه از لحاظ املائی و مفهومی صحیح است که البته پردازشگر زبان پارسیجو میتواند حتی عبارتهای نادرست را شناسایی و آن را به شکل صحیح جستجو کند.
زارع بیدکی به یکی دیگر از قابلیتهای ویژه این موتور جستجوگر ایرانی پرداخت و ادامه داد: بخش پردازش زبان پارسیجو توانایی استخراج ۱۲ هزار جفت کلمه مترادف از محتوای وب را دارد که قابلیت مذکور این امکان را به کاربر خواهد داد تا کلمات، واژهها و حتی عبارات هم معنی فارسی را به طور یکجا جستجو کند.
مدیر پروژه موتور جستجوگر پارسیجو تشخیص افعال صرفی در این حوزه را یکی دیگر از ویژگیهای بی بدیل این جستجوگر ایرانی برشمرد و اضافه کرد: پارسیجو قادر است بیش از ۹ هزار شکل صرفی از افعال را تشخیص و آنها را به یکدیگر تبدیل کند، امکانی که باعث میشود کاربران فارسی زبان، نه تنها یک عبارت و جمله بلکه اشکال مختلف صرفی (انشایی) یک جمله را به طور همزمان جستجو کنند.
وی خاطر نشان کرد: ماشینی کردن فرایند درک و برداشت مفاهیم از یک زبان طبیعی بزرگترین چالش در جستجوگرهای بومی محسوب میشود که البته دانشمندان و نخبگان کشورمان در حوزه فناوری اطلاعات موفق شدند این مانع بزرگ را در موتور جستجوگر پارسیجو به قابلیتی خاص مبدل سازد، به طوری که هماکنون زبان فارسی در این موتور جستجوگر به طور کامل ماشینی شده و میتواند مفاهیم عبارات کاربر را درک و پس از پردازش آن را جستجو کند.
زارع بیدکی بزرگترین دلیل موفقیت موتورهای بومی را موضوع زبان دانست و افزود: با نگاهی دقیق به موتورهای جستجو در دنیا به این نکته پی میبریم که مرز ایجاد موتورهای جستجو و استفاده کاربران از آنها جغرافیایی نبوده است بلکه زبان یک عامل تعیین کننده در استفاده از این ابزار نوین است به گونهای که موتور جستجوی "یاندکس" روسیه علت موفقیت خود را فهم و پردازش بهتر زبان روسی میداند، به طوری که کاربران روسی زبان کشورهای اوکراین، قزاقستان، آذربایجان و بلاروس را نیز جذب کرده و از این طریق درآمدزایی هنگفتی میکند.
وی در ادامه ابراز کرد: با قدرت گرفتن موتورهای بومی در ایران، این فرصت وجود دارد تا این جستجوگرها در کشورهای فارسی زبان نیز مورد استفاده قرار گیرد و بدینوسیله از منافع اقتصادی بازار بزرگ و بکر موتور جستجو در این کشورها بهرهمند شد.
مدیر پروژه موتور جستجوگر پارسی جو در پایان تاکید کرد: به طور کلی قابلیت ویژه موتورهای بومی شناخت صحیح زبان مادری یک کشور و بهرهمندی از ابزارهای پردازش زبان بومی و دسترسی به زبان شناسان آن کشور است که البته همین امر باعث خواهد شد تا موتورهای جستجوگر داخلی بتوانند به نیازهای ایرانیان خارج از کشور مانند دریافت اطلاعات و اخبار روزانه و یا خدماترسانی در مراودات متنوع پاسخ دهند.