ایتنا- مسئولان میگویند "نبیک" با دقت بسیاری متون فارسی را استخراج میکند.
هوشمندترین موتور جستجوی مستندات فارسی ایجاد شد
جلوگیری از سرقت علمی با "نبیک"
خبرگزاری مهر , 2 شهريور 1393 ساعت 9:40
ایتنا- مسئولان میگویند "نبیک" با دقت بسیاری متون فارسی را استخراج میکند.
نبیک، موتور جستجوی مستندات فارسی است که هوشمندترین موتور استخراج متون فارسی به شمار می رود این موتور جستجو به تازگی توسط محققان دانشگاه صنعتی امیرکبیر ایجاد شده است.
به گزارش ایتنا از مهر، مهدی شجری- عضو هیئت علمی دانشگاه امیرکبیر با اعلام این خبر گفت: با توجه به گسترش اینترنت و رواج استفاده از رایانه ها، تبلت ها، گوشیهای تلفن همراه و مشکلات نشر سنتی نظیر گرانی کاغذ، مشکلات توزیع کتابها در سراسر کشور، کمیاب یا نایاب شدن برخی کتابهای قدیمی و نبود امکانات مناسب تبلیغات کتاب مخاطبان به مطالعه منابع نوشتاری موجود در اینترنت و کتابهای الکترونیک روی آورده اند.
بنیانگذار "نبیک" با بیان اینکه مشکلات پردازش مستندات فارسی که از فونت ها و صفحه آرایی هایی متنوعی استفاده می کنند به حدی است که حتی گوگل به دلیل عدم سرمایهگذاری کافی در حوزه مستندات فارسی قادر به استخراج محتوای متنی و جستجوپذیر کردن بسیاری از مستندات فارسی موجود در اینترنت نیست، افزود: از سوی دیگر محققان و پژوهشگران و حتی کاربران عادی برای یافتن اطلاعات و تحقیق روی موضوعات مختلف وب را جستجو میکنند، در حالی که تا کنون هیچ ابزار مؤثری برای جستجوی مستندات فارسی که گنجینهای ارزشمند محسوب میشود وجود نداشته است.
شجری عنوان کرد: از این رو به دلیل مشکلات فراوانی که در زمینه جستجوی متون فارسی وجود داشت، به فکر ایجاد موتور جستجوی ایرانی افتادیم که این موتور جستجوی ایرانی کاملترین موتور پردازش و جستجوی مستندات فارسی با نام نبیک (nebeek.com) است.
عضو هیات علمی دانشگاه امیر کبیر اذعان داشت: برای راه اندازی سایت نبیک یک موتور قوی استخراج متن از فایلهای pdf توسعه داده شده است که با توجه به چالشهای فنی پردازش فایلهای مستندات فارسی و علی الخصوص فایل های pdf فارسی قطعاً هوشمندترین موتور استخراج متون فارسی از این فایلها است که تا کنون ارائه شده است.
وی با اشاره به اینکه در نبیک متون فارسی با دقت بالا به صورت خام استخراج می شوند، خاطر نشان کرد: پس از استخراج متن فارسی، بر روی آن پسپردازشهایی انجام می گیرد از جمله استخراج کلمات و عبارات محوری در متن، استخراج خودکار فهرست مطالب و استخراج اطلاعات نحوه شماره گذاری صفحات مستند. علاوه بر آن اطلاعاتی در مورد عناوین اصلی و فرعی و شروع وپایان هر پاراگراف و هر بخش و زیربخش مستند نیز استخراج می شوند.
دکتر شجری افزود: در حال حاضر صدها فونت فارسی در نبیک حمایت می شود.
وی افزود: سایت نبیک از یک موتور جستجوگر با امکاناتی نظیر نرمالسازی نگارش های مختلف از یک کلمه، ریشهیابی کلمات برای حذف ملحقات اضافی آن، بکارگیری ابردادههای منابع نوشتاری برای اجرای جستجوی پیشرفته، تصحیح خطا و غلط یاب املایی و ارائه پیشنهادات برای تکمیل پرسمان جستجو سود می برد.
عضو هیأت علمی دانشگاه امیرکبیر در ادامه گفت: علاوه بر جستجوپذیر شدن مستندات در سایت نبیک موتورهای جستجوی رایج مانند گوگل هم اکنون صدها هزار صفحه از مستنداتی که متن فارسی آنها توسط نبیک استخراج شده است را در نمایه خود جای داده اند که این نشان می دهد نبیک می تواند در ارتقا جایگاه مستندات فارسی بسیار موفق عمل کند.
وی با اشاره به اینکه فناوری توسعه یافته در نبیک می تواند توسط سازمانها و مراکزی که حجم زیادی از مستندات فارسی دارند مورد استفاده قرار گیرد، یادآورشد: چالش هایی که اخیرا در رابطه با تشخیص سرقت علمی از منابع فارسی توسط مسئولان بیان شده است با تکمیل فناوری نبیک قابل حل می باشد.
شجری بخشی از امکانات کتابخوان فارسی نبیک را نام برد و توضیح داد: مطالعه با دیدهای متنوع تک صفحه ای، دو صفحه ای و بیشتر، علامت گذاری و حاشیه نویسی روی صفحات کتاب، جستجو در متن کتاب و مکان یابی دقیق نتایج جستجوی کلیدواژه و پررنگ کردن آنها روی تصاویر صفحات کتاب (highlight)، مشاهده فهرست عناوین در کنار متن، بهینهسازی شده برای استفاده با ماوس، کیبورد و یا صفحه های لمسی، فشردهسازی تصاویر در بهترین شرایط برای افزایش سرعت و کارآیی، انعطاف پذیری برای تطابق حداکثری با انواع قالبهای محتوای نوشتاری از قبیل کتاب ها، مجلات، روزنامه ها، مقالات علمی و پایان نامه ها، قابلیت حفاظت از حقوق مولف با ذخیره سازی و انتقال هر صفحه از مستند در قالب یک تصویر درهم شده (scramble) و آشکارسازی آن در زمان نمایش صفحه و سازماندهی مستندات مورد نیاز کاربر در کتابخانه های نبیک از ویژگیهای این کتابخوان است که توسط متخصصان نبیک طراحی و توسعه داده شده است.
وی با بیان این مطلب که بخش مدیریت سایت و پرتال کتابخانه های اختصاصی ناشران و صاحبان محتوی بخش مهم دیگری است که توسط تیم نبیک توسعه داده شده است، عنوان کرد: ناشران و صاحبان محتوا با قراردادن پیش نمایش و یا متن کامل محتوای الکترونیکی در نبیک نه تنها آنها را جستجوپذیر کرده بلکه با فراهم کردن امکان ورق زدن بخشی از مستندات خود در فضای مجازی احساس نیازی که گام اول در فرایند تصمیم گیری کاربران برای استفاده از این محتوا است را ایجاد می نمایند. ضمن اینکه نبیک حقوق مولفین را نقض نمی کند و صاحبان محتوی می توانند از طریق پنل اختصاصی خود همواره دسترسی به مستندات و کتابخانه های خود را کنترل کرده و محدود به افراد مجاز نمایند.
عضو هیات علمی دانشگاه امیرکبیر با اشاره به اینکه پروژه نبیک با هدف جستجوپذیر کردن تمامی مستندات الکترونیکی فارسی است، اذعان داشت: پروژه نبیک با توجه به اینکه پیوند دهنده بسیاری از بحثهای مهم روز در زمینه علوم کامپیوتری است، یک پروژه مولد و پایه به شمار میرود و نیاز به توسعه مستمر، بهبود دقت الگوریتمهای مورد استفاده و افزایش قابلیتهای متنوع توسط تیم توسعهدهنده دارد.
وی گفت: نبیک موتور جستجوی متون فارسی، به همراه تعدادی از دانش آموختگان دانشگاه امیرکبیر در یک شرکت دانش بنیان ایجاد شده است.
کد مطلب: 32004
آدرس مطلب: https://www.itna.ir/news/32004/هوشمندترین-موتور-جستجوی-مستندات-فارسی-ایجاد