تشخیص متن دراپباکس یافتن تصاویر و PDFها را آسانتر میکند
ایتنا - «این سنگینترین پروژه نیازمند رایانشی است که تیم یادگیری ماشین این شرکت تاکنون به اجرا در آورده است.»
البته این قابلیت به کاربران حرفهای (Professional)، پیشرفته کسب و کار (Business Advanced) و سازمانی (Enterprise) محدود میشود.
به گزارش اینت به نقل از انگجت، هیچ چیز بدتر از این نیست که وقتی میخواهید سریع یک فایل مشخص را پیدا کنید، ناچار به بررسی یک به یک تعداد زیادی از PDFهایی باشید که به صورت تصویر اسکن شدهاند.
دراپباکس این کار را با ارائه تشخیص تصویر اتوماتیک آسانتر نموده است، قابلیتی که متن را از تصاویر و PDFها استخراج نموده و آنها را قابل جستوجو میکند.
بنا بر اعلام دراپ باکس، 20 میلیارد فایل تصویری و PDF در این مخزن ابری ذخیره شدهاند.
حدود 10 تا 20 درصد از آنها عکسهای اسناد هستند، از این رو این قابلیت جدید میتواند بسیار بسیار مفید واقع شود.
برای جستوجوی یک عکس یا PDF مشخص، شما باید یک کلیدواژه یا عبارت را همانند آنچه در یک موتور جستوجو انجام میدهید تایپ کنید.
دراپباکس سپس به شما فایلهایی را نشان خواهد داد که حاوی این کلمات یا عبارات هستند.
این کمپانی به VentureBeat گفت که «این سنگینترین پروژه نیازمند رایانشی است که تیم یادگیری ماشین این شرکت تاکنون به اجرا در آورده است.»
آنها مشخصا با چالش فایلهای PDF مواجه بودند، زیرا اسناد چندصفحهای نیاز به قدرت پردازشی به مراتب بیشتری نسبت به یک فایل تصویری هستند.
آنها برای امکانپذیر نمودن شاخصگذاری این فایلها، سیستم را به گونهای طراحی کردند که استخراج و شاخصگذاری متن را پس از 10 صفحه متوقف کند.
تشخیص اتوماتیک متن تصویر برای فایلهای انگلیسیزبان JPEG، GIF استاتیک، PNG، TIFF و PDF در دراپباکس عمل میکند، حتی برای آنهایی که پیش از آنکه این سرویس این قابلیت را ارائه نماید آپلود شدهاند.
با این حال، دسترسیپذیری آن نسبتا محدود است. کاربران Business Advanced و Enterprise دراپباکس میتوانند به زودی، بسته به اینکه چه زمانی مدیران حسابشان آن را فعال کنند، به این قابلیت دسترسی پیدا کنند.
مشترکان Professional دراپباکس این قابلیت را در ماههای پیش رو دریافت خواهند کرد.
کاربران معمولی هم ناچار خواهند بود به روش معمول قدیمی به جستوجو در اسناد بپردازند.