نویسنده موضوع: نرم افزار تبدیل PDF فارسی به متن (دفعات بازدید: 11239 بار)

سعید رسولی · « **پاسخ #15 :** 05 آذر 1388، 02:25 ق‌ظ »

نقل‌قول از: یه انقلابی در 04 آذر 1388، 11:29 ب‌ظ

با سلام
نقل‌قول
من از Evince استفاده می‌کنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
اشتباه شده . من نگفتم که خود pdf رو اینجوری نشون می‌ده که .
من گفتم وقتی یک صفحه‌ی تصویری pdf بهش می‌دید تا OCR کنه ، خروجی متن به این حالت در میاد .

منم منظورم این بود که توی Evince وقتی یه متن رو کپی می‌کنیم و مثلاً توی gedit پیست می‌کنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.

ولی فکر نکنم Evince و Okular از OCR استفاده کنن!
چون اصلاً OCR فارسی که آزاد باشه من ندیدم و فکر نکنم وجود داشته باشه!

فقط یدونه عربی دیدم توی سایت ArabEyes که اونم تست نکردم....
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)

نقل‌قول از: یه انقلابی در 04 آذر 1388، 11:29 ب‌ظ

نقل‌قول
حروف جدا (مثل: س‍ ‍ل‍ ‍ا‍ م‍‍ ) رو به حروف عادی تبدیل کنه.
تا جایی که من می‌دونم تمام حروف رو بصورت شکل «جدا»ش می‌نویسه یعنی : «سلام» رو می‌نویسه « م ل ا س » .

یعنی بین حروف کاراکتر فاصله قرار میده؟ (موقع کپی کردن)
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)

نقل‌قول

نقل‌قول
لی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی می‌کنم در اولین فرصت بنویسم
برنامه‌ی جدا خوبه ولی ایکاش مشکل okular هم حل میشد .

یعنی می‌گید برای Okular پچ بنویسیم و بفرستیم بهشون؟ اگه بشه خوبه، ولی من فکر نمی‌کنم بتونم این کارو انجام بدم. امیدوارم از دوستان دیگه کسی پیدا بشه...

یه انقلابی · « **پاسخ #16 :** 05 آذر 1388، 08:31 ق‌ظ »

با سلام

نقل‌قول

فقط کافیه پی دی اف تایپی باشه. اصولا پی دی اف ویژگیش اینه که شما نتونید متنش رو کپی پیست کنید Shocked با این برنامه اونا رو هم می تونید تبدیل کنید.

من که اون اول نوشتم که صفحه‌های تصویری یعنی شما یک متن رو اسکن می‌کنی و یه تصویر درست می‌شه و بعد از اون تصویر می‌خواهید متن رو جدا کنید . که تو ویندوز نیست .

نقل‌قول

حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)

okular براحتی برای انگلیسی جواب میده .

نقل‌قول

منم منظورم این بود که توی Evince وقتی یه متن رو کپی می‌کنیم و مثلاً توی gedit پیست می‌کنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.

این کار رو که درسته Evince انجام میده ولی من PDF های تصاویری منظورم بود .

نقل‌قول

این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)

باشه من تا بعد از ظهر یک نمونه قرار می‌دم .
یا علی

sisyphus · « **پاسخ #17 :** 05 آذر 1388، 01:17 ب‌ظ »

pdftotext رو امتحان کن، برای من روی PDF هایی که با xepersian درست کردم خوب جواب می‌ده.
(البته احتمالاً خروجیت خیلی بستگی به این داره که چطوری اون پی دی اف تولید شده!)

یه انقلابی · « **پاسخ #18 :** 05 آذر 1388، 04:25 ب‌ظ »

با سلام
نمی‌دونم چرا okular من هیچی نداره . نمی‌دونم ورژن okular من پایینه یا من از اول اشتباه کردم .
اگر گزینه‌ی دوم درست باشه که من کلا همه رو گذاشتم سر کار و از همه عذر می‌خوام

اگر گزینه‌ی اول درست باشه یعنی که okular من قدیمی باشه که میام و میگم (سیستم من دبیان است و اسطوره‌ی قدیمی بودن اما قدرتمند)
با علی

molavy · « **پاسخ #19 :** 06 آذر 1388، 06:39 ق‌ظ »

اول از همه حرفهام رو دسته بندی کنم تا سوءتفاهم پیش نیاد

1- برای pdf های متنی
من 12 برنامه رو تست کردم و pdfgabber رو همچنین
جواب نداد که نداد
یک برنامه برای این معرفی کنید
نمونه برای تبدیل
http://khorasannews.com/newssource/b08.pdf
و
http://khorasannews.com/newssource/b07.pdf

2- برای pdf های تصویری
من readiris رو امتحان کردم (همه نسخه هاشو)
افتضاح به معنای واقعی کلمه
هر خط 6 تا 7 تا غلط
بعضی خطا رو هم فقط نقطه میگیره
برای این اگه باشه که حرف نداره

یه انقلابی · « **پاسخ #20 :** 06 آذر 1388، 09:42 ب‌ظ »

با سلام
این فایل pdfی که شما دادی رمزشده است و من نرم‌افزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی می‌دونه ؟
یا علی

سعید رسولی · « **پاسخ #21 :** 06 آذر 1388، 11:27 ب‌ظ »

نقل‌قول از: یه انقلابی در 06 آذر 1388، 09:42 ب‌ظ

با سلام
این فایل pdfی که شما دادی رمزشده است و من نرم‌افزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی می‌دونه ؟
یا علی

شاید مشکل از Encoding باشه. مطئنید رمزی شده؟
اینا رو گمونم با ms publisher درست می‌کنن.

parsibox · « **پاسخ #22 :** 07 آذر 1388، 12:47 ق‌ظ »

اینا با PScript5.dll Version 5.2.2 در برنامه ی Acrobat Distiller 7.0 (Windows) درست کردند

یه انقلابی · « **پاسخ #23 :** 07 آذر 1388، 03:02 ب‌ظ »

با سلام
این عبارت یعنی چی؟

کد: [انتخاب]

Security : Unencryptedیا علی

انجمن‌های فارسی اوبونتو

نویسنده موضوع: نرم افزار تبدیل PDF فارسی به متن (دفعات بازدید: 11239 بار)

سعید رسولی

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

یه انقلابی

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

sisyphus

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

یه انقلابی

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

molavy

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

یه انقلابی

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

سعید رسولی

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

parsibox

پاسخ به: نرم افزار تبدیل PDF فارسی به متن

یه انقلابی

پاسخ به: نرم افزار تبدیل PDF فارسی به متن