انجمن‌های فارسی اوبونتو

لطفاً به انجمن‌ها وارد شده و یا جهت ورود ثبت‌نام نمائید

لطفاً جهت ورود نام کاربری و رمز عبورتان را وارد نمائید


توزیع گنو/لینوکس اوبونتو ۲۰ ساله شد 🎉

نویسنده موضوع: نرم افزار تبدیل PDF فارسی به متن  (دفعات بازدید: 10161 بار)

0 کاربر و 1 مهمان درحال مشاهده موضوع.

آفلاین سعید رسولی

  • ilius, saeedgnu
  • عضو کاربران ایرانی اوبونتو
  • *
  • ارسال: 1543
  • جنسیت : پسر
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #15 : 05 آذر 1388، 02:25 ق‌ظ »
با سلام
نقل‌قول
من از Evince استفاده می‌کنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
اشتباه شده . من نگفتم که خود pdf رو اینجوری نشون می‌ده که .
من گفتم وقتی یک صفحه‌ی تصویری pdf بهش می‌دید تا OCR کنه ، خروجی متن به این حالت در میاد .
منم منظورم این بود که توی Evince وقتی یه متن رو کپی می‌کنیم و مثلاً توی gedit پیست می‌کنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.

ولی فکر نکنم Evince و Okular از OCR استفاده کنن!
چون اصلاً OCR فارسی که آزاد باشه من ندیدم و فکر نکنم وجود داشته باشه!  :(
فقط یدونه عربی دیدم توی سایت ArabEyes که اونم تست نکردم....
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)


نقل‌قول
حروف جدا (مثل:  س‍  ‍ل‍  ‍ا‍  م‍‍ ) رو به حروف عادی تبدیل کنه.
تا جایی که من می‌دونم تمام حروف رو بصورت شکل «جدا»ش می‌نویسه یعنی : «سلام» رو می‌نویسه « م ل ا س » .
یعنی بین حروف کاراکتر فاصله قرار میده؟ (موقع کپی کردن)
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)


نقل‌قول
نقل‌قول
لی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی می‌کنم در اولین فرصت بنویسم
برنامه‌ی جدا خوبه ولی ایکاش مشکل okular هم حل میشد .
یعنی می‌گید برای Okular پچ بنویسیم و بفرستیم بهشون؟ اگه بشه خوبه، ولی من فکر نمی‌کنم بتونم این کارو انجام بدم. امیدوارم از دوستان دیگه کسی پیدا بشه...
« آخرین ویرایش: 05 آذر 1388، 03:57 ق‌ظ توسط ilius »

آفلاین یه انقلابی

  • Hero Member
  • *
  • ارسال: 951
  • جنسیت : پسر
    • یه‌انقلابی
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #16 : 05 آذر 1388، 08:31 ق‌ظ »
با سلام
نقل‌قول
فقط کافیه پی دی اف تایپی باشه. اصولا پی دی اف ویژگیش اینه که شما نتونید متنش رو کپی پیست کنید Shocked با این برنامه اونا رو هم می تونید تبدیل کنید.
من که اون اول نوشتم که صفحه‌های تصویری یعنی شما یک متن رو اسکن می‌کنی و یه تصویر درست می‌شه و بعد از اون تصویر می‌خواهید متن رو جدا کنید . که تو ویندوز نیست .
نقل‌قول
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)
okular براحتی برای انگلیسی جواب میده .
نقل‌قول
منم منظورم این بود که توی Evince وقتی یه متن رو کپی می‌کنیم و مثلاً توی gedit پیست می‌کنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.
این کار رو که درسته Evince انجام میده ولی من PDF های تصاویری منظورم بود .
نقل‌قول
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)
باشه من تا بعد از ظهر یک نمونه قرار می‌دم .
یا علی
فعلا قصد ندارم اینجا بیام، شاید اصلا نیام.
انجمن‌های آزادتری هم خواهند بود برای آزاد بودن.
یا علی

آفلاین sisyphus

  • Jr. Member
  • *
  • ارسال: 76
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #17 : 05 آذر 1388، 01:17 ب‌ظ »
pdftotext رو امتحان کن، برای من روی PDF هایی که با xepersian درست کردم خوب جواب می‌ده.
(البته احتمالاً خروجیت خیلی بستگی به این داره که چطوری اون پی دی اف تولید شده!)

آفلاین یه انقلابی

  • Hero Member
  • *
  • ارسال: 951
  • جنسیت : پسر
    • یه‌انقلابی
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #18 : 05 آذر 1388، 04:25 ب‌ظ »
با سلام
نمی‌دونم چرا okular من هیچی نداره . نمی‌دونم ورژن okular من پایینه یا من از اول اشتباه کردم .
اگر گزینه‌ی دوم درست باشه که من کلا همه رو گذاشتم سر کار و از همه عذر می‌خوام  :oops:
اگر گزینه‌ی اول درست باشه یعنی که okular من قدیمی باشه که میام و میگم (سیستم من دبیان است و اسطوره‌ی قدیمی بودن اما قدرتمند)
با علی
فعلا قصد ندارم اینجا بیام، شاید اصلا نیام.
انجمن‌های آزادتری هم خواهند بود برای آزاد بودن.
یا علی

آفلاین molavy

  • Full Member
  • *
  • ارسال: 235
    • سایت شخصی
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #19 : 06 آذر 1388، 06:39 ق‌ظ »
اول از همه حرفهام رو دسته بندی کنم تا سوءتفاهم پیش نیاد

1- برای pdf های متنی
من 12 برنامه رو تست کردم و pdfgabber رو همچنین
جواب نداد که نداد
یک برنامه برای این معرفی کنید
نمونه برای تبدیل
http://khorasannews.com/newssource/b08.pdf
و
http://khorasannews.com/newssource/b07.pdf

2- برای pdf های تصویری
من readiris رو امتحان کردم (همه نسخه هاشو)
افتضاح به معنای واقعی کلمه
هر خط 6 تا 7 تا غلط
بعضی خطا رو هم فقط نقطه میگیره
برای این اگه باشه که حرف نداره
پیامبر اکرم (ص) فرمودند:

اَلنّاسُ یعمَلونَ بِالخَیرِ وَ اِنَّما یعطَونَ اُجورَهُم عَلى قَدرِ عُقولِهِم

مردم، کارهاى خیر مى ‏کنند، ولى پاداش آنان تنها به اندازه عقلشان عطا مى ‏شود.
...........

سایت شخصی

آفلاین یه انقلابی

  • Hero Member
  • *
  • ارسال: 951
  • جنسیت : پسر
    • یه‌انقلابی
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #20 : 06 آذر 1388، 09:42 ب‌ظ »
با سلام
این فایل pdfی که شما دادی رمزشده است و من نرم‌افزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی می‌دونه ؟
یا علی
فعلا قصد ندارم اینجا بیام، شاید اصلا نیام.
انجمن‌های آزادتری هم خواهند بود برای آزاد بودن.
یا علی

آفلاین سعید رسولی

  • ilius, saeedgnu
  • عضو کاربران ایرانی اوبونتو
  • *
  • ارسال: 1543
  • جنسیت : پسر
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #21 : 06 آذر 1388، 11:27 ب‌ظ »
با سلام
این فایل pdfی که شما دادی رمزشده است و من نرم‌افزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی می‌دونه ؟
یا علی
شاید مشکل از Encoding باشه. مطئنید رمزی شده؟
اینا رو گمونم با ms publisher درست می‌کنن.

آفلاین parsibox

  • Hero Member
  • *
  • ارسال: 777
  • جنسیت : پسر
  • آچار فرانسه
    • سایت شخصی محسن داوری
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #22 : 07 آذر 1388، 12:47 ق‌ظ »
اینا با PScript5.dll Version 5.2.2 در برنامه ی Acrobat Distiller 7.0 (Windows)  درست کردند
http://forum.ubuntu.ir/index.php/topic,12830.0.html
http://forum.ubuntu.ir/index.php/topic,12928.new.htm
http://forum.ubuntu.ir/index.php/topic,12151.0.html
توجه : کلیه ی کاربران لینوکس در اصفهان که متقاضی شارژ یا راه اندازی ADSL پیشگامان یا صبانت هستند میتوانند از طریق ما 5% تخفیف بگیرند

آفلاین یه انقلابی

  • Hero Member
  • *
  • ارسال: 951
  • جنسیت : پسر
    • یه‌انقلابی
پاسخ به: نرم افزار تبدیل PDF فارسی به متن
« پاسخ #23 : 07 آذر 1388، 03:02 ب‌ظ »
با سلام
این عبارت یعنی چی؟
Security : Unencryptedیا علی
فعلا قصد ندارم اینجا بیام، شاید اصلا نیام.
انجمن‌های آزادتری هم خواهند بود برای آزاد بودن.
یا علی