انجمن‌های فارسی اوبونتو

کمک و پشتیبانی => انجمن عمومی => نویسنده: molavy در 03 آذر 1388، 06:24 ب‌ظ

عنوان: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: molavy در 03 آذر 1388، 06:24 ب‌ظ
سلام برنامه ای لازم دارم که PDF فارسی رو به  متن تبدیل کنه (odf یا هر فرکت دیگه ای)
پیشاپیش ممنون
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: Midgårdsormen در 03 آذر 1388، 06:38 ب‌ظ
نیست
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: AliRezaiMi در 03 آذر 1388، 08:09 ب‌ظ
نیست
راست میگه
بنده هم گشتم نبود نگرد نیست!!!
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: Midgårdsormen در 03 آذر 1388، 08:54 ب‌ظ
فکر نکنم حتی در ویندوز هم یه  همچین برنامه‌ای که با فارسی بدون مشکل کار کنه وجود داشته باشه
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: parsibox در 03 آذر 1388، 09:42 ب‌ظ
با pdf editor نمی تونی pdf را ادیت کنی و ازش export as text  بگیری؟
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 03 آذر 1388، 10:06 ب‌ظ
با سلام
نقل‌قول
با pdf editor نمی تونی pdf را ادیت کنی و ازش export as text  بگیری؟
ما رو نوع PDF داریم :
۱- PDF هایی که تایپ شده هستند .
۲- PDF هایی که اسکن شده هستند .
در مورد اولی فکر کنم که اصلا مشکلی نباشه چون راحت با کپی پیست مشکل حله .
اما مشکل با PDF های نوع دوم هست که احتیاج به نرم‌افزار OCR داره .

نرم‌افزار OKULAR که براحتی در سیستم‌عامل‌های گنو نصب می‌شه متون انگلیسی رو براحتی تبدیل می‌کنه .
نکته‌ی جالب اینه که متون فارسی رو هم تبدیل می‌کنه ولی ایرادش اینکه حروف رو از هم جدا می‌کنه و از چب به راست هم می‌نویسه (آینه) .

خیلی وقت هست که می‌خوام بگم دوستان برنامه نویس (بخصوص QT کارها) اگر لطف کنن و این نرم‌افزار واقعا کامل رو یک فارسی سازی انجام بدن یعنی این مشکلش رو حل کنن ، تبدیل به بهترین و تنها نرم‌افزار OCR فارسی میشه که آزاد هم هست .

حالا دیگه خود دوستان برنامه نویس می‌دونن و این نرم‌افزار okular .

یا علی
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: Moshtaghi در 04 آذر 1388، 09:20 ق‌ظ
منم چندباری با این مشکل بر خوردم، Adobe Reader جواب داد، ولی متاسفانه روی ویندوز بود!!! شاید بتونی فعلاً باهاش کارت رو راه بندازی تا ...
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: abdozzahra در 04 آذر 1388، 10:49 ق‌ظ
تو ویندوز pdfgraberهست. تا حدود زیادی کار رو راه میاندازه. تو لینوکس نمیدونم
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: دانیال بهزادی در 04 آذر 1388، 04:58 ب‌ظ
 یکی از دوستان مدت‌ها پیش یه برنامه نوشته بود که متن رو می‌دادی بهش و آینه‌اش رو بهت می‌داد. همین طور اگه آینه می‌دادی متن رو می‌داد. نمیشه با ترکیب اون و OKULAR به یه جاهایی رسید؟
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: mrmrn در 04 آذر 1388، 06:12 ب‌ظ
تو ویندوز pdfgraberهست. تا حدود زیادی کار رو راه میاندازه. تو لینوکس نمیدونم
سلام.
صحیحش pdfgrabber است.این هم سایتشه:
http://www.pdfgrabber.com
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 04 آذر 1388، 06:26 ب‌ظ
با سلام
نقل‌قول
یکی از دوستان مدت‌ها پیش یه برنامه نوشته بود که متن رو می‌دادی بهش و آینه‌اش رو بهت می‌داد. همین طور اگه آینه می‌دادی متن رو می‌داد. نمیشه با ترکیب اون و OKULAR به یه جاهایی رسید؟
خوب مسلما اینکه برنامه آزاده یعنی میشه با تغییرات و رقع باگ این مشکل رو از داخل خود برنامه حل کرد . فقط مشکل okular اینه که علاوه بر آینه کردن تمام حروف رو هم جدا می‌کنه .
ولی حتما میشه اگر کسی انجامش بده .
یا علی
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: سعید رسولی در 04 آذر 1388، 09:32 ب‌ظ
با سلام
نقل‌قول
یکی از دوستان مدت‌ها پیش یه برنامه نوشته بود که متن رو می‌دادی بهش و آینه‌اش رو بهت می‌داد. همین طور اگه آینه می‌دادی متن رو می‌داد. نمیشه با ترکیب اون و OKULAR به یه جاهایی رسید؟
خوب مسلما اینکه برنامه آزاده یعنی میشه با تغییرات و رقع باگ این مشکل رو از داخل خود برنامه حل کرد . فقط مشکل okular اینه که علاوه بر آینه کردن تمام حروف رو هم جدا می‌کنه .
ولی حتما میشه اگر کسی انجامش بده .
یا علی
من از Evince استفاده می‌کنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
ولی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی می‌کنم در اولین فرصت بنویسم که متن رو آینه کنه(ترتیب حروف هر خط رو برعکس کنه) و حروف جدا (مثل:  س‍  ‍ل‍  ‍ا‍  م‍‍ ) رو به حروف عادی تبدیل کنه.
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: m e h d i در 04 آذر 1388، 09:56 ب‌ظ
بچه ها من شاید یک ماه کل نت را برای این موضوع گشتم و اینکه نیست!! تو ویندوزش که نبود لینوکس که مسلما نرم افزار های کمتری براش هست

یه سری اوسیار هست ولی اون ها هم جالب تبدیل نمیکنه



عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 04 آذر 1388، 11:29 ب‌ظ
با سلام
نقل‌قول
من از Evince استفاده می‌کنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
اشتباه شده . من نگفتم که خود pdf رو اینجوری نشون می‌ده که .
من گفتم وقتی یک صفحه‌ی تصویری pdf بهش می‌دید تا OCR کنه ، خروجی متن به این حالت در میاد .
نقل‌قول
حروف جدا (مثل:  س‍  ‍ل‍  ‍ا‍  م‍‍ ) رو به حروف عادی تبدیل کنه.
تا جایی که من می‌دونم تمام حروف رو بصورت شکل «جدا»ش می‌نویسه یعنی : «سلام» رو می‌نویسه « م ل ا س » .
نقل‌قول
بچه ها من شاید یک ماه کل نت را برای این موضوع گشتم و اینکه نیست!! تو ویندوزش که نبود لینوکس که مسلما نرم افزار های کمتری براش هست
خوب من هم همینو می‌گم دیگه . برای سیستم‌عامل گنو اتفاقا هست ولی همین دو تا مشکل کوچیک رو داره . تقریبا تنها نرم‌افزار موجود برای زبان پارسی است البته تا جایی که من اطلاع دارم .
نقل‌قول
لی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی می‌کنم در اولین فرصت بنویسم
برنامه‌ی جدا خوبه ولی ایکاش مشکل okular هم حل میشد .
یا علی
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: novid در 05 آذر 1388، 01:51 ق‌ظ
چنین برنامه‌ای برای ویندوز وجود داره دوستان.

 اصلشم برنامه ای بوده که به همراه اسکنرا تحویل ملت می دادن،(منظور شرکت سازنده اسکنره) و قصدشم عربی بوده و نه فارسی. ۴ تا حرف فارسی رو هم اضافه کردن شده برای زبان فارسی

فقط کافیه پی دی اف تایپی باشه. اصولا پی دی اف ویژگیش اینه که شما نتونید متنش رو کپی پیست کنید :o با این برنامه اونا رو هم می تونید تبدیل کنید.

اما خوب چون کلوز سورسه لینک رو اینجا نمی تونم بذارم.

اسم برنامه Readiris Pro Middle East Edition  هست و از سایت تبیان هم می تونید دانلودش کنید ;)
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: سعید رسولی در 05 آذر 1388، 02:25 ق‌ظ
با سلام
نقل‌قول
من از Evince استفاده می‌کنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
اشتباه شده . من نگفتم که خود pdf رو اینجوری نشون می‌ده که .
من گفتم وقتی یک صفحه‌ی تصویری pdf بهش می‌دید تا OCR کنه ، خروجی متن به این حالت در میاد .
منم منظورم این بود که توی Evince وقتی یه متن رو کپی می‌کنیم و مثلاً توی gedit پیست می‌کنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.

ولی فکر نکنم Evince و Okular از OCR استفاده کنن!
چون اصلاً OCR فارسی که آزاد باشه من ندیدم و فکر نکنم وجود داشته باشه!  :(
فقط یدونه عربی دیدم توی سایت ArabEyes که اونم تست نکردم....
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)


نقل‌قول
حروف جدا (مثل:  س‍  ‍ل‍  ‍ا‍  م‍‍ ) رو به حروف عادی تبدیل کنه.
تا جایی که من می‌دونم تمام حروف رو بصورت شکل «جدا»ش می‌نویسه یعنی : «سلام» رو می‌نویسه « م ل ا س » .
یعنی بین حروف کاراکتر فاصله قرار میده؟ (موقع کپی کردن)
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)


نقل‌قول
نقل‌قول
لی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی می‌کنم در اولین فرصت بنویسم
برنامه‌ی جدا خوبه ولی ایکاش مشکل okular هم حل میشد .
یعنی می‌گید برای Okular پچ بنویسیم و بفرستیم بهشون؟ اگه بشه خوبه، ولی من فکر نمی‌کنم بتونم این کارو انجام بدم. امیدوارم از دوستان دیگه کسی پیدا بشه...
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 05 آذر 1388، 08:31 ق‌ظ
با سلام
نقل‌قول
فقط کافیه پی دی اف تایپی باشه. اصولا پی دی اف ویژگیش اینه که شما نتونید متنش رو کپی پیست کنید Shocked با این برنامه اونا رو هم می تونید تبدیل کنید.
من که اون اول نوشتم که صفحه‌های تصویری یعنی شما یک متن رو اسکن می‌کنی و یه تصویر درست می‌شه و بعد از اون تصویر می‌خواهید متن رو جدا کنید . که تو ویندوز نیست .
نقل‌قول
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)
okular براحتی برای انگلیسی جواب میده .
نقل‌قول
منم منظورم این بود که توی Evince وقتی یه متن رو کپی می‌کنیم و مثلاً توی gedit پیست می‌کنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.
این کار رو که درسته Evince انجام میده ولی من PDF های تصاویری منظورم بود .
نقل‌قول
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)
باشه من تا بعد از ظهر یک نمونه قرار می‌دم .
یا علی
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: sisyphus در 05 آذر 1388، 01:17 ب‌ظ
pdftotext رو امتحان کن، برای من روی PDF هایی که با xepersian درست کردم خوب جواب می‌ده.
(البته احتمالاً خروجیت خیلی بستگی به این داره که چطوری اون پی دی اف تولید شده!)
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 05 آذر 1388، 04:25 ب‌ظ
با سلام
نمی‌دونم چرا okular من هیچی نداره . نمی‌دونم ورژن okular من پایینه یا من از اول اشتباه کردم .
اگر گزینه‌ی دوم درست باشه که من کلا همه رو گذاشتم سر کار و از همه عذر می‌خوام  :oops:
اگر گزینه‌ی اول درست باشه یعنی که okular من قدیمی باشه که میام و میگم (سیستم من دبیان است و اسطوره‌ی قدیمی بودن اما قدرتمند)
با علی
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: molavy در 06 آذر 1388، 06:39 ق‌ظ
اول از همه حرفهام رو دسته بندی کنم تا سوءتفاهم پیش نیاد

1- برای pdf های متنی
من 12 برنامه رو تست کردم و pdfgabber رو همچنین
جواب نداد که نداد
یک برنامه برای این معرفی کنید
نمونه برای تبدیل
http://khorasannews.com/newssource/b08.pdf
و
http://khorasannews.com/newssource/b07.pdf

2- برای pdf های تصویری
من readiris رو امتحان کردم (همه نسخه هاشو)
افتضاح به معنای واقعی کلمه
هر خط 6 تا 7 تا غلط
بعضی خطا رو هم فقط نقطه میگیره
برای این اگه باشه که حرف نداره
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 06 آذر 1388، 09:42 ب‌ظ
با سلام
این فایل pdfی که شما دادی رمزشده است و من نرم‌افزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی می‌دونه ؟
یا علی
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: سعید رسولی در 06 آذر 1388، 11:27 ب‌ظ
با سلام
این فایل pdfی که شما دادی رمزشده است و من نرم‌افزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی می‌دونه ؟
یا علی
شاید مشکل از Encoding باشه. مطئنید رمزی شده؟
اینا رو گمونم با ms publisher درست می‌کنن.
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: parsibox در 07 آذر 1388، 12:47 ق‌ظ
اینا با PScript5.dll Version 5.2.2 در برنامه ی Acrobat Distiller 7.0 (Windows)  درست کردند
عنوان: پاسخ به: نرم افزار تبدیل PDF فارسی به متن
ارسال شده توسط: یه انقلابی در 07 آذر 1388، 03:02 ب‌ظ
با سلام
این عبارت یعنی چی؟
Security : Unencryptedیا علی