انجمنهای فارسی اوبونتو
کمک و پشتیبانی => انجمن عمومی => نویسنده: molavy در 03 آذر 1388، 06:24 بظ
-
سلام برنامه ای لازم دارم که PDF فارسی رو به متن تبدیل کنه (odf یا هر فرکت دیگه ای)
پیشاپیش ممنون
-
نیست
-
نیست
راست میگه
بنده هم گشتم نبود نگرد نیست!!!
-
فکر نکنم حتی در ویندوز هم یه همچین برنامهای که با فارسی بدون مشکل کار کنه وجود داشته باشه
-
با pdf editor نمی تونی pdf را ادیت کنی و ازش export as text بگیری؟
-
با سلام
با pdf editor نمی تونی pdf را ادیت کنی و ازش export as text بگیری؟
ما رو نوع PDF داریم :
۱- PDF هایی که تایپ شده هستند .
۲- PDF هایی که اسکن شده هستند .
در مورد اولی فکر کنم که اصلا مشکلی نباشه چون راحت با کپی پیست مشکل حله .
اما مشکل با PDF های نوع دوم هست که احتیاج به نرمافزار OCR داره .
نرمافزار OKULAR که براحتی در سیستمعاملهای گنو نصب میشه متون انگلیسی رو براحتی تبدیل میکنه .
نکتهی جالب اینه که متون فارسی رو هم تبدیل میکنه ولی ایرادش اینکه حروف رو از هم جدا میکنه و از چب به راست هم مینویسه (آینه) .
خیلی وقت هست که میخوام بگم دوستان برنامه نویس (بخصوص QT کارها) اگر لطف کنن و این نرمافزار واقعا کامل رو یک فارسی سازی انجام بدن یعنی این مشکلش رو حل کنن ، تبدیل به بهترین و تنها نرمافزار OCR فارسی میشه که آزاد هم هست .
حالا دیگه خود دوستان برنامه نویس میدونن و این نرمافزار okular .
یا علی
-
منم چندباری با این مشکل بر خوردم، Adobe Reader جواب داد، ولی متاسفانه روی ویندوز بود!!! شاید بتونی فعلاً باهاش کارت رو راه بندازی تا ...
-
تو ویندوز pdfgraberهست. تا حدود زیادی کار رو راه میاندازه. تو لینوکس نمیدونم
-
یکی از دوستان مدتها پیش یه برنامه نوشته بود که متن رو میدادی بهش و آینهاش رو بهت میداد. همین طور اگه آینه میدادی متن رو میداد. نمیشه با ترکیب اون و OKULAR به یه جاهایی رسید؟
-
تو ویندوز pdfgraberهست. تا حدود زیادی کار رو راه میاندازه. تو لینوکس نمیدونم
سلام.
صحیحش pdfgrabber است.این هم سایتشه:
http://www.pdfgrabber.com
-
با سلام
یکی از دوستان مدتها پیش یه برنامه نوشته بود که متن رو میدادی بهش و آینهاش رو بهت میداد. همین طور اگه آینه میدادی متن رو میداد. نمیشه با ترکیب اون و OKULAR به یه جاهایی رسید؟
خوب مسلما اینکه برنامه آزاده یعنی میشه با تغییرات و رقع باگ این مشکل رو از داخل خود برنامه حل کرد . فقط مشکل okular اینه که علاوه بر آینه کردن تمام حروف رو هم جدا میکنه .
ولی حتما میشه اگر کسی انجامش بده .
یا علی
-
با سلام
یکی از دوستان مدتها پیش یه برنامه نوشته بود که متن رو میدادی بهش و آینهاش رو بهت میداد. همین طور اگه آینه میدادی متن رو میداد. نمیشه با ترکیب اون و OKULAR به یه جاهایی رسید؟
خوب مسلما اینکه برنامه آزاده یعنی میشه با تغییرات و رقع باگ این مشکل رو از داخل خود برنامه حل کرد . فقط مشکل okular اینه که علاوه بر آینه کردن تمام حروف رو هم جدا میکنه .
ولی حتما میشه اگر کسی انجامش بده .
یا علی
من از Evince استفاده میکنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
ولی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی میکنم در اولین فرصت بنویسم که متن رو آینه کنه(ترتیب حروف هر خط رو برعکس کنه) و حروف جدا (مثل: س ل ا م ) رو به حروف عادی تبدیل کنه.
-
بچه ها من شاید یک ماه کل نت را برای این موضوع گشتم و اینکه نیست!! تو ویندوزش که نبود لینوکس که مسلما نرم افزار های کمتری براش هست
یه سری اوسیار هست ولی اون ها هم جالب تبدیل نمیکنه
-
با سلام
من از Evince استفاده میکنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
اشتباه شده . من نگفتم که خود pdf رو اینجوری نشون میده که .
من گفتم وقتی یک صفحهی تصویری pdf بهش میدید تا OCR کنه ، خروجی متن به این حالت در میاد .
حروف جدا (مثل: س ل ا م ) رو به حروف عادی تبدیل کنه.
تا جایی که من میدونم تمام حروف رو بصورت شکل «جدا»ش مینویسه یعنی : «سلام» رو مینویسه « م ل ا س » .
بچه ها من شاید یک ماه کل نت را برای این موضوع گشتم و اینکه نیست!! تو ویندوزش که نبود لینوکس که مسلما نرم افزار های کمتری براش هست
خوب من هم همینو میگم دیگه . برای سیستمعامل گنو اتفاقا هست ولی همین دو تا مشکل کوچیک رو داره . تقریبا تنها نرمافزار موجود برای زبان پارسی است البته تا جایی که من اطلاع دارم .
لی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی میکنم در اولین فرصت بنویسم
برنامهی جدا خوبه ولی ایکاش مشکل okular هم حل میشد .
یا علی
-
چنین برنامهای برای ویندوز وجود داره دوستان.
اصلشم برنامه ای بوده که به همراه اسکنرا تحویل ملت می دادن،(منظور شرکت سازنده اسکنره) و قصدشم عربی بوده و نه فارسی. ۴ تا حرف فارسی رو هم اضافه کردن شده برای زبان فارسی
فقط کافیه پی دی اف تایپی باشه. اصولا پی دی اف ویژگیش اینه که شما نتونید متنش رو کپی پیست کنید :o با این برنامه اونا رو هم می تونید تبدیل کنید.
اما خوب چون کلوز سورسه لینک رو اینجا نمی تونم بذارم.
اسم برنامه Readiris Pro Middle East Edition هست و از سایت تبیان هم می تونید دانلودش کنید ;)
-
با سلام
من از Evince استفاده میکنم و این دو مشکل(آینه شدن و جدا شدن حروف) رو نداره.
اشتباه شده . من نگفتم که خود pdf رو اینجوری نشون میده که .
من گفتم وقتی یک صفحهی تصویری pdf بهش میدید تا OCR کنه ، خروجی متن به این حالت در میاد .
منم منظورم این بود که توی Evince وقتی یه متن رو کپی میکنیم و مثلاً توی gedit پیست میکنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.
ولی فکر نکنم Evince و Okular از OCR استفاده کنن!
چون اصلاً OCR فارسی که آزاد باشه من ندیدم و فکر نکنم وجود داشته باشه! :(
فقط یدونه عربی دیدم توی سایت ArabEyes که اونم تست نکردم....
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)
حروف جدا (مثل: س ل ا م ) رو به حروف عادی تبدیل کنه.
تا جایی که من میدونم تمام حروف رو بصورت شکل «جدا»ش مینویسه یعنی : «سلام» رو مینویسه « م ل ا س » .
یعنی بین حروف کاراکتر فاصله قرار میده؟ (موقع کپی کردن)
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)
لی رفع این دو مشکل هم کاری نداره. با یه برنامه کوچیک حل میشه که سعی میکنم در اولین فرصت بنویسم
برنامهی جدا خوبه ولی ایکاش مشکل okular هم حل میشد .
یعنی میگید برای Okular پچ بنویسیم و بفرستیم بهشون؟ اگه بشه خوبه، ولی من فکر نمیکنم بتونم این کارو انجام بدم. امیدوارم از دوستان دیگه کسی پیدا بشه...
-
با سلام
فقط کافیه پی دی اف تایپی باشه. اصولا پی دی اف ویژگیش اینه که شما نتونید متنش رو کپی پیست کنید Shocked با این برنامه اونا رو هم می تونید تبدیل کنید.
من که اون اول نوشتم که صفحههای تصویری یعنی شما یک متن رو اسکن میکنی و یه تصویر درست میشه و بعد از اون تصویر میخواهید متن رو جدا کنید . که تو ویندوز نیست .
حتی OCR های آزاد برای انگلیسی هم ضعیف هستن(بهترینشون که من دیدم gocr بود. ocrad که خیلی خنگه!!)
okular براحتی برای انگلیسی جواب میده .
منم منظورم این بود که توی Evince وقتی یه متن رو کپی میکنیم و مثلاً توی gedit پیست میکنیم، مشکلی نداره، آینه نمیشه و حروفش هم جدا نمیشه.
این کار رو که درسته Evince انجام میده ولی من PDF های تصاویری منظورم بود .
این مورد رو من برخورد نکردم. اگه میشه یه pdf که اینطوری باشه بدید تا تست کنم ببینم.(شاید یه کاراکتر دیگه باشه. space نباشه)
باشه من تا بعد از ظهر یک نمونه قرار میدم .
یا علی
-
pdftotext رو امتحان کن، برای من روی PDF هایی که با xepersian درست کردم خوب جواب میده.
(البته احتمالاً خروجیت خیلی بستگی به این داره که چطوری اون پی دی اف تولید شده!)
-
با سلام
نمیدونم چرا okular من هیچی نداره . نمیدونم ورژن okular من پایینه یا من از اول اشتباه کردم .
اگر گزینهی دوم درست باشه که من کلا همه رو گذاشتم سر کار و از همه عذر میخوام :oops:
اگر گزینهی اول درست باشه یعنی که okular من قدیمی باشه که میام و میگم (سیستم من دبیان است و اسطورهی قدیمی بودن اما قدرتمند)
با علی
-
اول از همه حرفهام رو دسته بندی کنم تا سوءتفاهم پیش نیاد
1- برای pdf های متنی
من 12 برنامه رو تست کردم و pdfgabber رو همچنین
جواب نداد که نداد
یک برنامه برای این معرفی کنید
نمونه برای تبدیل
http://khorasannews.com/newssource/b08.pdf
و
http://khorasannews.com/newssource/b07.pdf
2- برای pdf های تصویری
من readiris رو امتحان کردم (همه نسخه هاشو)
افتضاح به معنای واقعی کلمه
هر خط 6 تا 7 تا غلط
بعضی خطا رو هم فقط نقطه میگیره
برای این اگه باشه که حرف نداره
-
با سلام
این فایل pdfی که شما دادی رمزشده است و من نرمافزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی میدونه ؟
یا علی
-
با سلام
این فایل pdfی که شما دادی رمزشده است و من نرمافزاری که بتونه decrypt ش کنه نمیشناسم .
دوستان کسی میدونه ؟
یا علی
شاید مشکل از Encoding باشه. مطئنید رمزی شده؟
اینا رو گمونم با ms publisher درست میکنن.
-
اینا با PScript5.dll Version 5.2.2 در برنامه ی Acrobat Distiller 7.0 (Windows) درست کردند
-
با سلام
این عبارت یعنی چی؟
Security : Unencrypted
یا علی