انجمن‌های فارسی اوبونتو

لطفاً به انجمن‌ها وارد شده و یا جهت ورود ثبت‌نام نمائید

لطفاً جهت ورود نام کاربری و رمز عبورتان را وارد نمائید

نویسنده موضوع: بهینه سازی فایل استخراج شده پیام از تلگرام  (دفعات بازدید: 350 بار)

0 کاربر و 1 مهمان درحال مشاهده موضوع.

آفلاین seyal

  • Jr. Member
  • *
  • ارسال: 90
سلام

وقتی که می خوام پیامها رو از یک کانال استخراج کنم دو آپشن در کنارش هست یکی اینکه فایل خروجی به صورت html باشه و یکی دیگه هم اینکه فایل خروجی به فرمت json باشه اما خروجی دوتاش ظاهر و فونت چندان مناسبی نداره.

در مورد فایل html:
اولا که اگه پیام ها جدا باشه اونا رو تو فایلهای html جداگانه استخراج میکنه که برام زیاد جالب نیست چون میخوام تو کل مطالب اون کانال سرچ بزنم برای اینکار از ابزار pandoc استفاده کردم و فایلای html رو با هم merge کردم
دو سوال پیش میاد:
1- چطور هنگام استخراج یا اینکه پس از استخراج فونت دلخواهم رو برای پیاما تعریف کنم؟
2- ابزاری هست که فایلای html رو بدون دستکاری قالبش با هم merge کنه؟


در مورد فایل json:
ابزاری می شناسید که این نوع فایل رو تبدیل به یک فایلی بکنه که بشه اون رو تو یه چیزی شبیه پیامرسان در حالت آفلاین بارگذاری کرد؟ منظورم اینه که مثلا آفلاین باشم و در محیطی مثل پیامرسان که دیتابیس آفلاین بهش دادم از کامپیوتر خودم میان کانالها و ... پیامها رو جستجو کنم و ببینم.

البته من بیشتر فقط به متن پیامها کار دارم و زیاد نیازی به استخراج ویدیو و عکس و اینها ندارم.

ویرایش:
بهترین روشی که می شناسید که متن پیام ها رو مرتب شده تو یه فایل txt یا odt استخراج کنه چی هست؟
« آخرین ویرایش: 09 دی 1400، 11:42 ق‌ظ توسط seyal »

آفلاین seyal

  • Jr. Member
  • *
  • ارسال: 90
خوب برای این که خروجی فایل html رو به فایل odt تبدیل کنیم با قسمتی راهنمایی از این لینک به ترتیب مراحل زیر عمل می کنیم:

1- ابتدا ابزار pandoc رو نصب می کنیم:
sudo apt-get update
sudo apt-get install pandoc

2- پوشه ای که فایلای html ما قرار داره رو تو ترمینال باز می کنیم

3- دستور زیر رو اجرا می کنیم
pandoc -s *.html -o output.odt
این ابزار pandoc خیلی خوب عمل می کنه و فایل نهایی رو میشه تو لیبره آفیس به خوبی ویرایش کرد و تقریبا مشکل رو حل کرد.

نکته: برای تبدیل فایلای html به یک فایل html واحد کافیه که به جای اون output.odt عبارت output.html رو قرار بدید به این صورت:
pandoc -s *.html -o output.html
برای اون سوال دوم کسی جوابی نداره؟
« آخرین ویرایش: 09 دی 1400، 11:52 ق‌ظ توسط seyal »

آفلاین میمو ☕

  • High Hero Member
  • *
  • ارسال: 1034
  • جنسیت : پسر
  • mrostd سابق
 >:(
سلام

وقتی که می خوام پیامها رو از یک کانال استخراج کنم دو آپشن در کنارش هست یکی اینکه فایل خروجی به صورت html باشه و یکی دیگه هم اینکه فایل خروجی به فرمت json باشه اما خروجی دوتاش ظاهر و فونت چندان مناسبی نداره.

در مورد فایل html اولا که اگه پیام ها جدا باشه اونا رو تو فایلهای html جداگانه استخراج میکنه که برام زیاد جالب نیست چون میخوام تو کل مطالب اون کانال سرچ بزنم برای اینکار از ابزار pandoc استفاده کردم و فایلای html رو با هم merge کردم
دو سوال پیش میاد:
1- چطور هنگام استخراج یا اینکه پس از استخراج فونت دلخواهم رو برای پیاما تعریف کنم؟
2- ابزار بهتری برای merge کردن فایلای html سراغ ندارید که ظاهر اون رو به هم نزنه؟


در مورد فایل json:

ابزاری می شناسید که این نوع فایل رو تبدیل به یک فایلی بکنه که بشه اون رو تو یه چیزی شبیه پیامرسان در حالت آفلاین بارگذاری کرد؟ منظورم اینه که مثلا آفلاین باشم و در محیطی مثل پیامرسان که دیتابیس آفلاین بهش دادم از کامپیوتر خودم میان کانالها و ... پیامها رو جستجو کنم و ببینم.

البته من بیشتر فقط به متن پیامها کار دارم و زیاد نیازی به استخراج ویدیو و عکس و اینها ندارم.

ویرایش:
بهترین روشی که می شناسید که متن پیام ها رو مرتب شده تو یه فایل txt یا odt استخراج کنه چی هست؟
احتمالا با ساخت یه فایل style.css و لینک کردنش به فایل‌ها بتونی فونت رو تغییر بدی.
فایل json بیشتر مناسب برنامه‌نویسی هست.

آفلاین seyal

  • Jr. Member
  • *
  • ارسال: 90
خوب برای این که خروجی فایل html رو به فایل odt تبدیل کنیم با قسمتی راهنمایی از این لینک به ترتیب مراحل زیر عمل می کنیم:

1- ابتدا ابزار pandoc رو نصب می کنیم:
sudo apt-get update
sudo apt-get install pandoc

2- پوشه ای که فایلای html ما قرار داره رو تو ترمینال باز می کنیم

3- دستور زیر رو اجرا می کنیم
pandoc -s *.html -o output.odt
این ابزار pandoc خیلی خوب عمل می کنه و فایل نهایی رو میشه تو لیبره آفیس به خوبی ویرایش کرد و تقریبا مشکل رو حل کرد.

خوب برای اینکه فایلای html رو به فایل html واحد با فونت و تغییرات دلخواه خودتون تبدیل کنید این فایل odt که با روش بالا درست کردید رو ویرایش کنید و فونت دلخواهتون رو با لیبره آفیس براش تعریف کنید و در آخر با قابلیت خود نرم افزار لیبره آفیس میتونید ازش خروجی html بگیرید.
قابلیت تبدیل به txt و epub و ... هم خود لیبره آفیس داره.
حتی اگه نخواید هم از ابزار pandoc استفاده کنید امکان پذیره چون خود لیبره آفیس فرمت html رو ساپورت میکنه میشه فایلا رو با اون باز کرد و متنشو تو یک فایل ادغام کرد.

ویرایش:
بله درسته
با تنظیم کردن فایل css که در پوشه بکاپ گرفته شده هست میشه هر فونت دلخواهی که در سیستم نصب هست رو برای پیام ها تعریف کرد و تنظیمات ظاهری دیگه مثل سایز فونت و مرزبندی و ... رو هم تعیین کرد.
« آخرین ویرایش: 06 اسفند 1400، 03:32 ب‌ظ توسط seyal »