بهتره برای چنین پرسشی با مثال پیش برید و سوال را دقیق بپرسید.
دقیقا دادههای چه سایتی را میخواهید بگیرید و کاربردش چیه؟
به طور کلی کلیدواژههای زیر را جستجو کنید.
crawler with python
scraping websites with python
پیوند زیر هفت نمونه از کتابخانههای پایتون برای این کار را فهرست کرده است.
https://www.zenrows.com/blog/python-web-scraping-library#best-python-scraping-libraries
ویرایش
موضوع مرتبط
https://forum.ubuntu-ir.org/index.php?topic=148843.msg1160743#msg1160743
درسته با همین ایده میتونید پیش برید.
راه دیگه استفاده از امکانات خود پوسته نظیر pipe و ترکیب با سایر دستورات است.
lynx | uniq
توجه کنید که خود lynx امکان دریافت به صورت تو در تو ندارد(حداقل تا جایی که من فهمیدم)
و به این شکل باید عمل کنید که هر پیوندی که پیدا کردید اگر مربوط به صفحهٔ وب بود(مثلا پروندهٔ mp3 نبود) مجدد به عنوان ورودی lynx در نظر بگیرید.
در برنامه نویسی میتونید چنین منطقی را با تابع بازگشتی(Recursive Function) پیاده سازی کنید.
https://codingforseo.com/blog/extract-links-with-lynx/
ویرایش
میتونید به دستور lynx انتخاب nonumbers- هم اضافه کنید تا پیش از پیوندها عدد نشون نده.
https://paste.ubuntu-ir.org/hcxz
ویرایش
اگر پیوندها محدود شده بودند میتونید ابزارهای از پراکسی رد کنید.
برای نمونه اگر تونل ssh دارید تنظیم زیر با proxychains کار ساز است.
برقراری تونل
ssh -D 0.0.0.0:9999 bsd -N
نصب
sudo apt install proxychains
تنظیمات
[ProxyList]
# add proxy here ...
# meanwile
# defaults set to "tor"
# socks4 127.0.0.1 9050
socks5 127.0.0.1 9999
اجرا
$ proxychains4 aria2c -s16 -x16 -i list