نویسنده موضوع: فیلتر کردن یک فایل متنی (حل شد) (دفعات بازدید: 1291 بار)

Ma$oud · « : 20 اسفند 1394، 10:07 ق‌ظ »

سلام دوستان، با چه دستوری میشه مثلا کلمه های موجود توی تگ اچتمل رو کشید بیرون؟

مثال:

<p>hello</p>
<p>hey</p>
<p>masoud</p>
<p>Ma$oud</p>
<p>!!!&</p>

بعد خروجی یه همچین چیزی بشه:

کد: [انتخاب]

hello
hey
masoud
Ma$oud
!!!&

علیرضاامیرصمیمی · « **پاسخ #1 :** 20 اسفند 1394، 10:51 ق‌ظ »

راه های مختلفی براش هست
فرض کن محتویات رو در یه فایل به نام a.txt
ذخیره کردی . یه دفعه تگ های سمت راست رو حذف کن و یه دفعه سمت چپ

کد: [انتخاب]

sed -i 's/<\/p>//g' a.txt
 sed -i 's/<p>//g' a.txt

اینجوری خروجی روی همون فایل ذخیره میشه

Ma$oud · « **پاسخ #2 :** 20 اسفند 1394، 11:19 ق‌ظ »

نقل‌قول از: علیرضاامیرصمیمی در 20 اسفند 1394، 10:51 ق‌ظ

راه های مختلفی براش هست
فرض کن محتویات رو در یه فایل به نام a.txt
ذخیره کردی . یه دفعه تگ های سمت راست رو حذف کن و یه دفعه سمت چپ

کد: [انتخاب]
sed -i 's/<\/p>//g' a.txt sed -i 's/<p>//g' a.txt
اینجوری خروجی روی همون فایل ذخیره میشه

این در صورتیه که فقط بخوایم تگ <p> رو حذف کنیم، حالا اگه مثلا بخوام از یه فایل اچتمل که همه جور تگ توش هست اطلاعاتو بکشم بیرون چی؟
یه دستوری که بگه مثلا فقط کلماتی که اولشون برای مثال:

کد: [انتخاب]

"> و آخرشون

کد: [انتخاب]

</a رو نشون بده

koosha · « **پاسخ #3 :** 20 اسفند 1394، 11:22 ق‌ظ »

با تشکر از دوست عزیزمون .
با پایتون هم اینجوری میشه (البته یکمی طولانی شد) :

کد: [انتخاب]

import re
import string

f=raw_input('Enter the full address of file : ')

file=open(f,'r')
a=file.read()
file.close()

result = re.findall(r'>.*<',a)

result=string.join(result)

result = re.sub(r'[<|>]','',result) 

result=string.split(result)

s=len(result)

for i in range(s)  : print result[i] ;

Ma$oud · « **پاسخ #4 :** 20 اسفند 1394، 11:36 ق‌ظ »

ممنون آقا کوشا، فقط از اونجایی که من تقریبا اصلا پایتون بلد نیستم

این قسمت

کد: [انتخاب]

<p> و

کد: [انتخاب]

</p> رو به صورت یه متغیری چیزی که من بتونم عوضش کنم درستش کنی؟ و اون قسمت متن رو بشه آدرس فایلو داد؟

koosha · « **پاسخ #5 :** 20 اسفند 1394، 11:46 ق‌ظ »

کد بالا رو ویرایش کردم تا بتونید آدرس فایل رو بهش بدید .

Droid · « **پاسخ #6 :** 20 اسفند 1394، 12:31 ب‌ظ »

یه regex نوشتم ولی نمیدونم چرا با sed جواب نمیده، کسی نمیدونه چرا؟
ولی اینی که پیدا کردم کار میکنه:

کد: [انتخاب]

sed -i -e 's/<[^>]*>//g' html.txt

احسان فعالپور · « **پاسخ #7 :** 20 اسفند 1394، 01:20 ب‌ظ »

این رجکسی که شما نوشتی کل خط رو شامل میشه به همین خاطر چیزی باقی نمیمونه.
شما نوشتی:

کد: [انتخاب]

sed -r 's/<\/*.+?>//g' htmlاون کاراکتر . رجکستون رو خراب کرده اینجا، درسته که سعی کردید مشکل حریص بودن رجکس رو با ?+ حل کنید ولی خب کاراکتر . میتونه شامل < هم بشه و اینجا به مشکل میخورید.

بهترین کار استفاده از کتابخانه bs4 در پایتون هستش، اما به هر حال رجکس درست همونطور هم که خودتون اشاره کردید این هستش:

کد: [انتخاب]

ehsan@ehsan-SVF152190X:~/Desktop/scripting/tmp$ cat html
<p>hello</p>
<p>hey</p>
<p>masoud</p>
<p>Ma$oud</p>
<p>!!!&</p>
ehsan@ehsan-SVF152190X:~/Desktop/scripting/tmp$ sed -r 's/<[^>]+>//g' html 
hello
hey
masoud
Ma$oud
!!!&

انجمن‌های فارسی اوبونتو

نویسنده موضوع: فیلتر کردن یک فایل متنی (حل شد) (دفعات بازدید: 1291 بار)

Ma$oud

فیلتر کردن یک فایل متنی (حل شد)

علیرضاامیرصمیمی

پاسخ : فیلتر کردن یک فایل متنی

Ma$oud

پاسخ : فیلتر کردن یک فایل متنی

koosha

پاسخ : فیلتر کردن یک فایل متنی

Ma$oud

پاسخ : فیلتر کردن یک فایل متنی

koosha

پاسخ : فیلتر کردن یک فایل متنی

Droid

پاسخ : فیلتر کردن یک فایل متنی

احسان فعالپور

پاسخ : فیلتر کردن یک فایل متنی