要使用Python爬取微博话题博文并保存为TXT格式,可以使用第三方库requests
和beautifulsoup4
来进行网页请求和解析。以下是一个简单的示例代码:
import requests
from bs4 import BeautifulSoup
# 定义要爬取的微博话题URL
url = 'https:///weibo?q=%23%E5%BE%AE%E5%8D%9A%E8%AF%9D%E9%A2%98%23'
# 发起GET请求获取网页内容
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html, 'html.parser')
# 找到所有的微博博文元素
weibo_elements = soup.find_all(attrs={'class': 'txt'})
# 遍历微博博文元素,提取内容并保存为TXT文件
with open('weibo_posts.txt', 'w', encoding='utf-8') as file:
for weibo in weibo_elements:
post_content = weibo.text.strip()
file.write(post_content + '\n')
在上面的代码中,我们首先使用requests
库发送GET请求获取微博话题页面的HTML内容。然后,使用BeautifulSoup
库对HTML进行解析,通过查找特定的HTML元素,找到所有微博博文的内容。最后,将博文内容逐行写入TXT文件中。
该示例代码仅仅演示了基本的爬取和保存功能,并未处理分页、登录等更复杂的情况。如果需要处理分页或登录,可能需要使用更高级的技术,比如模拟登录或使用微博的API。同时,爬取网页内容需要遵守网站的使用条款和法律法规,确保合法合规地进行数据获取。