Beautiful Soup
Beautiful Soup用于清理和提取HTML和XLM中的数据。 它用于解析HTML文本,并允许数据科学家将文本数据转换为结构化数据,只需几行代码,就可以提取复杂的HTML数据。在某些情况下,您只需要一个表标签,并且可以访问整个数据,而无需解析文本。
Scrapy
Scrapy 是一个开源的协作框架,用于网页抓取和网页抓取。它在爬取多个页面的网站以提取结构化格式的数据时快速、简单且可扩展。它通常用于数据挖掘、监控和自动化测试。
Python Web开发工具
Flask
Flask是一个用于构建Web应用程序和REST API的开源Web框架。它比Django的框架更容易学习,只需要几行代码,你就可以组装一个简单的Web API,并在本地运行。 Flask基于WSGI(Web服务器网关接口)工具包和Jinja2模板引擎。它可用于创建简单和大规模的Web应用程序,如博客网站、社交媒体应用程序、投资组合网页、机器学习应用程序和分析仪表板。
Streamlit
Streamlit是构建和共享web应用程序的最快、最简单的方法。您可以在几分钟内创建数据科学组合、分析仪表板、机器学习Web应用、教育教程以及地理空间和计算机视觉应用。您只需要像在Python中声明变量一样添加一个小部件。无需学习后端开发、定义路由和处理HTTP请求、HTML、CSS和JavaScript。 对于数据科学家和分析师来说,它是通往Web开发世界的大门。这就是为什么大多数数据科学家使用Streamlit来演示财务报告、研究和机器学习概念。
FastAPI
FastAPI是用于创建高性能Web API的Web框架。与Streamlit类似,它需要几行代码来构建生产就绪的Web应用程序。部署Web应用程序后,您可以使用GUI界面访问它或发送HTTP请求。 它快速、直观、健壮。您可以轻松部署机器学习模型。它还用于内部危机管理和Web应用程序的身份验证管理。
可视化开发工具
Matplotlib
Matplotlib是数据可视化世界的门户。您将在许多数据可视化介绍中了解它。 使用Matplotlib,您可以创建完全可定制的静态、动画和交互式可视化。它非常直观,您可以使用它来绘制三维、多级和详细的可视化效果。 具体教程可参考官方文档。
Seaborn
Seaborn是一个基于Matplotlib的高级界面,用于创建吸引人的统计图形。与Matplotlib类似,您可以通过键入单行代码生成交互式可视化。 它具有很强的适应性,当您刚接触数据可视化时,它会产生很好的效果。对于自定义,您始终可以使用matplotlib创建多个图形、编辑轴、标题甚至颜色。
Plotly
如果您需要Tableau或PowerBI的功能,可以使用Plotly Python库来显示交互式和出版质量的图表。 你可以放大一个图表,分离出一个单独的条,过滤东西,甚至根据你的需要制作动画。 它带有自定义控件,允许您对可视化效果进行动画处理并进行数据转换。Plotly还包含Jupyter小工具、3D图表、AI图表、财务图表和科学图表。 Plotly是创建基于Jupyter的数据分析报告的最佳工具。您可以创建一个静态图并添加自定义控件来探索和解释数据洞察,而不是创建多个静态图。
Pandas-profiling
Pandas-profiling是一个AutoEDA工具,用于使用单行代码创建探索性数据分析报告。报表包括列类型、缺失值、唯一值、分位数统计、描述性统计、直方图、相关性、文本分析以及文件和图像分析。 当你有较少的时间去探索的时候,它是相当有帮助的工具。