Разместить объявление

VIPAdmin / PREMIUM / cod / Парсер HTML страниц на Python

Парсер HTML страниц на Python

Данный код производит парсинг HTML страницы, полученной по заданному URL-адресу с помощью библиотеки requests и BeautifulSoup. Затем пользователю предлагается выбрать папку для сохранения файла с помощью функции print_subfolders, которая выводит список подпапок в заданной директории. Если пользователь выбирает 0, файл сохраняется в текущей директории, иначе создается новая папка с выбранным именем или перезаписывается существующая. Затем пользователю предлагается ввести название файла для сохранения. В конце, результат сохраняется в виде HTML-файла.

import requests
from bs4 import BeautifulSoup
import urllib.parse
import os
def print_subfolders(folder_path):
 subfolders = [f.path for f in os.scandir(folder_path) if f.is_dir()]
 for i, subfolder in enumerate(subfolders):
 print(f"{i+1}. {subfolder}")
url = input("Введите URL страницы для парсинга: ")
if not urllib.parse.urlparse(url).scheme:
 url = "https://" + url
try:
 response = requests.get(url)
 response.raise_for_status()
except requests.exceptions.HTTPError as http_err:
 print(f'HTTP error occurred: {http_err}')
except Exception as err:
 print(f'Other error occurred: {err}')
else:
 soup = BeautifulSoup(response.content, 'html.parser')
 headings = soup.find_all('h1')
 for i, heading in enumerate(headings):
 print(f"{i+1}. {heading.text}")
 folders = [f for f in os.listdir('.') if os.path.isdir(f)]
 for i, folder in enumerate(folders):
 print(f"{i+1}. {folder}")
 folder_num = input("\n0. сохранить в текущую директорию\nВведите номер папки для сохранения: ")
 if folder_num == "0":
 folder_path = "."
 folder_name = ""
 else:
 folder_path = os.path.join(os.getcwd(), folders[int(folder_num)-1])
 print_subfolders(folder_path)
 folder_name = folders[int(folder_num)-1]
 file_name = input("Введите название файла для сохранения: ")
 if folder_name:
 os.makedirs(folder_name, exist_ok=True)
 with open(os.path.join(folder_path, f"{file_name}.html"), "w") as f:
 f.write(response.text)
 if folder_name:
 print(f"Файл {file_name}.html успешно сохранен в папке {folder_name}")
 else:
 print(f"Файл {file_name}.html успешно сохранен в текущей директории")

Парсер HTML страниц на Python

7-03-2024, 22:00 .zip

МАРКЕТПЛЕЙС ЦИФРОВЫХ ТОВАРОВ

Перейти в чат вебмастеров

ТОП Записей

IP.Board модификации Иконки значков/званий для форума (.PNG) 1.0.0

Шаблоны Joomla EasyBlog PRO v5.3.6 - компонент блога для Joomla

PrestaShop Модули Модуль Login by mobile phone number v17.0.45. Register by OTP SMS.

Хостинг / Скрипты сайтов Панель управления игровым хостингом HostinPL 5.6 |

Скрипты сайтов / Игровые движки / Магазин GameCMS [ Новая версия v3.606 ]

Скрипты сайтов GameCMS v3.606 (modules)

Хаки DLE Правила Rewrite для ЧПУ на серверах под управлением Nginx - DLE 13

Скрипты сайтов / Магазин Foodomaa - скрипт управление рестораном и доставка еды

Хаки DLE robots.txt

Хостинг / Скрипты сайтов Панель управления игровым хостингом HOSTINPL 5.5 |

Автор: cod

Дата: 07.03.2024 22:00

Просмотров: 336

Оцените статью:

0 0

Также смотрите

Скрипт бота по отправке мемов TELEGRAM BOT для скачивания видео с TikTok ТЕГГЕР / УПОМИНАЛКА ДЛЯ ТГ (ИСХОДНОЙ КОД)Генератор google почт ,для спама.Скрипт киви бота Как написать библиотеку на Rust? Реальный пример

Партнерки

Обзор RollerAds: умная пуш-сеть с инновационными инструментами

Обзор RollerAds: умная пуш-сеть с инновационными инструментами

-1

Huffson Group: премиальная CPA-сеть для iGaming

Huffson Group: премиальная CPA-сеть для iGaming

-0.5

Сервисы

Обменники

CRYPTOFOREST - готовое решение для старта своего криптообменника

CRYPTOFOREST - готовое решение для старта своего криптообменника

CryptoBot - Телеграм бот обменник криптовалюты

CryptoBot - Телеграм бот обменник криптовалюты

Парсеры

A-PARSER - парсер сайтов № 1

A-PARSER - парсер сайтов № 1

Платежные системы

Платёжная система для Telegram

Платёжная система для Telegram

Rukassa - надежная платежная система для сайта, телеграм ботов, мобильных приложений и др.

Rukassa - надежная платежная система для сайта, телеграм ботов, мобильных приложений и др.

NetKassa - High-risk P2P прием платежей для вашего бизнеса

NetKassa - High-risk P2P прием платежей для вашего бизнеса

Еще немного интересного

Сервисы / Proxy / Арбитраж трафика / Обзоры PSB Proxy — надёжный сервис резидентных прокси с гибкими условиями

Арбитраж трафика / Мануалы / Статьи Установка трекера Keitaro

Мануалы / Арбитраж трафика / Статьи МАНУАЛ ПО ФАРМУ АККАУНТОВ GOOGLE - Подготовка базы для аккаунтов Google

Работа с прокси / Статьи Как настроить прокси-сервер через SSH и ShadowSocks – подробное руководство

Работа с прокси / Сервисы Обзор MobileProxy.Space: Ведущий сервис мобильных прокси с глобальным охватом

Сервисы / Платёжные системы Rukassa - надежная платежная система для сайта, телеграм ботов, мобильных приложений и др.

Сервисы / Редакторы Animoto: разбор функционала сервиса

Арбитраж трафика / Мануалы / Статьи / Трекеры / Клоака Как установить трекер Keitaro на сервер Beget: Пошаговое руководство

Платёжные системы / Сервисы NetKassa - High-risk P2P прием платежей для вашего бизнеса

Арбитраж трафика / Статьи Как получить лиды FB из формы в Google Таблицы?

Сервисы / Парсинг A-PARSER - парсер сайтов № 1

Статьи Дорвеи Телеграм - создание и монетизация

Сервисы / Безопасность AntiBot.cloud - защита сайта от ботов (скликивания) и парсинга

Сервисы / Сервера и хостинги Хостинг PrivateAlps (Игнорирует DMCA)

Сервисы / Платёжные системы Merchant001- надежный эквайринг для сайта

Сервисы / Онлайн обменники CryptoBot - Телеграм бот обменник криптовалюты

Статьи Дорвеи 2023-2024

Арбитраж трафика / Статьи Арбитраж трафика на пуш уведомлениях

Статьи Аренда виртуального номера - преимущества, ограничения, способы

Статьи Симпл жёстко прошёлся по Counter-Strike 2: что не так с новой игрой

Статьи / Сервисы / Proxy Proxy-solutions.net: обзор сервиса, предлагающего услуги проксирования трафика

Статьи / Софт / Антидетект Браузеры Лучшие антидетект браузеры

Статьи Карты для арбитража. Кейс роста на 500%+ за 3 месяца

Сервисы / Трекеры / Клоака / Арбитраж трафика Keitaro PRO - Трекер для арбитража трафика

Статьи Как настроить ключи SSH в Ubuntu 18.04

Статьи Установка Matrix сервера с помощью playbook 2021

Статьи DDoS атаки - как защититься?

Статьи Hostinpl бот для вк

Статьи Убираем перенаправление на 80 порт после авторизации в PhpMyAdmin

Хостинг / Скрипты сайтов / Статьи Как настроить работу почты

Хостинг / Скрипты сайтов / Статьи Урок доступ mysql с любого ip

Хостинг / Скрипты сайтов / Статьи Как сделать моментальную установку сервера? HOSTINPL

Хостинг / Статьи Exim (Восстановление по e-mail)

Хостинг / Статьи Настройка Free-Kassa для вашей игровой панели.

Статьи Как сделать авторизацию на хостинге по VK.

Хостинг / Статьи Как сделать игровой хостинг. Практически советы

Скрипты сайтов / Статьи JavaScript - Меняем CSS

Статьи HOSTINPL | Распределение игр по локациям (Что то типо модуля)

Статьи Установка и настройка Pterodactyl

Статьи Небольшой мануал для новичков, решивших создать киносайт

Статьи Гайд по правильному заказу сайта: подробная инструкция для новичков

Отзывы (0)

To connect permitted only files with the extension: .tpl or .php To connect permitted only files with the extension: .tpl or .php