Возникает ошибка при парсинге сайта
from bs4 import BeautifulSoup
import requests
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
is_accept = False
while not is_accept:
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(options=chrome_options)
time.sleep(3)
try:
driver.get('https://inf-ege.sdamgia.ru/?redir=1')
page_sourse = driver.page_source
general_site = BeautifulSoup(page_sourse, 'html.parser')
link_to_var = general_site.find_all(class_="Link VariantLink OurVariants-Link")
try:
print(link_to_var)
# for i in range(len(link_to_var)):
# print(general_site.body.find_all(class_="Link VariantLink OurVariants-Link")[i])
second_page = (link_to_var[0].attrs['href'])
print(second_page)
is_accept = True
except:
print('error: link_to_var = []')
finally:
driver.quit()
Хочу запарсить сайт, но мне выдавало ошибку:
WARNING: All log messages before absl::InitializeLog() is called are written to STDERR
I0000 00:00:1751271866.416416 6652 voice_transcription.cc:58] Registering VoiceTranscriptionCapability
[19292:2168:0630/112426.949:ERROR:google_apis\gcm\engine\mcs_client.cc:700] Error code: 401 Error message: Authentication Failed: wrong_secret
[19292:2168:0630/112426.949:ERROR:google_apis\gcm\engine\mcs_client.cc:702] Failed to log in to GCM, resetting connection.
[19292:2168:0630/112426.994:ERROR:google_apis\gcm\engine\registration_request.cc:291] Registration response error message: PHONE_REGISTRATION_ERROR
[19292:2168:0630/112427.012:ERROR:google_apis\gcm\engine\registration_request.cc:291] Registration response error message: PHONE_REGISTRATION_ERROR
Поэтому я попробовал как видно в коде выше зациклить это все т.к когда я тестил иногда выдавало ошибку, иногда не могло найти link_to_var и возвращало пустой список что потом ломалось об second_page = (link_to_var[0].attrs['href'])
В итоге после попыток 7 +- мне выводило запрашиваемый html код, как сделать стабильным вывод без ошибок и что бы он находил link_to_var, а не выдавал пустой список.
Заранее спасибо