Nepali News (Gorkhapatra) Scrapping Using BeautifulSoup and Python

In this blog, I am going to write about how I was able to scrap news from Gorkhapatra news portal of Nepal. I have also written a code for scraping Ekantipur and Annapurna but I will be sharing those in another blog.

Importing Dependencies

For this news portal, I have used below python packages. If you are in hurry to get these code then please go to my repository Nepali News Scrapper.

  • numpy: for array operations.
  • Matplotlib: for visualization
  • Pandas: for data analysis
  • BeautifulSoup: for parsing HTML content and extracting information
  • urllib3: for HTTP GET request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup as BS
import urllib3


Scraping data of particular category

There are different categories like national, international, society,provience of the news. But first of all, I am going to scrap the news from the national itself.

#Define url, which will be scraped
url = ""
# extract a category
category = url.split("/")[-1]

Read a URL's content

First we will make a client i.e. using urllib3 and then using that client, we will make a GET request to the above url. Then we will parse the response given by server. The response will be parsed as HTML.

http = urllib3.PoolManager()
http.addheaders = [('User-agent', 'Mozilla/61.0')]
web_page = http.request('GET', url)
soup = BS(, 'html5lib')

If we see what the variable soup is holding, then we can see the entire page source of an webpage. After going to that URL from browser, we can see many contents including ads and the valuable content is only on the center of the page. Now our target is to find the best HTML element that can give us the exact content of that portion.


Find the Title of each national news

In order to find the exact HTML element which holds the titles of each national news, we have to do inspect element and hover the webpage. Which is boring task though. In this news portal p element holds the title and its some properties like exact URL to the news. But the p is in business class and inside that business class we can find trending2 first find the .business class and then find .trending2 after that we can find 'p` inside that class content.

 # loop through all the divs with '.business` class found in the webpage
 for content in".business"):
   #newsurl is in `a` tag
    trend2 = content.select_one(".trending2")
    # tile is inside `.trending2` calss in `p` tag
    # get p text
    title = trend2.find("p").text 
    title = title.strip()

    description = trend2.select_one(".description").text.strip()
 'कोरोनाको ख्याल नगरी वसन्तपुरमा होली पर्व मनाइयो (फाेटाे फिचर)',
 'रङ्गहरुको पर्वको रुपमा परिचित होली (फागु) देशभर हर्षाेल्लासका साथ मनाइएको छ ।\nविभिन्न रङ्ग एक आपसमा लगाएर मनाउने यस पर्वमा कोरोना भाइरसको जोखिम रहेको बताउँदै सरकारले सामाजिक दुरी (भौतिक) अवलम्बन गर्दै भिडभाड गरेर नमनाउन सार्वजनिक सूचना प्रकाशित गरेको छ ।')

The reason I used break on above code is that I want to only try on the first news. After a code can handle the scrapping on that code then I will be using that code for all other news. Now is the time to scrape the news's url and in above block it is defined as newsurl.

news_page = http.request('GET', newsurl)
news_soup = BS(, 'html5lib')

Now we have a URL of a particular news, we can goto that link and search for the valuable contents. All the news contents will be on the news_page so we will be using the soup of it. We need author name, author url, date of this news published, news title, description, and contents.

# find the date and time
date = trend2.find('small').text
date = date.strip()
date = date.split('\xa0\xa0\xa0\xa0\n')[1]
'चैत्र १५, २०७७ आईतवार'

Finding Author Details

  • Author URL: Inside newsurl select .post-author-name and then find a tag there we get authorurl on href.
  • Author Can be found on main page.
#find the author url and author name
author = trend2.find('small').text
author = author.strip()
author = author.split('\xa0\xa0\xa0\xa0\n')[0]
author_url = news_soup.select_one(".post-author-name").find("a").get("href")
('', 'गोरखापत्र अनलाइन ')

News Content

Inside newsurl select .newstext class and then find all the p tags. First clean the text and then concatenate it with previously written text.

for p in news_soup.select_one(".newstext").findAll("p"):
  content = content.strip()
'गोरखापत्र अनलाइनकाठमाडौं, चैत १५ गते । रङ्गहरुको पर्वको रुपमा परिचित होली (फागु) देशभर हर्षाेल्लासका साथ मनाइएको छ । विभिन्न रङ्ग एक आपसमा लगाएर मनाउने यस पर्वमा कोरोना भाइरसको जोखिम रहेको बताउँदै सरकारले सामाजिक दुरी (भौतिक) अवलम्बन गर्दै भीडभाड गरेर नमनाउन सार्वजनिक सूचना प्रकाशित गरेको छ । तर सरकारी सूचनालाई बेवास्ता गर्दै उपत्यकासहित देशभर यस पर्व भिडभाडमा नै मनाइएको पाइएको छ ।फागु पर्वको मुख्य केन्द्र राजधानीको बसन्तपुरमा अध्याधिक मात्रामा युवाको सम्लग्नतामा यस पर्व मनाइएको छ ।बच्चादेखि युवायुवतीहरु त्यहाँ पुगेर सामाजिक दुरीको पालना नगरी रङ्गहरुको होली पर्व मनाएका छन् ।\nफाेटाे–मनाेजरत्न शाही / केशव गुरूङ्ग'

Now the news is scraped for a single URL. Our task is to use this concept for all the URLs of this category.

Combining It All

# loop through all the divs with '.business` class found in the webpage
for content in".business"):
  #newsurl is in `a` tag
  trend2 = content.select_one(".trending2")
  # tile is inside `.trending2` calss in `p` tag
  # get p text
  title = trend2.find("p").text 
  title = title.strip()
  #description is inside `.small` tag
  # we get by taking text only
  date = trend2.find('small').text
  date = date.strip()
  date = date.split('\xa0\xa0\xa0\xa0\n')[1]
  description = trend2.select_one(".description").text.strip()

  news_page = http.request('GET', newsurl)
  news_soup = BS(, 'html5lib')

  date = trend2.find('small').text
  date = date.strip()
  date = date.split('\xa0\xa0\xa0\xa0\n')[1]
  for p in news_soup.select_one(".newstext").findAll("p"):
    content = content.strip()
        Title: {title}, URL: {newsurl}
        Date: {date}, Author: {author},
        Category :{category} ,
        Author URL: {author_url}, 
        Description: {description},
        Content: {content}
        Title: काठमाडौँको तुवाँलो अझै केही दिनसम्म रहने, URL:
        Date: चैत्र १५, २०७७ आईतवार, Author: गोरखापत्र अनलाइन ,
        Category :national ,
        Author URL:, 
        Description: शुक्रबारदेखि काठमाडौँ उपत्यकाको आकाशमा एक्कासि बाक्लो तुवाँलाले ढाकेको छ । जल तथा मौसम विज्ञान विभागका अनुसार नेपालका अधिकांश जिल्लामा डढेलो लागिरहेको र लामो समय खडेरी पर्नुका साथै हावा नचेलेका कारणले सोबाट सिर्जित प्रदूषणका कण वायुमण्डलमा नै जम्मा भएकाले धेरैजसो स्थानमा प्रदूषण बढ्न गई पारदर्शिता घटेको छ ।,
        Content: काठमाडौँ, चैत १५ गते । शुक्रबारदेखि काठमाडौँ उपत्यकाको आकाशमा एक्कासि बाक्लो तुवाँलाेले ढाकेको छ । जल तथा मौसम विज्ञान विभागका अनुसार नेपालका अधिकांश जिल्लामा डढेलो लागिरहेको र लामो समय खडेरी पर्नुका साथै हावा नचलेका कारणले सोबाट सिर्जित प्रदूषणका कण वायुमण्डलमा नै जम्मा भएकाले धेरैजसो स्थानमा प्रदूषण बढ्न गई पारदर्शिता घटेको छ ।           स्थिर रहेको वायुमण्डल आगामी दुई–तीन दिनसम्म सुधार हुने सम्भावना कम रहेको मौसमविद् विभूति पोखरेलले बताउनुभयो । उहाँका अनुसार पछिल्लो समय अधिकांश जिल्लामा डढेलो लागिरहेको, लामो समय पानी नपरेको र हावा नचेलेका कारण वायुप्रदूषण बढेको हो । प्रदूषित वायुमण्डल सफा हुनका लागि कित वर्षा हुनुपर्छ वा हावा चल्नुपर्छ अहिले त्यो भएको छैन । धेरै किसिमको प्रदूषण मिसिएका कारणले सर्वसाधारणले आँखा पोलेको महसुस गरेका छन् ।           यसबाट हुने प्रदूषणका कारण स्वास्थ्यमा पर्ने नकारात्मक असर आँखा पोल्ने र श्वासप्रश्वासमा समेत समस्या आदिबाट बच्न आवश्यक कार्यबाहेक घर बाहिर ननिस्किन र निस्किनु परेमा मास्क लगाउन हुन तथा आवश्यक सतर्कता अपनाउन विभागले आग्रह गरेको छ ।           हाल देशमा स्थानीय वायुसँगै पश्चिमी वायुको समेत आंशिक प्रभाव छ । दिउँसो देशको पहाडी भू–भागमा आंशिक बदली रही अपराह्नपश्चात् देशका पहाडी भू–भागका एक–दुई स्थानमा मेघगर्जन, चट्याङसहित फाट्टफुट्ट वा हल्का वर्षाको सम्भावना  छ ।           मौसम पूर्वानुमान महाशाखाको पछिल्लो विवरणअनुसार आज काठमाडौँ उपत्यकाको न्यूनतम तापक्रम १० दशमलव छ डिग्री र अधिकतम तापक्रम २६ दशमलव चार डिग्री सेल्सियस छ । त्यस्तै आज सबैभन्दा कम जुम्लाको  तापक्रम एक दशमलव नौ डिग्री र सबैभन्दा धेरै नेपालगञ्जको अधिकतम तापक्रम ३४ दशमलव पाँच डिग्री सेल्सियस छ ।

        Title: तत्काल बन्दाबन्दी हुँदैन : श्रेष्ठ, URL:
        Date: चैत्र १५, २०७७ आईतवार, Author: गोरखापत्र अनलाइन ,
        Category :national ,
        Author URL:, 
        Description: शिक्षा विज्ञान तथा प्रविधिमन्त्री कृष्णगोपाल श्रेष्ठले कोरोनाको सङ्क्रमण बढ्दै गए पनि तत्काल बन्दाबन्दी नगरिने बताउनुभएको छ । कोरोना सङ्क्रमणबाट बच्नका लागि आवश्यक स्वास्थ्य सुरक्षाका मापदण्ड अपनाएर अगाडि बढिने उहाँले स्पष्ट गर्नुभयो ।,
        Content: गोरखापत्र समाचारदाता

काठमाडौँ, चैत १५ गते । शिक्षा विज्ञान तथा प्रविधिमन्त्री कृष्णगोपाल श्रेष्ठले कोरोनाको सङ्क्रमण बढ्दै गए पनि तत्काल बन्दाबन्दी नगरिने बताउनुभएको छ । कोरोना सङ्क्रमणबाट बच्नका लागि आवश्यक स्वास्थ्य सुरक्षाका मापदण्ड अपनाएर अगाडि बढिने उहाँले स्पष्ट गर्नुभयो । मध्यपुर थिमि नगरपालिकाको २५औँ स्थापना दिवसको अवसरमा शनिबार आयोजित कार्यक्रममा मन्त्री श्रेष्ठले दुई सिफ्टमा विद्यालय सञ्चालन गरेर भए पनि बन्दाबन्दी भने नगरिने बताउनुभयो । उहाँले कोरोनाबाट बच्नका लागि स्वास्थ्य सुरक्षाका मापदण्ड अपनाउन सबैमा आग्रह गर्नुभयो । सरकारले भारतसँग सिमाना जोडिएका नाकामा कडाइ गरिरहेको भन्दै उहाँले कोरोनालाई हेल्चेक्र्याइँ भने नगर्न सबैमा आग्रह गर्नुभयो । स्थानीय तहमा विभिन्न दलको प्रतिनिधित्व भएकाले विकासको नाममा राजनीति गर्न नहुने भन्दै निर्वाचनका क्रममा मात्र दलीय प्रतिस्पर्धा गर्नुपर्नेमा मन्त्री श्रेष्ठले जोड दिनुभयो । मध्यपुर थिमि नगरपालिकाका प्रमुख मदनसुन्दर श्रेष्ठले स्थानीय सरकारको हैसियतमा करिब चार वर्षमा नगरपालिकाको मुहार परिवर्तन हुने गरी काम गरिएको बताउनुभयो । बागमती प्रदेशका सभामुख सानुकुमार श्रेष्ठले तीनै तहको समन्वयमा नेपालमा भौतिक विकासले गति लिएको बताउनुभयो । २०५३ साल चैत १४ गते साबिकका चपाचो, बोडे, बालकुमारी, नगदेश, दिव्यश्वरी गाविस समेटिएर मध्यपुर थिमि नगरपालिका घोषणा गरिएको थियो ।

Working with other category

Now our above code can handle the top news of national category. Now we have to do the same for other category also

ndict = {'Title': [], "URL": [], "Date":[],
      "Author":[], "Author URL":[], "Content":[],"Category": [], "Description":[]}

            "province": ""

http = urllib3.PoolManager()
http.addheaders = [('User-agent', 'Mozilla/61.0')]

for category, url in categories.items():
  web_page = http.request('GET', url)
  soup = BS(, 'html5lib')
  if category in ["national", "international"]:

    for news in".business"):
      trend2 = news.select_one(".trending2")
        title = trend2.find("p").text 
        title = title.strip()

        author = trend2.find('small').text
        author = author.strip()
        author = author.split('\xa0\xa0\xa0\xa0\n')[0]

        # author
        date = trend2.find('small').text
        date = date.strip()
        date = date.split('\xa0\xa0\xa0\xa0\n')[1]
        description = trend2.select_one(".description").text.strip()

        # now got to this news url
        http.addheaders = [('User-agent', 'Mozilla/61.0')]
        web_page = http.request('GET',newsurl)
        news_soup = BS(, 'html5lib')
        author_url = news_soup.select_one(".post-author-name").find("a").get("href")
        for p in news_soup.select_one(".newstext").findAll("p"):
          content = content.strip()

        catagory = url.split("/")[-1]
        ndict["Author URL"].append(author_url)
        if show:
            Title: {title}, Title URL: {newsurl},
              Date: {date}, Author: {author},
              Author URL: {author_url}, 
              Category :{category} ,

              Content: {content},
              Description : {description}

    for feature1 in".feature1"):
      # feature1 = soup.select_one(".feature1")
      newsurl = feature1.a.get("href")
      # news_url
      # title = 
      title = feature1.select_one(".feature-text").text.strip().split("\n")[0]
      description = None

      category = url.split('/')[-1]

      news_page = http.request('GET', newsurl)
      news_soup = BS(, "html5lib")
      # print(news_url)
      author_url = news_soup.select_one(".post-author-name").a.get("href")
        if len(news_soup.select_one(".newstext").find("p").find("strong").text.split(" ")) < 6:
          author =  news_soup.select_one(".newstext").find("p").find("strong").text
          author = None
        # print(author)
        # break
        for p in news_soup.select_one(".newstext").findAll("p"):
          content+=p.text.split("गते । ")[-1]+"\n"

        ndict["Author URL"].append(author_url)
        if show:
            Title: {title}, Title URL: {newsurl},
              Date: {date}, Author: {author},
              Author URL: {author_url}, 
              Category :{category} ,

              Content: {content},
              Description : {description}


gorkhapatra_df = pd.DataFrame(ndict,columns = ndict.keys())    
Title URL Date Author Author URL Content Category Description
0 थरुहट थारुवानको धर्नामा गृहमन्त्री थापा चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन गोरखापत्र अनलाइनकाठमाडौं, चैत १२ गते । माइतिघर... national माइतिघरमा थरुहट थारुवान संयुक्त संघर्ष समितिको...
1 अर्को निर्वाचनसम्म यही सरकारले निरन्तरता पाउँछ... चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन गोरखापत्र अनलाइनकाठमाडौं, चैत १२ गते । सञ्चार ... national सञ्चार तथा सूचना प्रविधिमन्त्री पार्वत गुरुङले...
2 एमाले संसदीय दलको बैठक शुक्रबार ३ बजे बालुवाटा... चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन गोरखापत्र अनलाइनकाठमाडौं, चैत १२ गते । नेपाल क... national नेपाल कम्युनिष्ट पार्टी (एमाले) संसदीय दलको बै...
3 निर्माणस्थल खाली गरेर आयोजना अघि बढाउन निर्देशन चैत्र ११, २०७७ बुधबार रासस सञ्चिता घिमिरे\nकाठमाडौँ, चैत १ गते । प्रतिनिध... national प्रतिनिधिसभा, विकास तथा प्रविधि समितिले कुनै प...
4 पार्टी मोडालिटीको बारेमा छलफलमा छौँ –अध्यक्ष प... चैत्र ११, २०७७ बुधबार गोरखापत्र अनलाइन केदार तिमल्सिना (बनेपा समाचारदाता) बनेपा, चैत ... national नेपाल कम्यूनिष्ट पार्टी माओवादी केन्द्रका अध्य...
5 भारतमा एकै दिनमा ५३ हजार भन्दा बढी संक्रमित थपिए चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन नयाँदिल्ली, चैत्त १२ गते। भारतमा पछिल्लो चौबीस... international भारतमा पछिल्लो चौबीस घण्टामा ५३ हजार ४७६ जनामा...
6 बङ्गलादेश स्थापनाको ५० वर्ष, अर्थतन्त्रमा व्या... चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन गाजीपुर, बङ्गलादेश, चैत १२ गते। शफिकुल आलम बङ्... international “मेरो वार्षिक कारोबार अहिले झण्डै १० करोड डलर ...
7 सुरक्षाबलको कारबाहीमा परी बाह्र तालिबानी लडाकू... चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन काबुल, चैत १२ गते। अफगानिस्तानको दक्षिण प्रान्... international अफगानिस्तानको दक्षिण प्रान्त कान्दाहारमा आतङ्क...
8 अमेरिकामा कोभिड १९का संक्रमितको संख्या तीन करो... चैत्र १२, २०७७ बिहीबार गोरखापत्र अनलाइन न्युयोर्क, चैत १२ गते। अमेरिकामा कोभिड १९ का स... international अमेरिकामा कोभिड १९ का संक्रमितहरुको संख्या तीन...
9 रोहिङ्ग्या शिविरमा भिषण आगलागी, कम्तीमा १५ शरण... चैत्र ११, २०७७ बुधबार रासस / एपी कक्स बजार, बंगलादेश, चैत्त ११ गते। दक्षिणी बंग... international दक्षिणी बंगलादेशको रोहिङ्ग्या शरणार्थी शिविरमा...
10 चार सन्तानसहित आत्महत्या गरेकी सुकीका श्रीमानव... चैत्र १२, २०७७ बिहीबार कमल शर्मा दैलेखको आठबीस नगरपालिका–३ निमायलकी ३५ वर्षीया ... province None
11 भारतीय जेलमा ४० वर्ष बिताएका दुर्गाप्रसादले पा... चैत्र १२, २०७७ बिहीबार प्रेम अधिकारी इलामको माई नगरपालिका १० का दुर्गाप्रसाद तिम्सि... province None
12 त्रियुगाका सामुदायिक वनमा डढेलो: सनुवागाउँ उच्... चैत्र १२, २०७७ बिहीबार उदयपुर, चैत १२ गते । उदयपुरको त्रियुगा नगरपालिका–११ स्थित नवउदय साम... province None
13 लाप्चामा कैलाश दर्शन गर्न पर्यटकका लागि प्रती... चैत्र १२, २०७७ बिहीबार राजन रावत पवित्र धार्मिक स्थल मानसरोवर कैलाशको दर्शन गर्... province None


Thank you for reading my blogs and please leave me some comments to improve myself. I am still beginner on this field.

