JAVA HTML PARSİNG YARDIM LÜTFEN

Guest-F31FE8CB4 · 2017-11-29T20:40:28.0000000+03:00

Arkadaşlar merhaba. Bir web sayfasında kelime arama yapma programı yapmam gerekiyor. Mesela bu sayfada 've' kelimesini arayacağım. Yapabildiğim şu. Bu sayfanın html'inde arama yapabiliyorum. Ama html'de etiketler linkler vs oluyor. Benim sadece sayfada gözüken yazılar üzerinde arama yapmam gerekli. Yol gösterecek var mı, çok memnun olurum yardım ederseniz.

Sıcak Fırsatlarda Tıklananlar

Editörün Seçtiği Fırsatlar

Daha Fazla

Bu Konudaki Kullanıcılar: Daha Az

2 Misafir - 2 Masaüstü

5 sn

13
Cevap

0
Favori

423
Tıklama

Daha Fazla
İstatistik

Konu İstatistikleri Yükleniyor

Konuya Özel

0 oy

Öne Çıkar

Cevapla

Sayfa: 1

Giriş

Mesaj

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

theVerge

Yarbay

5202 Mesaj

Tüm Başarılarını Gör

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

theVerge

Yarbay

5202 Mesaj

Tüm Başarılarını Gör

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

theVerge

Yarbay

5202 Mesaj

Tüm Başarılarını Gör

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

theVerge T kullanıcısına yanıt

Tuğkan-0153

Yarbay

8077 Mesaj

Tüm Başarılarını Gör

Jsoup'un getAllElements fonksiyonu ile tüm elemanları seçip {"style", "script", "head", "title", "meta", "[document]"} içermeyenleri filtreleyebilirsen, görünen tüm elemanlara ulaşmış olmaz mısın, şunun gibi:

quote:

package com.rvx.BasitParser;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.net.*;
import java.util.Arrays;
import java.io.*;

public class WikiScraper {
static String[] names = {"style", "script", "head", "title", "meta", "[document]"};

public static void main(String[] args){
scrapeTopic("http://motherfuckingwebsite.com/");
}

public static void scrapeTopic(String url){

String html = getUrl(url);
Document doc = Jsoup.parse(html);
Elements elts = doc.getAllElements();
for (Element elt : elts)
if (gorunurMu(elt))
System.out.println(elt.text());
}

public static boolean gorunurMu (Element elt) {

try {
if (Arrays.asList(names).contains(elt.parent().tagName().toString()))
return false;
return true;} catch(Exception e) {
System.out.println("Sorun!!!");
return false;
}
}

public static String getUrl(String url){

URL urlObj = null;
try{urlObj = new URL(url);}catch(MalformedURLException e){
System.out.println("The url was malformed!");
return "";
}
URLConnection urlCon = null;
BufferedReader in = null;
String outputText = "";
try{
urlCon = urlObj.openConnection();
in = new BufferedReader(new InputStreamReader(urlCon.getInputStream()));
String line = "";
while((line = in.readLine()) != null){outputText += line;}
in.close();
}catch(IOException e){
System.out.println("There was an error connecting to the URL");
return "";
}
return outputText;
}
}

< Bu mesaj bu kişi tarafından değiştirildi Tuğkan-0153 -- 30 Kasım 2017; 20:14:42 >
< Bu ileti mini sürüm kullanılarak atıldı >

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

Tuğkan-0153

Yarbay

8077 Mesaj

Tüm Başarılarını Gör

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

Tuğkan-0153

Yarbay

8077 Mesaj

Tüm Başarılarını Gör

Guest-F31FE8CB4

Binbaşı

1927 Mesaj

Tüm Başarılarını Gör

Sayfa: 1

Benzer içerikler

Ip işlemleri

Bu mesaj IP'si ile atılan mesajları ara Bu kullanıcının son IP'si ile atılan mesajları ara Bu mesaj IP'si ile kullanıcı ara Bu kullanıcının son IP'si ile kullanıcı ara

KAPAT X

%40
Kazan

%2,8
Kazan

%6,5
Kazan

%25
Kazan

%1,6
Kazan

%3,2
Kazan

%5,5
Kazan

%3,2
Kazan

%5
Kazan

%3,2
Kazan

%5
Kazan

%2
Kazan

Alışveriş Yaptıkça Para Kazan Harekete Geç »