WBCE CMS Forum

WBCE CMS – Way Better Content Editing.

Du bist nicht angemeldet.

#1 22.09.2019 12:13:26

colinax
Developer

Überlegungen zu robots.txt

hamburgerhans schrieb:

Technisch sinnvoll ist eine robots.txt aber allemal, beispielsweise zur Kennzeichnung von CMS-Systemverzeichnissen und- dateien. Leider fehlt die bei WB/WBCMS.

Wieso sollten wir auch was mitliefern das wir nicht steuern können (wie z.B. den Pfad zur Sitemap)?

Der ganze Inhalt der robots.txt ist ja nur eine Empfehlung mehr nicht, OK Google hält sich prinzipiell daran außer wenn Google erkennt dass es das rein muss.

Beispiel: Ein Webseiten Betreiber hat in der robots.txt das Media Verzeichnis mit Disallow: /media/ gekennzeichnet damit Google die Bilder nicht in die Suche mit aufnimmt. Hat der Betreiber ein Bild aus dem Media Verzeichnis in seiner Seite eingebunden, dann gibt's beim ersten crawlen einen Fehler da er ja nicht rein darf, beim nächsten crawlen weis der Bot bereits dass das Media Verzeichnis crawl relevant ist, und ignoriert die Disallow Anweisung.


Was die meta Angeht mit denen Beschäftige ich mich gar nicht mehr, die Wichtigsten und ein paar Weitere bringt WBCE über das simplepagehead Modul mit.

Offline

#2 22.09.2019 12:54:52

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

colinax schrieb:

Wieso sollten wir auch was mitliefern das wir nicht steuern können

Die WB/WBCE Systemverzeichnisse sind vorgegeben, den Suchmaschinen angeboten, können diese beispielsweise im Sinne von Effizienz entscheiden.  Bei nicht wenigen CMS wird das so über die Serverdatei robots.txt gehandhabt; man könnte sagen "seit ewigen Zeiten". Da braucht es kein Goggel für.
Von Steuern ist überhaupt nicht die Rede, zumal das selbstredend nicht funktioniert.

Was jemand individuell als Meta-Tag nutzt oder bleiben läßt, bleibt jedem selbst in eigener Verantwortung überlassen. Ob sinnvoll, oder als Vorgabe.

Gruß, HH..

Beitrag geändert von hamburgerhans (22.09.2019 13:06:46)

Offline

#3 22.09.2019 13:03:07

colinax
Developer

Re: Überlegungen zu robots.txt

hamburgerhans schrieb:

Bei bei nicht wenigen CMS wird das so über die Serverdatei robots.txt gehandhabt; man könnte sagen "seit ewigen Zeiten".

Hast du Beispiele für solche CMS die eine robots.txt dabei haben?

Wenn man es gut portieren kann, sag ich mal dazu: why not.

Offline

#4 22.09.2019 13:15:43

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

Da müßte ich aber in unserem Archiv "wühlen". Oft liegt die Systemstruktur aber als Empfehlung in beigefügten texten schon vor.
Nur ein erstes Beispiel -nach kurzem Goggeln:

https://www.saphirsolution.de/robotstxt-seo/

Schon im ersten Beispiel zeigt man die Vorgehensweise in WordPress mit:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /readme.html

So, oder ähnlich zieht sich das durchs Netz, mit langem Bart.
Rasieren ist nicht angesagt. big_smile

Gruß, HH.

ps. Apropos "portieren". Ein einfaches DIR-Kommando mit Umleitung in eine Datei ergibt die Struktur, die nur ein wenig ergänzt werden muß. Das muß nicht unbedingt beim Hoster geschehen, läßt sich genauso lokal mit einem portablen Server unter Win realisieren. Einmal vorhanden >>hier reinstellen  yikes

Beitrag geändert von hamburgerhans (22.09.2019 13:22:40)

Offline

#5 22.09.2019 13:33:17

colinax
Developer

Re: Überlegungen zu robots.txt

hamburgerhans schrieb:

Schon im ersten Beispiel zeigt man die Vorgehensweise in WordPress ...

Der Inhalt mag zwar stimmen aber dass ist eine 0815 Empfehlung bzw. Vorgehensweise von einer Agentur die WP verwendet, WordPress selbst hat keine robots.txt dabei.

Der Grund warum ein CMS keine robots.txt dabei hat ist einfach, es gibt keinen Standard, die Suchmaschinen müssen sich nicht daran halten und der wichtigste Grund ist: Als Entwickler weis man nicht was die Kunden alles machen.

Im Forum zu helfen ist einfacher als wenn das CMS eine robots.txt mitliefert und bei einem Upgrade der Version die vom Kunden erstellte robots.txt überschreibt.

Es ist aber kein Problem so eine Anleitung bei uns in der User-Doku einzubauen, falls das gewünscht wäre.

Offline

#6 22.09.2019 13:52:54

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

Ob nun WordPress oder ein beliebiges anderes CMS ist nicht relevant.
Das Beispiel zeigte sich als erstes als Suchergebnis.
Ein wenig Recherche -  vorausgesetzt man bemüht sich und nimmt sich Zeit für's Lesen - zeigt wie etabliert dieses Verständnis von robots.txt im Kontext mit einem CMS steht.

Die Vorgehensweise ist bekannt, die Gründe sind benannt. Wenn dabei nur der Hinweis auf 0815 herauskommt, ist das mit Verlaub,  dürftig. Soweit ich erinnere waren die ersten Hinweise immer erst im begleitenden Text, nämlich die Struktur zu erfassen, und standen irgendwann dann auch als "fertige" robots.txt zur Verfügung.

Darüber eine robots.txt zu überschreiben, entscheidet das Installationsscript.
Aber wenn nun schon eine Dateiumleitung ein Problem darstellt, kommen mir Zweifel, ob das je gelingt.
Gruß, HH.

ps.
Robertos.txt in (WB-)root. Bei anderem Content Dir als "pages", ändern! Wenn root = wb-root, dann sowieso nur Disallow: auf eigene Systemverzeichnisse.


User-Agent: *
Disallow: /account
Disallow: /admin
Disallow: /config
Disallow: /config.php
Disallow: /framework
Disallow: /google_sitemap.php
Disallow: /include
Disallow: /index.php
Disallow: /languages
Disallow: /log
Disallow: /media
Disallow: /modules
Disallow: /search
Disallow: /temp
Disallow: /templates
Disallow: /var
Allow: /pages

Beitrag geändert von hamburgerhans (22.09.2019 14:32:20)

Offline

#7 22.09.2019 14:12:44

florian
Administrator

Re: Überlegungen zu robots.txt

Eine robots.txt im Installationspaket mit in den Root zu legen, ist eine gute Idee, bislang kopiere ich mir immer eine bei mir lokal gespeicherte fertig/universal-robots.txt in den Root (wenn ich's nicht vergesse).

Zwei Fragen zu Deinem robots.txt-Vorschlag:

Warum
Disallow: /google_sitemap.php
Disallow: /media
Disallow: /index.php
?

Und
Allow: /pages
ist doch eigentlich nicht erforderlich, da ja prinzipiel mMn alles erlaubt ist, was nicht verboten wurde?


Ich würde es übrigens begrüßen, wenn alle Beteiligten sachlich blieben und nicht so herumrumpelten.

Beitrag geändert von florian (22.09.2019 14:15:01)


Code allein macht nicht glücklich. Jetzt spenden!

Offline

Liked by:

thanks

#8 22.09.2019 14:18:11

colinax
Developer

Re: Überlegungen zu robots.txt

Dass man in der heutigen Zeit eine robots.txt braucht bzw. haben sollte ist mir bekannt, nur darum ging es hier ja nicht.

Es ging meines Verständnisses darum ob ein CMS eine robots.txt mitliefern sollte oder nicht.

hamburgerhans schrieb:

Darüber eine robots.txt zu überschreiben, entscheidet das Installationsscript.

Leider Nein, zumindest im WB/WBCE Umfeld, hier entscheidet der User was er über FTP hochläd.

Leider geht es auch nicht die robots.txt über ein Admin-Tool zu managen, da diese auf der root Ebene keine Berechtigung haben


Falls du mit Dateiumleitung den Dir Befehl meinst, den können nur Admins oder User die dass benötigen.


Da wir auch den DAU berücksichtigen müssen, ist es einfacher dies über das Forum oder über eine Anleitung zu erledigen.

Also wie gesagt eine Anleitung zu erstellen ist kein Problem, eine Beispiel robots.txt im Paket mitzuliefern wird schwer.


Zur Erklärung: 0815 war nicht als abwertend gedacht, sondern dass es so viele Seiten gibt die es erklären dass man da eigentlich nicht nachhelfen müsste.

Offline

Liked by:

florian, thanks

#9 22.09.2019 14:29:53

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

@florian
No "rumble in the Forum" - !
Ansonsten war ich mit dem Beispiel "da oben" noch garnicht fertig, es war die erste erzeugte Liste - hätte wohl besser fertig statt gemütlich, aber dann, dann kamen schon Eure Beiträge.
florian:"alles erlaubt ist, was nicht verboten wurde?"
Ja, das ist so. Ich denke an so manch gesehene mögliche weitere Verzeichnisse mit "Apps" die beispielsweise mit in WB/WBCE eingebunden werden. Darauf könnte, sollte, müßte eine Installationsroutine vorbereitet sein. (WP macht's übrigens grottenschlecht)

Also nochmal von vorn.

User-Agent: *
Disallow: /account/
Disallow: /admin/
Disallow: /config/
Disallow: /config.php
Disallow: /framework/
Disallow: /google_sitemap.php
Disallow: /include/

Disallow: /languages/
Disallow: /log/
Disallow: /media/
Disallow: /modules/
Disallow: /search/
Disallow: /temp/
Disallow: /templates/
Disallow: /var/

@colinax
Es ist egal, ob nun per FTP. Die Dateien bzw. das Paket sollen auf den Server. Dabei muß eine robots.txt VOR der Installation nicht zwingend in (wb)-root liegen.

colinax:" Also wie gesagt eine Anleitung zu erstellen ist kein Problem, eine Beispiel robots.txt im Paket mitzuliefern wird schwer."
So kann es gerne sein big_smile

colinax:" Zur Erklärung: 0815 war nicht als abwertend gedacht, sondern dass es so viele Seiten gibt die es erklären dass man da eigentlich nicht nachhelfen müsste."
Manchmal bin ich zu ungeduldig - vergesse dabei, daß ich selbst ja nur "gesammelte Werke" überfliege, dann zu schnell etwas voraussetze - und dann ist es passiert. Also kurz: Nichts Bösartiges oder Abwertendes beabsichtigt.

Gruß, HH. Soeben noch entdeckt: die Disallow: /index.php dürfte natürlich nicht sein. Gelöscht!

ps. wer /media/ freigeben mag, kann das natürlich (Zeile löschen)
Wer /media/  sperren und nur Unterverzeichnisse in /media/ freigeben mag, kann dies natürlich auch.
Disallow: /media/  Allow: /media/Katzenfotos
Das läßt sich natürlich nicht automatisieren.

Beitrag geändert von hamburgerhans (22.09.2019 15:06:48)

Offline

#10 22.09.2019 15:08:41

colinax
Developer

Re: Überlegungen zu robots.txt

Aus Interesse hab ich die Disallow Vorschläge mit https://varvy.com/ überprüft.

Was neu ist dass geschützte Bild Verzeichnisse, laut diesem Tool, keine SEO Probleme mehr erzeugen

Raus kam dass die folgenden Disallow, ohne SEO Probleme zu erzeugen, gesetzt werden können.

User-Agent: *
Disallow: /account/
Disallow: /admin/
Disallow: /config/
Disallow: /config.php
Disallow: /framework/
Disallow: /languages/
Disallow: /log/
Disallow: /media/
Disallow: /search/
Disallow: /temp/
Disallow: /var/

Ich hab nur die Startseite überprüft und meine Seite hat keine Suche oder Frontend Login.

Daher wäre ich um einen Vergleich mit einer Seite froh die sowohl Suche als auch Frontend Login hat.

Offline

#11 22.09.2019 17:29:45

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

Mit diesen Werten wurde geprüft.

[== robots.txt ==]
User-Agent: *
Disallow: /account/
Disallow: /admin/
Disallow: /config/
Disallow: /config.php
Disallow: /framework/
Disallow: /include/
Disallow: /languages/
Disallow: /log/
Disallow: /media/
Disallow: /modules/
Disallow: /search/
Disallow: /temp/
Disallow: /templates/
Disallow: /var/
Allow: /media/woerterbuch/images

Wichtig hierbei zu berücksichtigen, daß die Verzeichnisse und Dateien nicht über Serverrechte (unter Apache, IIS, NGINX oder andere Server) eingeschränkt wurden - entspricht 777. Weshalb /modules/ und /include/ natürlich drin bleiben! Wer weiß schon welche Dir per default vom Server gesperrt werden, weshalb man sich nicht darauf verlassen darf.

Die Datei google_sitemap.php wurde nicht "verboten", da diese erwünschten XML-Dateninhalt generiert.

Die angegebenen Verzeichnisse inklusive deren Unterverzeichnisse sind nun alle "verboten".


Ausnahmen für Unterverzeichnisse können angelegt werden, wie im Beispiel.
Beim Verzeichnis /media sieht's nun so aus.

Alles - Verzeichnisse und Dateien - unter /media/ ist "verboten",
Disallow: /media/
mit Ausnahme des Verzeichnisses /media/woerterbuch/images.
Allow: /media/woerterbuch/images

Hier könnte man noch weiter regulieren, indem man nur einzelne Bilder im Verzeichnis /images freigibt.
Derartige Regulierungen sind natürlich nur individuell zu treffen.
Gruß, HH.

Beitrag geändert von hamburgerhans (22.09.2019 18:18:57)

Offline

#12 22.09.2019 22:24:16

kleo
Mitglied

Re: Überlegungen zu robots.txt

Ich erlaube mir vielleicht eine blöde Frage zu stellen:

woher wissen die Suchmaschienen, welche Verzeichnisse bei mir existieren?

Durch einfaches "Ausprobieren" allen denkbaren Namen?

Offline

#13 22.09.2019 23:01:44

colinax
Developer

Re: Überlegungen zu robots.txt

Indem sie nach einer Auflistung der Verzeichnisstruktur fragen.

Drücke unter Windows auf Start, tippe cmd ein und öffne die Eingabeaufforderung. In dieser tippe dir ein und drücke Enter, Windows listet dir dann die Verzeichnisse des Users auf.

Sowas gibt’s auch unter Linux, wobei man mit einer robots.txt dies managen kann.

Eine andere Variante ist dass die Suchmaschinen deine Webseite analysieren und dadurch automatisch die wichtigsten Strukturen kennen, da die URL (also Adresse) nichts anderes ist als ein Ordnerpfad auf einem anderen Rechner.

*Diese Erklärung wurde zum erklären vereinfacht dargestellt.*

Beitrag geändert von colinax (22.09.2019 23:19:50)

Offline

Liked by:

hamburgerhans

#14 23.09.2019 09:35:17

berny
Mitglied

Re: Überlegungen zu robots.txt

bei all der ganzen Geschichte mit der robot.txt sollte nicht vergessen werden, dass diese sehr oft als Tool für Hacker verwendet werden kann.
Dir-List sollte ebenfalls aus Sicherheitsgründen deaktiviert werden.

ich verstehe diesen Hype um diese Date nicht wirklich.

Offline

#15 23.09.2019 09:47:21

colinax
Developer

Re: Überlegungen zu robots.txt

Als Hacker Tool, weis nicht, was soll ich mit einer Liste die mir nur bestimmte Ordner anzeigt?

Hacker müssen sich eher mit php und co. auskennen.

Achtung wir reden hier im/vom Windows Umfeld mit localem Server. Unter einem Linux Webserver hat der Besucher ja eh nur Lese Berechtigung, alles andere wäre kriminell.

Offline

#16 23.09.2019 10:09:30

berny
Mitglied

Re: Überlegungen zu robots.txt

Einfaches Beispiel, ich verlege aus Sicherheitsgründen das admin Verzeichnis woanders hin.
Die robot.txt machts gleich wieder bekannt.

Oder um zu erfahren, welches System läuft einfach anhand der Ausschlüsse zeigen lassen.
Oder mal einfach eine shop-robots hergenommen:
https://www.shop-apotheke.at/robots.txt (ist jetzt nur ein Beispiel)
und vieles mehr.

Die Datei alleine bringt nichts, aber der Inhalt lässt unter Umständen auf Dinge hinweisen, die ein Hacker verwenden könnte.

Bei einem lokalen Server? welchen Sinn hat da die robots.txt? Da sollte ja google und co ausgesperrt sein....


Ich verwende sie nicht, braucht man nicht, google hat eine Sitemap und die Links, die der Bot durchforstet und folgt.

Offline

Liked by:

boeseroeser

#17 23.09.2019 10:09:57

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

berny schrieb:

ich verstehe diesen Hype um diese Date nicht wirklich.

1.) besteht hier kein Hype, es wird über etwas gesprochen, das seit der Existenz des WWW eine sinnvolle Funktion bereitstellt.
2.) Die robots.txt als Gefährdung darzustellen - Stichwort Hacken - kommt aus der Ecke der Weltverschwörungstheoretiker, die von nichts eine Ahnung, aber auf alles eine Antwort haben. 

Ich habe so langsam den Verdacht, daß hier getrollt wird, wie auch hier:

berny schrieb:

Dir-List sollte ebenfalls aus Sicherheitsgründen deaktiviert werden

Das ist Veräppelung pur - oder doch nicht?
Ansonsten gibt es Aufklärung bei den Stichwörtern "Directory-Listung"+" Webserver" und andererseits "Betriebssystem"+"Dir", wobei letzteres PC-Benutzern seit es PC's mit OS - z.B. mit DOS - gibt bekannt ist,

Gruß, HH.

Beitrag geändert von hamburgerhans (23.09.2019 10:13:07)

Offline

#18 23.09.2019 10:14:23

berny
Mitglied

Re: Überlegungen zu robots.txt

Auf die Schnelle gefunden:
https://tipstrickshack.blogspot.com/201 … tstxt.html

gibt sicher noch bessere Ausführungen, wie man die robots.txt missbrauchen kann...

@HH: mir geht es nicht um Weltverschwörung, aber wozu benutzen wenn sie eigentlich gar nicht mehr relevant ist, im Gegensatz zu früher, wo die robots.txt ein wichtiges Tool war.
Ich habe ja die Sitemap, die ich bei google anmelde, wozu also noch zusätzlich eine robots.txt?
Die dissallowed sollten in der sitemap ja eh nicht drinnen stehen....

Beitrag geändert von berny (23.09.2019 10:16:56)

Offline

#19 23.09.2019 10:20:12

berny
Mitglied

Re: Überlegungen zu robots.txt

Und noch eins:
google eingeben: robots.txt disallow phpmyadmin

und schon habe ich zB diese hier:
https://www.trustedcars.com/robots.txt

und schon weiß ich, dass diese Url phpmyadmin installiert hat.

Um das gehts offensichtlich den Weltverschwörern ;-)

Offline

#20 23.09.2019 10:22:27

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

Wenn man derartige Seiten zitiert, sollte man den Text komplett lesen und verstehen.
Auf den dortigen Unsinn bekommt man einen anderen Blick, wenn man z.B. einigen - hier im Topic vorzufindenen - technischen Angaben und Empfehlungen folgt.
Mit ein wenig Weiterbildung löst sich solch ein Unsinn im Nu auf.

Und zu "Deiner" sichtbaren robots.txt gibt's auch nur eines zu sagen: Die muß der Webseitenbetreiber mit den erforderlichen Dateirechten versehen, und entsprechend wieder freigeben, was meist über die Control Panels schon voreingestellt ist bzw selbst konfiguriert werden kann. Das liegt aber in alleiniger Verantwortung des Webseitenbetreibers. Auch hier ist es wie meist: "Weiterbildung hilft"

Rechtlich gesehen, gibt's auch noch etwas zu beachten, wie z.B. Bedeutung der "robots.txt" -  nur ein Beispiel.

Gruß, HH.

Beitrag geändert von hamburgerhans (23.09.2019 10:35:27)

Offline

#21 23.09.2019 10:22:51

colinax
Developer

Re: Überlegungen zu robots.txt

berny schrieb:

Ich habe ja die Sitemap, die ich bei google anmelde, wozu also noch zusätzlich eine robots.txt?

Für alle anderen Suchmaschinen

Offline

#22 23.09.2019 10:24:37

berny
Mitglied

Re: Überlegungen zu robots.txt

colinax schrieb:
berny schrieb:

Ich habe ja die Sitemap, die ich bei google anmelde, wozu also noch zusätzlich eine robots.txt?

Für alle anderen Suchmaschinen

Da könnte ich ebenfalls sitemaps anmelden.
Ebenso mit der htaccess bekannte Bots umleiten.
Unbekannte will ich eh nicht auf meiner Seite haben.

Natürlich, eine robots.txt ist leichter zu erstellen.

Offline

#23 23.09.2019 10:59:29

florian
Administrator

Re: Überlegungen zu robots.txt

Das nimmt hier ja gerade etwas Fahrt auf. Ich will nicht schon wieder durch Thementeilungen für unliebsame Überraschungen sorgen, aber ursprünglich ging es darum, ob, und wenn ja in welchem Umfang, eine robots.txt im Installationspaket von WBCE vorgehalten werden soll.

Und zu "Deiner" sichtbaren robots.txt gibt's auch nur eines zu sagen: Die muß der Webseitenbetreiber mit den erforderlichen Dateirechten versehen, und entsprechend wieder freigeben, was meist über die Control Panels schon voreingestellt ist bzw selbst konfiguriert werden kann. Das liegt aber in alleiniger Verantwortung des Webseitenbetreibers.

Hierzu mal eine Rückfrage, vermutlich oute ich mich damit dann auch als Noob:
Auf was müssen die Zugriffsrechte der robots.txt denn eingestellt werden, damit sie von den SuMa-Bots gelesen, aber nicht über SuMas gefunden werden kann? Geht das überhaupt?


Code allein macht nicht glücklich. Jetzt spenden!

Offline

Liked by:

thanks

#24 23.09.2019 11:02:50

colinax
Developer

Re: Überlegungen zu robots.txt

florian schrieb:

Geht das überhaupt?

Da der Bot wie jeder andere Besucher nur lesen oder nicht lesen kann, kann man da nichts zusätzlich einstellen.

Beitrag geändert von colinax (23.09.2019 11:03:08)

Offline

Liked by:

florian

#25 23.09.2019 11:10:43

colinax
Developer

Re: Überlegungen zu robots.txt

Falls wer Lesestoff braucht wie Google robots.txt und metas verwendet:

https://support.google.com/webmasters/a … 1943?hl=de

Offline

Fußzeile des Forums

up