WBCE CMS Forum

WBCE CMS – Way Better Content Editing.

Du bist nicht angemeldet.

#26 23.09.2019 11:19:43

berny
Mitglied

Re: Überlegungen zu robots.txt

@Florian ev könnte man ja auch analog zu hier einen Thread eröffnen, wie man eine spezielle htaccess Datei konfigurieren kann.

Offline

#27 23.09.2019 11:25:20

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

florian schrieb:

Auf was müssen die Zugriffsrechte der robots.txt denn eingestellt werden, damit sie von den SuMa-Bots gelesen, aber nicht über SuMas gefunden werden kann? Geht das überhaupt?

Das war eine reichliche Verkürzung von mir, und an dieser Stelle nur irreführend. yikes
Die Clients, also Suchmaschine etc. müssen die natürlich lesen können!
Aber dennoch eine Erklärung. Es gibt bei uns für die SEO's bei Servicearbeiten Scripte, die robots.txt über cgi/shell generieren.
Soweit ich das mitbekommen habe, soll das genauere Ergebnisse für Optimierungen (Selektion der Clients (Bots-Kennung) bringen.

Das ist aber für die WBCE robots,txt überhaupt nicht relevant. Wie gesagt: "Am Thema leider komplett vorbei."

Gruß, HH.

HH schrieb:

die robots.txt über cgi/shell generieren

Wobei mir einfällt, weil die das auch schon einmal vorgeführt haben, daß es eine Simulation sein könnte.
Der direkte Aufruf mittels Browser war dann nicht möglich.
Beim WBCE eigenen googlemap-Script wird der Inhalt ja erst durch's Parsen erzeugt.
Vielleicht ist das vergleichbar... Ich stecke da leider nicht drin. Vielleicht trügt mich auch nur die Erinnerung.
Mal schauen, ob mir jemand etwas zu diesem Verhalten erzählen kann.

Soeben eine Antwort erhalten big_smile big_smile
Meine Erinnerung hat mich nicht getäuscht, aber die Zusammenhänge sind nicht deutlich - klar, bis soeben wußte ich ja auch "nichts" Das wird direkt auf Serverebene gemacht, also über die Konfigurationsdatei desselben. Es werden dort die "unerwünschten" Bots oder halt eben auch Browser angegeben.
Ein Beispiel wurde mir auch genannt "Bad Bots oder wie man Bots fern hält" NGINX naheliegend, da dieser für große Sites gerne in Gebrauch ist.

Beitrag geändert von hamburgerhans (23.09.2019 11:51:24)

Offline

#28 23.09.2019 13:03:55

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

Nun auch für Admins, die das per .htaccess erreichen wollen.
Zugriffsschutz für Webprojekte: Dosierter und zielgenauer Einsatz der .htaccess

Das freut einen dann, daß man "nicht ganz daneben lag"

ps. Bitte mal eine Rückmeldung darüber, ob Chrome auf der angegebenen Seite rausgeschmissen wird (403) - bei mir eben schon.
Gruß, HH.

Beitrag geändert von hamburgerhans (23.09.2019 13:07:32)

Offline

#29 23.09.2019 13:47:15

kleo
Mitglied

Re: Überlegungen zu robots.txt

Ich sehe auf von mir betreuten Seiten permanent Aufrufe so was wie "admin", "wp/admin" etc. Und von den selben "Besucher" gehen Anfragen nach robots.txt.

Ich frage mich, was wollen all diese nette "Besucher" in der robots.txt sehen?

Unter welchem Namen mein admin-Verzeichnis steckt? Oder?

Beitrag geändert von kleo (23.09.2019 13:48:14)

Offline

#30 23.09.2019 13:56:50

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

Das verhält sich auf 100taus. anderen auch so.
Das Böse lauert immer und überall.
Gruß, HH.

Offline

#31 23.09.2019 13:59:45

colinax
Developer

Re: Überlegungen zu robots.txt

kleo schrieb:

Ich sehe auf von mir betreuten Seiten permanent Aufrufe so was wie "admin", "wp/admin" etc. Und von den selben "Besucher" gehen Anfragen nach robots.txt.

Ich frage mich, was wollen all diese nette "Besucher" in der robots.txt sehen?

Unter welchem Namen mein admin-Verzeichnis steckt? Oder?

Diese Besucher möchten nur wissen ob du WordPress verwendest und in folge in welcher Version, um herauszufinden ob diese gekapert werden kann, da die Sicherheitslücken von alten WP Versionen bekannt sind.

Offline

#32 24.09.2019 10:53:09

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

@Kleo
Hinweis zu WP:
Schutz vor der load-(scripts|styles).php-DoS-Attacke
(CVE-2018-6389)

Topic
Hat schon jemand Vorschläge zum Zugriff auf robots.txt umgesetzt  (.htaccess und robots.txt)?

PS. @florian Du warst neugierig darauf - ich kurz mal unverhofft in Erklärungsnot zum: "wie sich das verhält."
https : // wbce.org/robots.txt wäre bei entsprechender htaccess für Browser nicht mehr zugänglich.
Für professionelle Hacker stellt das am Ende natürlich auch keine unüberwindbare Hürde dar, aber wenn gut gemacht ist es für viele wenn nicht die meisten  Hacker-Quickis ein enormes Problem . Wer in Testsoftware schon mal einen Einblick hatte, weiß wie und wo man den User_Agent-String ändert. Wer aber als Sicherheitsadmin für Server zuständig ist, weiß sich auch dann zu helfen, denn wenn man beispielsweise Google als Agent einträgt, und liegt nicht im Google-IP-Bereich, läßt sich das natürlich feststellen. So gibt es der Beispiele nicht wenige.
(Ja, ich habe mich ein wenig unterrichten lassen big_smile )

Gruß, HH.

Beitrag geändert von hamburgerhans (25.09.2019 12:34:04)

Offline

#33 24.09.2019 19:45:25

florian
Administrator

Re: Überlegungen zu robots.txt

ja, und, was folgt daraus, für einen semimotivierten oder auch ahnungslosen/ lernunwilligen Webseitenbetreiber (um was es sich bei mir handelt, sei dahin gestellt)? Muss man jetzt mehrere hundert Einträge umfassende Ausschlusslisten führen oder zum RegEx-Profi werden - oder dann doch lieber der Einfachheit halber auf eine robots.txt verzichten?

Noch zur Klarstellung: Die von HH oben erwähnte DDoS-Anfälligkeit bezieht sich auf Wordpress, nicht auf WBCE.

Beitrag geändert von florian (25.09.2019 06:29:25)


Code allein macht nicht glücklich. Jetzt spenden!

Offline

Liked by:

thanks

#34 25.09.2019 10:52:26

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

big_smile  big_smile  big_smile

Meine letzten Antworten/Erklärungen waren nicht die auf ob man die robots.txt nutzt, sondern die auf ob/wie Sumas/Browser lesen können sollte, und wie man das (HH erzählte von etwas, wo er nur mal kurz Einblick hatte, wußte aber sonst nichts oder nur ansatzweise etwas darüber) realisiert. (florian: "...über SuMas gefunden werden kann? Geht das überhaupt?)

Das heißt die robots.text in jedem Falle wie vorgeschlagen und empfohlen zu nutzen! Das nützt bekanntlich der Suma wie dem Websitebetreiber.

Ob man dann auch noch die Kombination htaccess : robots.txt nutzen möchte hängt vom Aufkommen unerwünschter "Gäste" ab, und nicht davon ob die robots.txt von Verschwörungstheoretikern als gefährlich eingestuft wird.

Man muß also garnichts in Sachen Kombination htaccess : robots.txt unternehmen, wenn nicht spezielle Interessen dafür sprechen, was nicht unbedingt für kleine Websites zutrifft - Es waren Antworten/Erklärungen, sonst nichts.

(Falls bastelwillig natürlich nicht die Listen nutzen, erst recht nicht die von Dir angegebene. (1), ich verwies auf (4).)

Gruß, HH.

Beitrag geändert von hamburgerhans (25.09.2019 11:16:11)

Offline

Liked by:

florian

#35 25.09.2019 17:45:52

mrbaseman
Developer

Re: Überlegungen zu robots.txt

Also ich weiß nicht so recht. Was genau hat man denn für Vorteile von dem ganzen? Mit einem plain text file robots.txt kann man den Suchmaschinen Hinweise geben.

Ok, die können sich dann dran halten oder auch nicht. Ohne die Datei würden sie eben die Links auf der Seite analysieren und wahrscheinlich zu einem ähnlichen Ergebnis kommen, vielleicht nicht so effizient und vielleicht bekommt die Webseite dadurch ein schlechteres Ranking.

Ok. Und mit .htaccess File macht man die Ausgabe noch davon abhängig als was der Client sich ausgibt. Suchmaschinen möchte man ja die Seitenstruktur mitteilen um korrekt indiziert zu werden, und die geben sich zu erkennen.

Ein Hacker, der es auf die Seite abgesehen hat, versucht sich erst mal möglichst unauffällig zu verhalten, gibt sich also als Firefox oder Edge aus, auch wenn das Tool, das er benutzt ein ganz anderes ist. So, und wenn er die Seite analysiert hat, dann greift er sowieso auf die php Dateien direkt zu, versucht z.B. sql  oder JS Code über Formulare zu posten oder ruft gezielt typische backend login Seiten von allen möglichen CMS auf und probiert dort typische Standard-Logins und häufig verwendete Passwörter durch.

Was hat man da jetzt für eine Verbesserung wenn man eine robots.txt anlegt und was bringt die .htaccess? Selbst wenn man attackiert wird, hält man sich damit doch eher diejenigen vom Hals die sowieso harmlos sind.

Offline

#36 25.09.2019 18:47:43

hamburgerhans
Gesperrt

Re: Überlegungen zu robots.txt

So gut wie alle Varianten wurden hier besprochen bzw. geschildert.
Nochmal ganz kurz:
robots.txt = Effizienter arbeitende Suma, weil Zeiger auf auszuschließende Vereichnissse  und zu indizierender Content..

Traut man Suma nicht oder möchte Zugriffe auf Verzeichnisse oder Dateien abwehren, hilft schon alleine das "richtige" Setzen der Rechte. Da WBCE anscheinend die voreingestellten Rechte des jeweiligen Servers übernimmt - ist wohl das unkomplizierteste - wird diese Möglichkeit von vornherein vergeben. Deshalb ist auch immer der gleiche Schmuh in Foren zu lesen. Ein TAR-Archiv setzt die voreingestellten Rechte, die im Archiv vorgegeben sind. Ob solche Vorgaben bei Billighostern akzeptiert werden, entzieht sich meiner Kenntnis. Will man nun trotzdem so etwas wie lästige Bots oder anderen Kram abwehren, greift man zu "Waffen" wie htacces oder geht sogar in die Serverkonfiguration. Rewrite in der Htaccess zumindest drückt die Performance immer ein Stückchen mehr.
Letztlich kommt es darauf an ob Server und CMS sicher sind. Dann gibt's auch keine Angriffsflächen. Aber das war nicht das eigentliche Thema. Wir sind nur von Hü nach Hott gesprungen. big_smile
Gruß,HH.

Beitrag geändert von hamburgerhans (25.09.2019 19:03:05)

Offline

#37 25.09.2019 22:04:27

mrbaseman
Developer

Re: Überlegungen zu robots.txt

Danke für die Zusammenfassung  smile

Offline

Fußzeile des Forums

up