Proseminar Data Mining - Summer 14

From Sccswiki
Jump to navigation Jump to search
Term
Summer 14
Lecturer
Valeriy Khakhutskyy, Kilian Röhner, erreichbar per mailto:ps-dm-sose14@mailsccs.in.tum.de
Time and Place
Vorbesprechung: 27. Januar um 12:30 Uhr, Raum FMI 02.07.023
Kickoff: 23. April, 17:00 Uhr s.t. im Raum 02.07.023 folien
Workshop zum wissenschaftlichen Arbeiten: 28. April, 16:00 Uhr bis 18:00 Uhr im Raum 02.07.023 folien
Mi, 4. Juni, Do, 5. Juni und Fr, 6. Juni (Zeiten sieh unten), im Raum 003, IGSSE-Seminarraum/Foyer(5530.EG.003)
Audience
Informatik (Bachelor)
Tutorials
-
Exam
-
Semesterwochenstunden / ECTS Credits
2 SWS / 4 Credits
TUMonline
tba



News

  • 13. Mai: Vorläufiger Zeitplan und Vortragsreihenfolge sind da
  • 3. März: Der Workshop zum wissenschaftlichen Arbeiten findet am 28. April um 16 Uhr im Raum 02.07.023 statt.
  • 3. Februar 2014: Die Themen wurden vergeben. Das Proseminar wird am 4. Juni, 5. Juni und 6. Juni ganztags stattfinden. Außerdem wird am 23. April das Kick-Off stattfinden.

Inhalt

Überblick und Methoden des Data Mining: Software, Data at Scale, Klassifikation, Regression, Clustering, u.v.a.m. Details gibt es in der Vorbesprechung.


Vorläufiger Zeitplan und Reihenfolge der Vorträge

Mittwoch 04.06, 13:00 bis 17:30

  1. Überblick
  2. Einsatz von Data Mining in Industrie
  3. Aufbereitung von Daten, Pre-Processing
  4. Hauptkomponentenanalyse
  5. Lineare Modelle für Regression
  6. Lineare Modelle und Logistische Regression für Klassifikation

Donnerstag 05.06, 9:00 bis 12:00 und 13:00 bis 17:30

  1. Spam Filtering mit Naive Bayes Classifier
  2. Entscheidungsbäume
  3. Neuronale Netze I: Grundlagen
  4. Neuronale Netze II: Deep Learning
  5. Association Rules
  6. Reinforcement Learning
  7. Ensemble Learning
  8. AdaBoost
  9. Software: Matlab und R
  10. Software: Python
  11. Software: RapidMiner

Freitag 06.06, 9:00 bis 13:00

  1. Überblick: Data at Scale
  2. Big Learning
  3. Recommender Systems mit Collaborative Filtering
  4. Natural Language Processing
  5. Sequential Data
  6. Data Mining für soziale Netzwerke
  7. Zusatzvorträge

Vorbesprechung

Die Vorbesprechung findet am 27. Januar um 12:30 Uhr im Raum 02.07.023 statt.

Recherchetipps

Um weitere Literatur zu finden, gibt es vielfältige Möglichkeiten, z.B.

oder direkt über die Webseiten der Verlage (Elsevier, Springer, IEEE, ACM, ...)

Sowie Bibliotheksrecherche online

aus dem Uni-Netz (VPN Zugang bzw. lokal vor Ort) muss der Proxy gesetzt werden, dann gibt es kostenlosen Zugriff auf viele Journals etc., siehe

Manche Bücher sind zudem über den OPAC-Katalog abrufbar ("Volltext" Button):


Texte zum wissenschaftlichen Schreiben

Tipps zur Vorbereitung einer Präsentation

Tun Sie alles dafür, dass Ihre Zuschauer möglichst wenig Energie aufwenden müssen, um Ihrem Vortrag folgen zu können.

  • Denken Sie bei der Vorbereitung Ihres Vortrages an Ihr Publikum: welchen Wissensstand haben sie, welche Interessen, usw. Sie sollen lernen, Ihr Thema zu „verkaufen“. Das beste Ergebnis, dass Sie erwarten können: die Zuhörer (Mitstudenten) haben Ihren Vortrag verstanden und möchten mehr über das Thema erfahren.
  • Menschen haben eine beschränkte Aufnahmekapazität. Man kann davon ausgehen, dass die meisten nur bis zu 5 zentrale Punkte aus einem Vortrag mitnehmen können - bei einem 20-minütigen Vortrag eher 3. Überlegen Sie sich deswegen gut, was Ihr Publikum nach dem Vortrag über Ihr Thema wissen soll. Und dann machen Sie die Wichtigkeit dieser Informationen eindeutig: sagen Sie das, sagen Sie es nochmal, und fassen Sie es am Ende nochmal zusammen.
  • Als Daumenregel gilt: man braucht 2 bis 3 Minuten pro Folie. Denken Sie daran während der Planung Ihres Vortrages. Es ist kaum möglich 15 Folien in einen 20-minütigen Vortrag zu „packen“.
  • Formeln können viel Information in einer kompakten Form repräsentieren. Man braucht aber auch viel Zeit und Energie, um diese Information wieder „dekomprimieren“ zu können. Wenn Sie eine Formel auf Ihren Folien haben, erklären Sie was diese bedeutet, welche Informationen sie enthält, welche Intuition dahinter steht. Überlegen Sie sich, ob dieselbe Information auch mit anderen Mitteln erklärt werden kann, z.B. mit einem Beispiel oder mit einem Diagramm.
  • Verwenden Sie keine Fachbegriffe ohne sie davor zu erklären. Falls die Begriffe von Ihren Kommilitonen in einem früheren Vortrag bereits erklärt wurden, können Sie darauf verzichten oder die Bedeutung nur kurz wiederholen - und am besten darauf referenzieren.
  • Der Text auf den Folien soll gut lesbar sein. Achten Sie darauf, dass die Schriftart gut lesbar ist, und die Schriftgröße nicht zu klein ist (mind. 16 pt, besser 20 pt). Als Faustregel soll man nicht mehr als 7 Kernaussagen auf einer Folie haben.
  • Für die Präsentation gilt: üben, üben, üben! Halten Sie ihre Präsentation mindestens 5 Mal zur Probe, bevor Sie sie im Vortrag im Seminar halten. Machen Sie eine Trockenübung vor Ihren Freunden, Eltern, Geschwistern oder wer auch immer zu langsam flieht ;-) Wenn Sie niemanden finden können, üben Sie vor dem Spiegel - aber definitiv so im Stehen, wie Sie später Ihren Vortrag auch halten würden.
  • Reden Sie laut, deutlich und nicht zu schnell. Je mehr Konzentration Ihre Zuschauer brauchen um Sie akustisch zu verstehen, desto früher werden sie aussteigen.
  • Folien dienen zur Visualisierung und sollen Ihnen helfen, auf dem Faden zu bleiben. Während des Vortrages versuchen Sie nicht die Folien einfach runter zu lesen. Die meisten können schneller lesen, als sie vorlesen. Tipp: nur Stichworte auf die Folien, den Rest erzählen Sie sowieso selbst.
  • Suchen Sie ein Feedback: haben die anderen Studenten Ihre Erklärung verstanden, haben sie noch Fragen oder haben sie schon längst aufgeben Ihrem Vortrag zu folgen?
  • Wenn Sie noch etwas anderes machen können, das Ihren Zuschauern das Verstehen des Themas erleichtern soll, dann sollen Sie es unbedingt machen.


Checkliste der häufigsten Formfehler beim Schreiben wissenschaftlicher Texte

  • Die passende Tipps aus dem Bereich "Präsentationen" sollen beachtet werden
  • Mathematische Formeln:
    • Text Subskripte mit $\text{}$ formatieren
    • Nutze $\left( ... \right)$ für die richtige Skalierung von Klammern
    • Formeln in die "Erzählung" einbinden, dabei die richtige Punktuation nicht vergessen, doppelte Zeilenumbrüche vermeiden
  • Zitieren
    • Primärquellen wenn immer möglich nutzen
    • "Foobar [1,2,3]." Wichtig: mehrere Quellen in eckigen Klammern zusammenfassen, Punkt bzw. ein anderes Zeichen *danach*
    • Alle genommenen Ideen sollen deutlich kennbar gemacht werden.
    • Falls ein größerer Teil aus einer Quelle übernommen wurde (z.B. bei Einführung in die Theorie), einmal ganz am Anfang nennen
    • Wikipedia ist keine *zitierungsfähige* Quelle, wenn auch die Artikeln einen guten Überblick bieten. Schaut euch aber auch die Diskussionsseite an, um die kontroversen Informationen zu identifizieren
    • Zitierung von Webseiten: @misc bibtex Eintrag, Titel, Autor wenn vorhanden, URL, und *ganz wichtig* Datum des letzten Zugriffs nennen
    • Zitierung von “Allgemeinwissen”: ist nich nötig, falls Wissen zweifelsohne allgemein ist, sonst Primärquellen oder Fachlexika nutzen
  • Fußnoten:
    • Generell in die Fußnoten gehört, was fürs Verständnis nicht wichtig ist. Wenn etwas gelesen werden soll, baut man es als Nebensatz in den Text ein.
    • Fußnotenverweise kommen nach dem Punkt oder anderen Punktuationszeichen außer Gedankenstriche.
  • Struktur:
    • Keine einzelnen Unterkapitel hängen lassen wie z.B. Kap 1, Kap 1.1, Kap 2.
    • Kein einzelnen Zeilen eines mehrzeiligen Paragraphes auf der Seite hängen lassen (z.B. nach einer Formel oder einem Bild), sondern auf die andere Seite übertragen: \sloppy, penalties anpassen, Text umschreiben
  • Tabellen und Abbildungen
    • Alle Abbildungen im Text einführen und beschreiben
    • Die Captions von den Abbildungen bzw. Tabellen sollen selbsterklärend sein: nicht nur was gezeigt wird (z.B. Fehler vs. Datenmenge), sondern was es uns sagt (z.B. ab einer gewissen Menge an Daten reduziert sich der Fehler nur insignifikant).
    • So viel wie nötig aber so wenig wie möglich Information zeigen
    • Akzente setzen z.B durch den Wahl eines passenden Diagrammentypes, Achsenlogarithmierung usw
    • Tabellenformatierung: beste Werte durch Formatierung hervorheben (z.B. fett machen)


Plagiate

  • LIEGT EIN VERSTOSS VOR, MUSS DIE ARBEIT MIT 5.0 BEWERTET WERDEN!
  • jegliche Art von Plagiaten ist zu vermeiden:
    • jegliches fremdes geistiges Eigentum muss zitiert werden (Bilder, Text, Web-Seiten, etc.)
    • zitieren bedeutet nicht, dass danach Text 1:1 kopiert werden darf!
    • Umstellen von Woerten ist auch noch ein Plagiat!
  • Jede Ausarbeitung wird auf Plagiate gecheckt!
  • Um Aerger zu ersparen: ALLES MIT EIGENEN WOERTERN SCHREIBEN UND ABBILDUNGEN SELBST ERSTELLEN!
  • Bitte beachten Sie dazu auch die zentralen Hinweise unter Regelungen für Prüfungen am Lehrstuhl V

LaTeX

Formalia

  • Vortrag: 20min + Diskussion
  • Ausarbeitung: 5 Seiten im IEEE Format (Template, s.o.), excl. Quellenangaben.

Wichtige Termine

  • Anmeldung ist nicht mehr möglich
  • Themenzuteilung: 3.2, Rückmeldung bis 24.2
  • Vortragstermin wird (geblockt) zugeteilt, voraussichtlich 1./2. Juni Woche
  • 4 Wochen vor dem Vortrag - ein Entwurf der Ausarbeitung beim Betreuer einreichen (per Email)
  • 2 Wochen vor dem Vortrag - Folien beim Betreuer einreichen
  • Am Tag des Vortrages - Abgabe der fertigen Ausarbeitung